大模型时代,“谁拿到数据,谁就赢天下”,但如何定义数据侵权?

小夏 科技 更新 2024-01-31

文:陈继申,编辑:吕东)。

2024年以来,随着生成式AI的爆发,不仅在一定程度上为用户提供了便利,也不断重塑着互联网行业的竞争格局。

本周,《纽约时报》起诉OpenAI和微软非法收集新闻进行训练(《纽约时报》起诉OpenAI和Microsoft“不劳而获”,并要求将其消除),再次揭露了大型模型开发中涉嫌非法收集数据的问题。

据不完全统计,仅在加州,今年就发生了数十起针对大型模型开发者非法使用数据的诉讼。

这些诉讼频发的背后,是现行著作权法中对数据的极度渴求与大模型数据快速增长的困难之间的矛盾,与现有“先授权后使用”的著作权法律制度无法与AI时代数据的使用相匹配,这也引发了法律监管方面的新问题。

大模型训练阶段涉及哪些著作权利用行为,在此过程中可能存在哪些侵权风险?面对这个问题,全球监管部门也给出了自己的答案。

数据为王,版权诉讼战频发。

在2024年,当大模型正在发展时,《纽约时报》对OpenAI和Microsoft的诉讼只是将全年进行的版权诉讼战的一个缩影。

今年 1 月,Getty Images 对 AI 图像生成器开发商 Stability AI 提起法律诉讼,指控其非法复制和处理受版权保护的图像作为模型训练数据。

今年4月,环球集团(Universal Group)致函Spotify等流媒体平台,要求切断与AI公司的联系,以防止其受版权保护的歌曲被用于训练模型和生成。

6月,国内教育培训巨头雪尔斯也因擅自使用搭档笔神构图数据进行大模型训练引发纠纷。

据不完全统计,从2024年11月到2024年10月,仅加州北区法院就受理了10起著作权人起诉AI、Open AI、Meta、Alphabet等AIGC研发公司未经授权使用版权作品进行模型训练的案件。

在被告名单上,可以看出各类互联网巨头都在其中,而频发侵权诉讼的背后,是大型模特公司对数据的极度渴求。

一位业内人士告诉观察家:“在当前大规模模型竞争的时代,与算法相比,谁拿到数据谁就赢了天下。 ”

一方面,训练数据是大模型训练的基石和燃料,没有数据,大模型的训练就无法开展和持续。 另一方面,目前技术领域的研究表明,大模型在算法层差异不大,存在同质化的趋势。 在此背景下,训练数据成为真正区分和影响大模型性能的重要因素之一。

以 OpenAI 的几代 GPT 模型为例,GPT-1 预训练数据量在训练数据方面仅为 5GB在 GPT-2 中,这个数字增加到 40GB在 GPT3 模型下,OpenAI 用于训练模型的数据集数据达到了惊人的 45TB,与 GPT3 的 1750 亿个参数相比,GPT4 已经达到了 100 万亿个参数,对数据的需求呈指数级飙升。

与需求的增长相比,对于大型模型公司来说,自身的数据和公开数据显然难以满足这种指数级的需求,而来自互联网等朋友的“搭便车”已经成为业内公开的秘密,也成为版权诉讼频发的根本原因。

为了应对“窃取数据”的现象频发,除了诉讼之外,不少互联网公司还利用技术手段开启了防御模式。

目前,“数据提供者”方面已经有多家公司响应了数据抓取、开源等。 例如,X(以前称为Twitter)限制了用户每天可以查看的推文数量,因此几乎不可能使用数据服务。 马斯克曾表示,这是对“数据抓取”和“系统操纵”的必要回应。

2023 年 4 月,Reddit 正式宣布将向调用其 API 的公司收费,正是因为 OpenAI、谷歌等公司使用来自该平台的数据来训练模型。

此外,Stack Overflow 还计划向大型 AI 模型的开发者和公司收取数据访问费。

传统法律难以解决大规模的模式纠纷。

在众多诉讼的背后,除了大模型快速发展带来的数据饥荒外,另一个重要因素是现有的传统版权制度没有明确规定大模型的版权,存在巨大的法律盲区。 目前的许可著作权制度甚至可能成为大型模型产业发展的桎梏。

在传统的许可制度下,基本都是先获得授权后使用的原则,而对于大模型训练来说,由于数据量庞大,著作权归属不同,如果采用预授权规则,不仅要准确分离版权保护所涉及的数据部分,识别权利人, 但也需要与每部著作权作品的权利人协商并支付**考虑到大模型的数据量,即使大模型的开发者愿意申请授权,这个过程也会极其漫长,成本将是天文数字,任何厂家都很难实施操作。

不仅如此,就授权本身而言,现行的著作权法规在大模型领域也存在异议。

考虑到大模型的训练行为类似于自然人阅读作品后吸收再创造的新闻,而阅读书籍本身和模仿、借用作品不属于现行的著作权法律法规,因此,对于侵权本身的定义,业内还有很大的讨论空间。

从著作权法的角度来看,“获取作品”,或接触作品,类似于离线浏览网页和阅读书籍。 现阶段的核心版权问题主要涉及是否存在破坏作品“技术保护措施”的行为。

根据中华人民共和国著作权法的规定,违反作品保护技术措施的规定也构成侵权。 即使作品在“合理使用制度”下使用,但为了获得作品而必须规避技术措施,如果这种规避不符合著作权法第五十条关于规避技术措施的豁免规定,可以认定其构成违反技术措施,并在确定合理使用的基础上承担侵权责任。满意。

中国《著作权法》规定了五项豁免。

除了法律层面的不确定性外,如何认定侵权在实践中也是一项极其复杂的任务。

对外经济贸易大学数字经济与法律创新研究中心执行主任张昕曾表示:“大规模模型监管的实施还存在追溯困难等问题,尤其是在算法复杂度增加、”算法黑匣子“出现的情况下。 ”

有业内人士认为,如果一味追求稳定性,减少数据采集**,那么最终训练的模型会因为规模不足、数据质量低而失去竞争力。 但是,如果想通过更大规模的数据来训练大模型,在现行法律法规下,无论是潜在的许可成本高,还是侵权风险的不确定性高,都是大模型行业发展的一大隐患。

免责,各国在做什么?

事实上,面对这一行业发展带来的实际问题,世界各国已经开始探索和立法,其中美国、欧盟和日本都对AI大模型训练的版权给出了自己的解释和规定。

美国《著作权法》第107条对专利的合理使用给出了四个考虑因素,即:(1)使用的目的和性质;(2)受版权保护的作品的性质;(3)使用零件在使用工作质量和数量中所占的比例;(4)使用对受版权保护作品的潜在市场或价值的影响。 这被称为合理使用的“四因素测试”。

在这四个要素中,美国法院最初认为第四个要素,即商业利益,起着重要作用,后来又强调了第一个要素,即使用目的的重要性,并扩展了实践中常见的“变革性使用”一词。

它与第一个要素“使用意图和特征”有关,这是法院在侵权案件中调查的重点。

转化性使用是指使用者借用其他著作权人的作品,在作品的基础上创作出具有新信息、新美学、新见解和新理解的新作品。

这个定义可能令人困惑,但这里有一个关于转换判决在中国的应用的案例研究。

2024年,作品《葫芦宝贝》《黑猫警长》的著作权人美影影业向法院提起诉讼,要求判令新影时代公司侵权,理由是新影公司出品的电影《80后独立宣言》宣传海报上有很多艺术形象, 包括《葫芦宝贝》和《黑猫警长》的图片。2024年,上海知识产权法院裁定,电影海报提及《葫芦宝贝》和《黑猫警长》的艺术作品,目的是为了反映影片主人公在童年时期经历过这部动画片的流行所具有代表性的童年记忆,而不是简单地再现这两部艺术作品的艺术美。 虽然电影海报引用了原告的艺术作品,但这两件艺术作品对原有艺术价值和功能的转化,应属于合理使用情形,不构成侵权。

电影《80后独立宣言》海报中出现了葫芦宝宝、黑猫警长等元素。

然而,值得注意的是,由于目前尚未发布相关诉讼判决,美国司法界是否承认人工智能培训材料适合变革性使用仍无定论。

然而,2024年5月,美国国会就“交互与版权法中的人工智能”举行听证会,美国版权局前总法律顾问Sy Damle表示:“任何强迫模特为培训内容支付许可费用的企图,要么使美国.AI行业破产,要么消除我们在国际舞台上的竞争力。要么将这些领先的人工智能公司赶出该国。 ”

可以看出,美国对大规模模型数据的侵权行为更加开放。

2024年,日本修订了《著作权法》,在《著作权法》第30条第4款中增加了新的合理使用条款,其中包括“不以欣赏作品原始价值为目的的利用”。 根据日本文化厅的解释,此次修订从整体上扩大了对版权的限制,旨在鼓励创新,迎接以人工智能、物联网和大数据为代表的第四次工业革命。 值得注意的是,日本《著作权法》的新一轮修正案于2024年5月17日由参议院投票表决,并未修改第30条第4款。

在修订《著作权法》的同时,2024年5月,日本**披露了其在著作权法领域对模型培训的态度——不会对AIGC模型培训中使用的内容进行版权保护。

日本文部科学大臣长冈惠子表示,日本法律不保护AIGC模型训练集中使用的受版权保护的材料,即允许AIGC模型训练利用版权所有者的作品,无论是出于非营利还是商业目的,无论是复制还是非复制。 这在一定程度上验证了日本著作权法第30条第4款规定的“不使用作品原有价值”的免责条款,可以适用于当前的AIGC模型训练行为。

相较于美国和日本,欧盟最新法律对AI大模型数据的要求**做出了更明确的规定,并设定了侵权的罚款标准。

2023 年 6 月 14 日,欧洲议会投票通过了《人工智能法案》,该法案也是全球首个通过议会程序专门针对人工智能(尤其是 AIGC)的综合性立法。

在法案中,明确规定ChatGPT等生成式AI系统需要遵守透明度要求,包括披露内容是由AI生成的,以帮助区分所谓的深度伪造图像和真实图像。 同时,这些工具需要有适当的保护措施,以防止非法内容的产生。 更重要的是,像OpenAI这样的供应商需要披露他们在训练模型的过程中使用了哪些受版权保护的数据。

违反《人工智能法》可处以最高年收入7%或3000万欧元的罚款,以较高者为准。

如何解决中国的数据问题?

值得注意的是,与其他国家对版权使用的定义相比,我国现行著作权法无法直接适配AI大模型训练,存在一定的法律空白。

《著作权法》第24条规定了“合理使用”的具体情形(对作品的利用可以不经著作权人许可,无需支付报酬),AIGC模型培养相关具体规则一般包括“个人使用”、“适当引用”、“学习研究使用”等。

对“个人使用”的适用目的有严格的限制,目前的AIGC模式最终是基于对未特定实体的商业服务,难以匹配

“适用前提”的恰当引用是“介绍或评论某项作品”或“解释某一问题”,显然很难将AIGC模式的商业应用归类为此类

作品在“科研”中的运用仅限于“学校课堂教学或科研”,也强调只能复制“少量复制品”,而AIGC模式中作品大量复制和使用的现状无法满足这一要求。

尽管2024年修订的《著作权法》在“合理使用”条款中增加了“一般要求”和“包罗万象的条款”。 但是,“包罗万象条款”是半开放的内容规定——“法律、行政法规规定的其他情形”,法院在司法实践中不能根据案件的具体事实结合“一般要件”直接适用。 因此,“合理使用”豁免能否适用于AIGC模式训练,还有待后续《著作权法》、《著作权实施条例》等相关立法的修订来明确。

此外,我国《著作权法》关于“法定许可”的规定相对分散,可归纳为“期刊**”、“文艺团体表演”、“录音制品制作”、“广播电视台利用他人出版作品制作广播电视节目”四类,与模型训练行为有很大差异,难以匹配适用。

但值得注意的是,虽然很难确定大模型对外部数据的采集是否违反了我国《著作权法》,但有律师认为可能涉及违反《著作权安全法》。

陕西华格律师事务所律师葛伟超表示:“利用抓取技术破坏他人的市场竞争优势,具有和存在的主观意图为自己谋取竞争优势,违反了诚实信用原则,扰乱了竞争秩序,数据抓取行为可能构成不正当竞争行为。 同时,也直接违反了《数据安全法》的相关规定。 ”

今年6月,中文**、同方知网、中国工人出版社等26家单位联合发布了国内首份AIGC训练数据著作权提案。 作为业界首个AIGC数据版权倡议,业界认为其最大价值在于两点:一是唤醒了国内AI企业对大模型训练数据的版权意识;其次,它为AIGC开发者避免版权纠纷提供了方向性指导。

从内容上看,虽然该提案不具备事实上的法律效力,但唤醒公众、学者和相关部委对人工智能版权现状的认识,更是一个早期问题。 针对AIGC领域的专家学者和AIGC从业者,从深化版权问题研究、赋能行业发展、避免侵权、引导AI生成内容合理使用、提高版权保护意识、优化内容许可渠道等六个方面提出建议。 它涵盖了从AIGC模型的开发到产品的使用,从版权问题的理论研究到数据流通的实践的各个方面。

大模型的开发离不开海量数据的帮助。 目前,数据的知识产权已成为大模型发展的致命弱点。 AI模型开发者获取训练数据需要以何种方式、多大程度承担法律义务,是当前行业需要解决的核心问题。

相似文章

    AI大模型专题 大模型时代耳机战略地位的核心受益者

    今天分享AI大模型系列深度研究报告 AI大模型话题 大模型时代耳机战略地位的核心受益者 报告制作人 民生 报告共 页。专题报告 人工智能学院 . 中国领先的耳机和音频设备综合制造商 漫步者是中国领先的耳机制造商,根据Canalys数据,截至Q,该公司的TWS耳机在国内的市场份额为 年,公司在北京中关...

    大模型时代,DevOps如何“跟上步伐”?

    随着各行各业数字化的推进,企业对敏捷性的需求逐渐增加,对敏捷性的需求不仅限于IT架构,在软件开发和部署中也对敏捷性的需求。目前,我们已经进入了一个 只有快速和牢不可破 的新时代。在这个时代,许多企业都希望通过敏捷创新快速看到业务转型的成果。在这种背景下,DevOps正在成为核心业务增长的驱动力,不仅...

    数据资产、大模型、人工智能 2023中国数字年会干货满满!

    聚焦数据资产 大模型 人工智能等关键词,中国数字年会干货满满!月日 日,中国数字年会在四川成都举行。大会以 数智智 为主题,汇聚了数字领域的顶尖专家和行业领袖。线上举办的两场高峰论坛,干货爆满。大牌们带来了哪些奇妙的创意,本文就和大家一起回顾一下吧!中国数字学术年会 作为中国数字化年会的重要组成部分...

    您是否必须依靠人类数据进行大型模型微调?DeepMind 在自我训练和反馈方面做得更好

    由机器之心报告。编辑 杜伟 陈萍 面对目前微调大型模型以主要依赖人工生成数据的做法,Google Deepmind 探索了一种更有效的方法来减少这种依赖性。正如你和我所看到的,大型语言模型 LLM 正在改变深度学习的格局,在生成类质量文本和解决各种语言任务方面表现出卓越的能力。虽然该行业通过监控和微...

    大数据时代的程序员导航员

    在大数据时代,程序员作为技术领域的核心力量,扮演着不可或缺的角色。他们不仅是大数据技术的开发者,更是大数据应用的推动者,是大数据时代的引领者。.大数据技术开发者。程序员在大数据技术的研发中发挥着关键作用。通过对海量数据的处理 分析和挖掘,他们实现了数据的价值。从数据采集 清洗 存储到分析 挖掘 应用...