冯超等，《人工智能数据训练阶段相关风险简析》

文 |冯超，薛莲，王润静泰语合泰（北京）律师事务所项目

·生成式AI数据训练涉及哪些法律风险？1. 合法使用数据 **2. 涉及知识产权的情形3. 涉及个人信息的情形四、结语生成式人工智能图纸著作权侵权案首例近日一审判决的公布，引发了学术界和产业界对人工智能生成产品著作权的又一轮热议，生成式人工智能所涉及的问题，除了人工智能生成产品的著作权尚无定论外，生成式人工智能数据训练阶段是否侵犯相关权利人的权益也存在一些争议。对此，笔者将对此问题进行简要梳理和总结，并请批评和纠正不足之处。

·生成式AI数据训练涉及哪些法律风险？

根据《生成式人工智能服务管理暂行办法》第七条，生成式人工智能服务提供者训练数据的相关具体要求：

a）使用具有法律依据的数据和基础模型 **;

2）涉及知识产权的，他人依法享有的知识产权不受侵犯;

3）涉及个人信息的，应当征得个人同意或者法律、行政法规规定的其他情形;

4）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性和多样性;

5）《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护》等法律、行政法规的相关规定，以及相关监管部门的相关监管要求。”

下面，笔者将对第（1）至（3）项进行阐述。

1. 合法使用数据 **

该要求源于第7（a）条对使用“具有合法数据的数据”的要求。实践中，违法行为主要体现为不当抓取数据、以撞库等方式访问他人数据库等，构成不正当竞争，[1]受《反不正当竞争法》规定，相关判决如下：

此外，作者指出，《著作权法》第49条和第53条也规定了合法的获取方法。但第四十九条第三款明确界定，“本法所称技术措施，是指未经权利人许可，用于阻止、限制观看、欣赏作品、表演、录音录像，或者通过信息网络向公众提供作品、表演、录音录像等的有效技术、装置或者部件。 “由于绝大多数生成式人工智能服务商并未参与按原样提供相关作品，笔者认为本文未必适用。

2. 涉及知识产权的情形

该要求源于第7条第（2）款，该条规定“涉及知识产权的，他人依法享有的知识产权不受侵犯”。生成式人工智能通常涉及数据训练阶段的数据挖掘，对非电子数据进行数字化的过程可能构成对复制权的侵犯。在永久复制的情况下尤其如此。 [4] 目前，中国尚无与生成式人工智能合理使用相关的诉讼。最相似的，是之前在人工智能领域王欣诉谷歌案。 一审法院认为：抄袭全文的行为属于著作权法规定的复制行为，“抄袭全文的行为与原告作品的正常使用相抵触，会不合理地损害著作权人的合法权益，这种抄袭行为不构成合理使用行为，但构成对原告版权的侵犯”。[5]二审法院虽维持原判但是，在提到美国合理使用的“四要素”时，提到“虽然未经授权的复制原则上构成侵权，但专门为合理使用目的的复制应与后续使用一并考虑，也可能构成合理使用。同时提到，“在著作权法第二十二条规定的特定情形之外确定合理使用时，应当严格控制合理使用的认定标准。 “在本案中，谷歌没有提交关于复制是否构成合理使用的证据，因此其关于复制构成合理使用的主张是不够的。 [6]一审法院和二审法院在合理使用方面的判定略有不同。

目前，我国《著作权法》第24条以列举的形式规定了12种具体的合理使用情形，以及“其他情形”的包罗万象条款。生成式AI数据训练很难将12个具体的合理使用场景归类，但第13项中的包罗万象的条款为其合理使用判断留下了空间。《最高人民法院关于充分发挥知识产权审判职能促进社会主义文化大发展繁荣、促进经济自主协调发展若干问题的意见》[7]第八条也提到了“四个要素”的判定方法。

然而，不少学者评论认为，立法中缺乏对这一新情况的具体规定，可能会导致法律不明确等一系列弊端。 “目前，法院似乎涉嫌违反版权规定，在判决中经常混用'三步检验法'和'四因素法'，判决结果往往难以实现。【8】“这种在裁判中故意忽视合理使用类型的明确，在合法性方面存在重大隐患。随着AI产业的快速发展，未来可能会有越来越多的作品被使用，如果对AI深度学习的行为本质没有明确的立法定义，可能会引发大量的诉讼，不利于互联网行业的健康发展。 [9] “鉴于中国司法裁判中经常出现混杂和过于武断的概念移植，以及不同司法管辖区对版权例外的灵活性和稳定性的争论尚无定论，因此，不同法院对中国版权的司法认定标准有自己的政策也就不足为奇了。 ”[10]

因此，有学者主张将生成式AI数据训练纳入合理使用范围。在《著作权法》的修订中，为AI数据训练扫清了道路。

如：徐晓本数据的价值分为分析后的原始价值和知识增值的价值，认为机器学习并不涉及作品的原始价值，“人们不会评估AI深度学习过程本身的价值，而只会在内容输出之后，他们能判断它是否有价值吗”。至于机器学习的知识增值，认为机器分析不会呈现原作的本来面目，其形成的知识增值是独立于作品原有价值的。而且，这种知识欣赏不会影响作品的原有价值和市场利益，因此著作权人通过复制权来控制人工智能的使用，并试图分享增值利益是没有正当依据的。人工智能深度学习的行为可以属于版权制度中的合理使用类别。 [11]

同样焦和平在“表现性使用”和“非表现性使用”的二分法中区分作品的使用。不过，焦和平认为，“非表达性使用”可以作为“转化性使用”的抗辩理由，但“表达性使用”仍面临侵权风险，但为了价值起见，应在制度上予以回应，并将AI数据的使用纳入合理使用范围。 [12]

林秀琴有人提出，“传统著作权法的'作者中心主义'和严格的'三步检验'无法满足人工智能技术变革的需要。为了促进人工智能技术的创新和发展，应扩大合理使用并使其制度化。 ”[13]

刘友华同时，“宽松的版权保护模式会抑制作者的创作热情”，“将机器学习完全排除在合理使用体系之外是不合适的，也不能完全纳入，而应根据具体情况进行分析”。 “具体来说，商业和非商业之间的区别。 [14]

同样，也有学者肯定了司法自由裁量权，如丛立贤等，认为“合理使用包罗万象的条款是司法路径上更可行的解决方案”。但是，由于对权利的限制不应过分'开放'，因此在单一案例中适用美国的三步检验法和四要素法则，作出综合判断更为可行。 [15]

3. 涉及个人信息的情形

对于涉及个人信息的第（3）项，生成式AI服务提供者可以参考的典型案例是“脉脉”非法获取、使用微博用户信息的不正当竞争纠纷案，确立了“三重授权原则”。

新浪-麦麦案入选2024年北京法院知识产权司法保护十大案例，影响了未来多起类似案件的裁判。 2024年《个人信息保护**》第23条对三重授权原则作出立法回应：“个人信息处理者向其他个人信息处理者提供其处理的个人信息的，应当告知个人信息接收者的名称、处理目的、处理方式和个人信息类型，并取得个人的单独同意。接收方应当在上述处理目的、处理方式、个人信息类型范围内处理个人信息。接收方改变原处理目的或者处理方式的，应当依照本法的规定重新征得本人同意。

对于三重授权原则，学术界和业界也有不同看法。

那些有积极意见的人，例如薛军相信三重授权更好地平衡了各方利益，“对未来个人信息保护和我国数据信息产业健康发展具有指导意义”。 [16]

不同意的人，例如：徐娟通过对博弈均衡模型下企业决策的分析，得出三重授权原则“不符合利益决策模式”，“不利于技术创新，还涉嫌伪隐私保护，不基于强市场保护效果做出决策”。 [17]

不拘一格的观点，例如：徐渭认为三重授权原则不应普遍适用于所有数据类型，涉及个人信息的数据类型应分为可识别的原生数据和不可识别的衍生数据，并针对不同情况采取不同的规则。 [18]

四、结语

生成式人工智能等新兴技术的快速发展，给传统法律体系带来了一系列挑战，也催生了学术界和产业界许多不同的视角。《生成式人工智能服务管理暂行办法》是我国在新兴领域立法的最新成果，体现了中国对新技术、新应用发展的监管策略的持续推进。第 7 条为生成式 AI 服务提供商的数据训练提供了明确的指导。未来，相关法律制度可能会进一步完善，相关规则的解释可能会进一步明确和具体化。相关单位对此可以密切关注。

注释（上下滚动查看）。

1]有必要确定两者是否构成竞争关系。[2] 万勇：“人工智能时代著作权法合理使用制度的困境与出路”，《社会科学丛书》，2024年第5期。 [5] 北京市第一中级人民法院（2011）易中民初字第1321号。

[6]北京市高级人民法院（2013）高民终字第1221号。[7] “正确识别合理使用和法律允许的行为，依法保护作品的合理使用和传播。” 在确需促进技术创新和商业发展的特殊情形下，考虑作品使用的性质和目的、使用作品的性质、使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果使用不与作品的正常使用相冲突，且不合理地损害作者的合法权益，则可能被认定为合理使用。”

[8] 张金平：“人工智能合理使用的困境及其解决方案”，《环球法律评论》，2024年第3期。[9] 徐晓本，杨轶男，“论人工智能深度学习中版权的合理使用”，《薛角》，2024年第3期。

[10]熊琦：《著作权合理使用司法认定标准解读》，《法学》，2024年第1期。[11] 同上。 [12] 焦和平：“人工智能创作中数据获取与利用的著作权风险与缓解路径”，《当代法学》，2024年第4期。 [13] 林秀琴：《人工智能时代著作权合理使用制度的重塑》，《法学研究》，2024年第6期。 [14]刘友华，魏远山，“机器学习中的著作权侵权问题及其解决方案”，华东政法大学学报， 2019， 22（02）： 68-79[15] 丛立贤，李永林，“聊天机器人生成内容的版权风险与治理——基于ChatGPT应用场景的视角”，《中国出版》，2024年第5期。 [16] 徐娟：“疑难互联网案件中数据权益保护的风险决策树模型”，《南京社会科学》，2024年第3期。 [18]徐伟：“企业数据采集”三重授权原则“的反思与类型学建构》，《薛交》，2024年第4期。

冯超等，《人工智能数据训练阶段相关风险简析》

相似文章

数据资产、大模型、人工智能 2023中国数字年会干货满满！

大数据与人工智能在智慧矿山中的协同作用

矿山智能化改造：大数据与人工智能的协同

在人工智能“兴起”的当下，如何解决数据中心的问题？

开启未来：数据分析和人工智能赋能智能供应链