冼汉迪谈人工智能时代语料库建设的合规问题

3月2日下午，中国国家互联网空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料库建设与合规”研讨会。全国人大代表、政协委员及学术界、法学界、行业专家出席会议，就人工智能大型模型语料库采集、处理、流通所涉及的相关法律问题进行深入研究。

中国手机电子集团全国人大代表（00302.）HK）联合创始人、国宏嘉信资本创始合伙人辛汉迪先生就《人工智能语料库的构建与合规思考》发表了自己的看法，他说：模型训练仍然有很大的版权侵权风险，我的观点是，为了人工智能产业的发展，我建议在合理使用版权作品的情况下，一些大型模型可以免除版权责任，但不是无条件和无限制的;应鼓励技术创新，如发展智能版权识别技术，以更好地帮助和管理版权问题; 要鼓励公众多参与这一话题的讨论，提高版权意识和知识产权教育，共同推动人工智能技术的健康发展。

以下为演讲全文：

大家下午好，非常感谢大家的邀请，很高兴今天能和大家一起讨论智能语料库建设与合规的问题，这里我也就谈谈我的想法。

一目前，大型模型训练仍存在较大的版权侵权风险

首先，让我们回顾一下大模型的基本概念。大型模型是一种深度学习模型，可以在海量数据上进行训练，以实现自然语言理解和生成等任务。但正是因为其训练依赖于大量数据，涉及使用受版权保护的作品，这也引发了对版权侵权的担忧，而未经授权使用第三方平台工作数据进行大模型训练也引发了一些纠纷。

很多AI开发者没有透露自己训练数据集中关于生成式AI所用数据的确切细节**，但大致可以分为两步：第一步是通过购买数据库、公开抓取等方式获取海量内容数据，再经过某种形式的改造后存储在相关服务器中; 第二步，对内容数据进行分析和处理，以找到某些模式、趋势和相关性，并将其转换为大型模型参数，以便后续生成内容。但是，其中一些数据包含受版权保护的内容。

例如，包括 Google、Facebook 和 OpenAI 在内的 AI 开发人员正在使用“Colossal Clean Crawled Corpus”数据集（通常简称为 C4 数据集）来训练大型模型，其中包含大量受版权保护的内容**，这些形式的数据收集也会引发版权归属和合理使用的问题，这是生成式 AI 技术健康发展的关键。

第二判断用于大型模型训练的受版权保护的作品是否侵权的现有标准是什么？

为了进一步了解如何判断使用版权作品训练大型模型是否侵权，我还去了解了中国的相关法律法规：

我国著作权法第24条规定了“合理使用”的具体情形（即可以不经著作权人许可，不向著作权人支付报酬而对作品进行利用），涉及大模型训练的具体规则一般包括“个人使用”、“适当引用”、“学习研究使用”、等。

其中：第一点是“个人使用”的适用目的有严格限制，目前大模式主要用于商业服务，不符合本项;

第二点，“适当引用”，法律规定的前提是“以介绍或评论为目的解释某项作品”或“说明某项问题”，而AIGC模式的商业应用显然不符合这一项;

第三点，“科学研究”，将作品的使用限制在“学校课堂教学或科学研究”，并且还强调只能制作少量的复制品，而目前大型模型大量复制和使用作品的现状无法满足这一要求。

那么，如果只根据著作权法来看，使用未经授权的著作权作品进行模型训练无疑是侵权的。

但是，除了著作权法之外，为了使著作权法服务于促进全社会文化知识共享、内容传播技术进步等更高层次的公共利益，各国也制定了例外规则，即如果满足“三步检验法”，也可以判定为“不侵权”。三步检验法的具体内容是“只能在特殊情况下制作，不与作品的正常利用相冲突，不无理损害著作权人的利益”。

至于用这三个步骤来判断一个大模型是否侵权，相信今天在座的各位法律专家也会有自己的专业意见。我想重点关注以下几点：未经授权使用受版权保护的作品进行模型训练是否会对受版权保护的作品产生市场影响？这是否会导致公共利益的不平衡？这一定是一个价值考量和利益平衡的过程，很难说有100%的正确答案。我相信AIGC的发展将极大地促进社会的发展。虽然模型培训可能会对著作权人产生一定的市场影响，但如果在培训过程中过分强调著作权作品的付费，肯定会限制甚至阻碍AIGC产业的发展。

因此，我们也看到，自ChatGPT发布以来，为了推动AI的发展，世界各国其实在对法律的完善进行了初步探索，在一定程度上以“免除AIGC平台在模型训练阶段的版权责任”为目标。例如，欧盟、日本和美国都通过修改法律规定，对大型模型的版权责任进行了一定程度的免除。

第三建议

因此，我想提出以下建议：

1.为了人工智能产业的发展，我建议在合理使用版权作品的情况下，一些大模型可以免除版权责任，但不是无条件、无限制的。

2.鼓励技术创新，例如开发智能版权识别技术，以更好地帮助和管理版权问题。

3.鼓励公众参与该议题的讨论，提高版权意识和知识产权教育，共同推动人工智能技术的健康发展。比如，像今天这样的讨论就是一个很好的机会，所以我想再次感谢主办方组织了这样的发布会，让我们能够就AI语料库构建和合规的问题进行更深入的思考和交流。

以上就是我的分享，谢谢！

热点引擎程序

冼汉迪谈人工智能时代语料库建设的合规问题

相似文章

人工智能革命：如何在人工智能时代保住你的工作

步入人工智能新时代

在人工智能时代，我们看好硅光子学！

人工智能时代始于锐龙 8040 移动处理器功能

AI人工智能时代