谁拥有大型模型生成工作?我的数据会被用作训练“营养”吗?
作者:IT时报记者 沈一斌
编辑:钱立夫、孙燕
近日,国内首例AIGC案件一审判决揭晓。 法院判决原告享有涉案著作权,被告的行为构成侵权,应承担相应的法律责任。
今年年初,原告李某使用开源软件Stable Diffusion,通过输入提示词生成**,并发布到社交平台上。 后来,李某发现刘某在刘某的《百家号》一文中使用了**,于是提起诉讼。
Stable Diffusion将版权完全交给用户,这也是原告能够胜诉的原因之一。 然而,并不是所有的大型模型公司都愿意将自己作品的版权交给用户。 那么,究竟谁拥有用户生成的版权呢?
动荡并不止于此。 近日,WPS提出的“用户上传的文档和资料在脱敏后作为AI训练的基础材料”的隐私条款引发外界关注。 迫于压力,WPS随后更改了其隐私条款。 然而,许多大型模型的隐私条款中仍有类似的规定,这引起了用户的担忧,即他们的数据将被用作训练大型模型的“营养品”
谁拥有生成作品的版权?面对《IT时报》记者这样的提问,大模型给出了不同的答案。
知浦清妍模特回复:“您基于知浦清妍生成的内容的版权归您所有,经独立判断使用。 如因版权问题给用户造成损失的,知矗华章公司不承担责任,但如用户给知矗华章公司造成损失,用户有权向用户追偿。 ”
温辛奕妍的回答呈现出“太极风格”:“目前,法律学界和司法界还没有统一的答案,建议咨询法律专业人士。 商汤科技也是如此,它说“版权取决于用户与商汤科技之间的具体协议或使用条款。 ”
科大讯飞星火和Minimax明确回答:“版权归公司所有。 ”
答案大不相同,都与各大模型对AI产品知识产权的监管有关。
科大讯飞星火在《用户体验规则》2第2条规定:“未经我们书面同意,您无权复制、分发、转让、出租、出借、许可、转让、向他人提供或以任何商业方式提供本服务产生的内容(输出内容)。 ”4.第二条还规定:“除有相反证据外,您利用本平台服务上传、发布或传输内容,即表示用户不可撤销地授予科大讯飞及其关联公司非排他性、不受限制、永久、免费使用(包括存储、使用、复制、修订、编辑、出版、展示、翻译、商业或非商业用途、 如分发上述内容或制作衍生作品)以及将此类内容的使用再许可给第三方的权利,以及以自己的名义对第三方侵权行为进行取证和起诉的权利。”
这可以理解为用户在科大讯飞星火上传的文字、**等信息,可供本公司用于商业或非商业用途但是,当用户想要使用自己生成的产品时,必须获得科大讯飞的书面同意。
文信亿言相关条款及细则表明,文信亿言服务中提供的内容(包括但不限于软件、技术、程序、用户界面等)的知识产权属于知识产权,用户输入的内容的著作权不会因上传、发布而转让。 但是,没有指定输出作品的版权。
知步清彦在条款中声明:“您基于知步清彦生成的内容的著作权由您维护,经独立判断后使用。 ”
我更喜欢版权属于用户。 面对不同的大型“用户协议”,北京昊天律师事务所知识产权律师刘松辉说。
在刘松辉看来,版权是属于大样板企业还是属于用户,需要根据具体情况进行分析。 关键是产品是否是原创的,是人类智慧的结果。 “就原创性而言,如果单纯要求模特写诗或计划旅行计划,不符合上述要求,不受法律保护;如果创作者提供足够的内容大纲或模板,并对大模型反馈的文本进行反复调整和打磨,使AI生成的产品体现创作者的个性化选择、判断、安排、技能等,那么就可能具备作品的原创性要求,可以受到相关法律的保护。 刘松辉说。
中国政法大学传播法研究中心副主任朱伟在接受记者采访时表示,对于AI生成内容的著作权认定,企业的用户协议是从自身角度考虑的,不影响法律的判断。 他认为,目前还处在弱人工智能时代,现有的著作权法可以适配大模型的生成,只有在强人工智能时代,版权的争议才会更大。 ”
就在AI生成**侵犯版权首案一审结果披露前几天,11月18日深夜,WPS的道歉声明引发关注。
道歉的原因是,WPS此前在隐私政策中规定:“我们将使用您上传的文档材料作为脱敏后AI训练的基础材料。 ”
这一条款引起轩然,WPS随后发出道歉信并更新了隐私政策,承诺所有用户文档不会用于任何AI训练目的,也不会在未经用户同意的情况下用于任何场景,并通过第三方独立机构定期进行隐私政策合规审查,以确保承诺得到兑现。
虽然WPS对隐私条款进行了修改,但记者发现,很多大型模型公司在隐私政策中都有类似的表述:“在法律适用的情况下,我们会通过技术手段对个人信息进行去标识化处理,并可能将数据用于模型算法训练”。
科大讯飞星火在《科大讯飞开放平台隐私协议》中的《数据处理说明》中提到:“科大讯飞星火可能会根据适用的法律法规,对用户的个人信息进行技术处理,并对处理后的信息进行匿名化或去标识化的学术研究或统计分析(包括使用匿名化或去标识化的语音信息进行模型算法训练),以更好地完善产品功能和服务能力。 ”
文心一彦在《个人信息保护规则》中表示:“个人信息通过技术手段去标识化后,去标识化后的信息将无法识别主体。 在此情况下,文心一言有权使用去标识化后的信息;在不泄露用户个人信息的前提下,用户有权对参与者的数据库进行分析并用于商业用途。 ”
此外,豆宝、知铺青烟、百川智能、商汤科技等也都提到了去标识化和匿名化,以及在法律适用的情况下,有权将处理后的数据用于大模型训练和商业化。
那么,这些去标识化、匿名化、脱敏化等处理后的数据能否在未经个人同意的情况下被企业使用?
从法律角度来看,去标识化和匿名化的个人信息和数据不再归个人所有,因为无法保证数据的真实性。 侃宝律师事务所律师何思远向《IT时报》记者解释,根据《中华人民共和国个人信息保护条例》,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化信息。 根据《数据安全法》的规定,数据处理包括收集、存储、使用、加工、披露等,处理者在信息处理过程中不得窃取或者以其他非法方式获取数据。
然而,在实践中,用户并不知道信息处理是否干净合法。
上海大邦律师事务所知识产权律师游云婷在接受**采访时表示,大模型训练中使用的数据是一个黑匣子,用户可能不知道自己被侵权了,即使知道了,也很难收集证据和提供证据。 因此,他认为大模型平台应该设计一种自动过滤机制,在用户上传信息的阶段过滤掉个人信息。 这也应该是平台的责任和法律义务。
纵观线上几款大机型的用户协议和隐私政策,唯一提到过滤机制的就是minimax。 它指出,“Minimax在注册或申请开放平台时,不会对用户的会话与个人信息进行绑定或建立任何关联,并将改进服务的过滤机制,特别是与个人信息的对话内容将被过滤、删除和不保存。 ”
这样一来,大模型的隐私政策要求用户“同意服务,否则将无法享受服务”,而就其本身而言,“可以将处理后的数据用于大模型训练和商业化”。 面对这样的不对称协议,想要保护自己的个人信息不被用作大模型训练数据的用户,在使用大模型对话时,只能尽可能少地泄露隐私,也可以按照《隐私政策》的规定,要求企业撤回使用自己的数据。
排版:季佳莹.
维特泰斯