AIGC专题:梳理全球AIGC数据版权规范中哪些领域具有商业化潜力

小夏 旅游 更新 2024-01-31

今天分享AIGC系列深度研究报告:AIGC专题:梳理全球AIGC数据版权规范中哪些领域具有商业化潜力

报告制作人:光大控股**)。

报告总计:15页。

专题报告**:人工智能学院

在AI模型的训练过程中,数据采集、清洗、标注是重要的前提。 随着基于大模型的AIGC应用的逐步推广和商业化,模型训练数据是否侵权需要考虑,用于模型训练的数据可以分为专有数据、开源数据和专用数据集。

对于不同的数据类型,有不同的方式来保证数据的版权,或者通过直接补偿创建者,大大降低了训练数据侵权的风险。 随着AI模型的不断选择和性能提升,下游应用产业链的繁荣,以及相关规章制度的成熟,科技公司需要付出越来越多的成本来保证训练数据的版权和合规性。

1.1、专有数据:版权主要通过版权合作协议、API付费接入等方式进行保障,商业空间广阔

人工智能公司使用专有数据进行模型训练,并可以直接与版权所有者协商,以确保训练数据集的版权合规性。 特定领域的高质量数据和未公开许可的私有数据通常需要付费,但进一步提升大型模型的性能,增强模型对垂直行业的细分能力非常重要。 AL获取专有数据的两种主要方式是版权合作协议和付费API访问。

1.1.1、版权合作协议:Shutterstock、Axel Springer等多家海外版权提供商已与AI公司建立合作关系

高质量的版权提供者语料库对于提高模型的性能和减少数据清洗和标注的工作量非常重要。 新闻版权人拥有丰富、全面、最新的信息,文学作品、艺术创作、影视作品中收录了大量优质培训教材此外,一些材质库对**等材质有注解,可以大大减少数据清洗和标注的工作量。

Shuttertock 已与 Openal、Meta、LG 等公司建立合作,向合作伙伴提供其**、音频等素材进行模型训练,并从中赚取收益,新闻出版社 AxelSpringer 与 Openal 合作,其新闻素材将用于丰富 Openal 的模型训练数据集;Bria AL 是一家基于文盛图的以色列模型公司,已与 Gettylmages 建立了长期合作伙伴关系,以训练来自 Getty LMAGES、Alamy、Envato 等图像版权库的许可内容。

1.1.2. API 付费访问:在过去的 23 年里,Reddit、Twitter 等的 API 访问已经从免费转向付费

通过 API 抓取网络数据对于模型训练数据也很重要。 随着大型语言模型在不同行业领域的应用越来越深入,对专业数据的需求也会增加。

一些高价值、高度专业化的数据提供商对 API 访问收费。 例如,金融领域的 Bloomberg API、新闻**领域的 New York Times API、虚数领域的 Elsevier API、电子商务领域的 Amazon API、Google Maps API 等,都需要付费。

社交平台、开源平台等非专业数据也逐渐开始对API接入收费。 23M4 社交平台 Reddit 和 Twitter 从免费 API 访问转向付费 API 访问背后的原因可能是由于大模型训练需求推动的 API 调用大幅增加,这给这两个社交平台带来了更高的成本。 开源平台 Stack Overflow 宣布将向 A 公司收取训练数据费用。

1.2、开源数据:依靠开放许可协议和特定的数据抓取策略来保护版权,依然存在侵权隐患

人工智能公司使用开源数据进行模型训练,可以通过开放许可协议、特定的数据抓取策略、人工教师检查和社区监督来确保版权合规性。 开放许可是一种标准化的方式,用于授权版权所有者使用数据供他人使用此外,模型厂商还可以通过人工筛选和社区监督,提高训练数据集的透明度,确保版权合规。

1)开放许可协议:开源数据集常见的开放许可协议包括知识共享(CC)、开放数据共享(ODC)、社区数据许可协议(CDLA)等。 有六个知识共享选项: CC BY:作者身份、改编、商业用途CC BY-SA:必须注明作者,并且改编必须在相同的条款下共享;CC BY-NC:需要署名,允许改编,不允许商业使用CC BY-NC-SA:必须注明作者,仅允许非商业用途,改编必须在相同的条款下共享;CC BY-ND:必须注明作者,不允许改编;CC BY-NC-ND:必须注明作者,允许非商业用途,不允许改编。

2)具体的数据抓取策略:AL企业在抓取网页数据时,可以使用特定的策略打开版权信息,网页维护者也可以加强对数据抓取的审核。例如,机器人的网页txt 文件指定了哪些爬虫可以访问,noindex 会阻止网页的索引,从而阻止爬虫。

3)社区监督:A公司可以提高训练数据集的透明度,鼓励社区监督,如果训练数据的创建者主张侵权,可以提出投诉。这种方法更适合开源模型,而对于商业闭源模型,训练数据集通常作为开发人员技术障碍的一部分而保密。

总体来看,开源数据的获取已经形成了完善的版权保护体系,但仍存在一定的僵局隐患。 例如,一些公共页面没有完善的开放许可和 API 抓取规则,甚至公共页面中的内容也可能单独侵权。

1.3、对创作者的直接补偿:海外先进技术对AI生成内容的版权进行鉴定**,设立**将为创作者提供补贴

通过直接补偿创作者来保护版权主要有两种方式:1)事前补偿:版权所有者的作品在被采纳为训练数据时得到补偿;2)事后补偿:通过特定技术追踪AI生成内容的训练数据源,提供针对性补偿。

事前补偿的技术难度较低,但很难确定合理的补偿金额。 海外知名版权库Shutterstock已建立贡献者,当贡献者创建的内容用于AI模型训练时,贡献者将获得补偿,未来使用该模型生成内容时,将持续获得补偿。 这种方式可以保证创作者获得一定的报酬,但不同风格和内容质量对模型训练的贡献是不同的,难以量化,会给报酬定价带来一定的困难。

后期补偿是指通过技术手段对训练数据进行溯源,并给予相应的版权补偿,定价较为合理,但技术难度不成熟。 23m9 卡内基梅隆大学、Adobe 研究院和加州大学伯克利分校合作开发了两种算法,第一种算法可防止模型调用受版权保护的作品,第二种算法可在模型生成包含受版权保护作品的内容时补偿创作者,以及艺术家可以随时选择退出 AI 模型的选项。 此外,基于文生图的以色列模型公司Bria A在23M9开发了归因模型,该模型计算数据源对AI生成内容的影响,从而为训练数据的版权所有者提供更合理的定价。

1.4. 专用数据集:直接应用于 AI 和 ML 数据集,或作为 MaaS 服务的一部分,以增强用户体验

专用数据集是指经过筛选和清理,直接适用于模型训练的数据集,需要数据集提供者履行数据权利确认义务。 专用数据集为开发者进行机器学习和模型训练相关研究提供了有力支持,其中大部分是开源数据集,但也有一部分被使用**。 对于云服务提供商来说,私有数据集通常打包为 MaaS 服务的一部分,以帮助用户更好地训练自己的自定义模型。

1)直接**数据集:这些数据集在前期已经过筛选、整理和标注,由标注的样本或输入输出对组成,可直接用于AI和机器学习模型训练。支付方式包括一次性购买和订阅,受数据量、准确性、覆盖时间、地域等因素影响。 例如,数据集商店 Datastock 在零售、医疗保健、旅游等领域销售高质量、结构化的网络爬虫数据集Datarade是一个数据交易平台,它建立了一个AI和ML训练数据区,供供应商和开发人员交易数据集。

2)将用户作为MaaS的一部分提供:Microsoft、亚马逊、谷歌等云服务商均提供MaaS服务,帮助客户进行AI模型训练和应用开发,包括自研和第三方AI模型调用接口、围绕模型训练技术细节的支持服务和指导等。 对于自定义模型,数据集通常是客户的个性化数据,但一些 MaaS 平台还提供特定的模型训练数据集供客户使用。 例如,Microsoft Azure 云平台为客户提供精选数据集,这些数据集由公开可用的数据制成,并且可以在模型训练期间随时访问。

2.1、版权提供者与AI公司合作互利共赢

人工智能生成内容的快速增长对版权提供者(如**材料库和新闻出版商)构成了一定的威胁。 1)人工智能生成的内容可以上传到版权库进行混合。随着大模型性能的不断突破,AI生成内容的质量也在逐渐提高,甚至很难将其与人类作者和艺术家创作的内容区分开来。 如果大量AI生成的内容上传到版权库,可能会影响用户的付费意愿。 2)人工智能生成的内容可以替代版权库。随着AIGC产品的推广和普及,未来大模型成本的不断降低,以及相关政策的不断完善,AI生成的内容将越来越多地应用于商业产品中,从而挤压了传统版权素材库的生存空间。 因此,版权提供者也需要积极拥抱AIGC趋势,探索传统业务与AI技术相结合的新局面。

对于AI企业来说,模型训练需要海量的高质量数据,AGC产品也需要与更多的信息源进行链接。 为了模型的后续商业化和公司的长期健康发展,最好从版权提供商那里获得高质量的训练数据。 此外,版权提供商还可以丰富AIGC产品的信息**和产品功能,为用户提供用户体验。

2.1.1.海外多**版权库shutterstock: *模特培训及素材产生收益,通过**将为创作者提供补偿

紧随AIGC浪潮,海外知名多**版权库Shutterstock推出生成专区,提供由Openal驱动的AI文生图工具。 Shutterstock 有超过 4 个。 由超过 100 万贡献者提供5亿**,提供的多**材料主要包括:

1)**数量图、**AI生成**等;

2)Pond5**平台:镜头、AE材质、音效、3D模型等;

3)设计:商业营销模板,社交**模板等。 此外,Shutterstock 还提供设计工具,包括编辑器、剪裁工具、AI 生成的工具等。

Shutterstock 与 OpenAI 的双向合作始于 2021 年。 2021 年,Shutterstock 开始与 OpenAI 和 LG 合作;23M7 OpenAI 和 Shutterstock 签署了一项为期六年的合作协议。

Shutterstock 与 AI 公司的合作可以概括为三个方面:

1) Shutterstock 向 Openal 提供模型训练材料的版权。签署协议后,OpenAI 可以访问 Shutterstock 的图像、** 和其他材料,用于 AI 模型的训练数据。 Shutterstock 拥有丰富的优质内容素材版权,在多样性和数据标注方面处于行业领先地位,在训练 AI 模型方面具有巨大优势。

2) Shutterstock 设置了投稿人**,当他们的作者被用于 A 图像模型训练时,他们将获得报酬。Shutterstock 是第一家推出 Contributors 的公司,截至 23M7,它已经补偿了数十万创作者,并继续通过与新生成资产的许可活动相关的版税来补偿创作者。

3)AIGC文盛图和**编辑工具已集成到Shutterstock平台中,并由Openal的文盛图模型DALL·E支持。 创建**并用于模型训练的贡献者将获得使用AI文生图工具的长期权利。 除了 OpenAI,Shutterstock 还与 Nvidia、Meta、LG 等公司合作开发用于文本、图像、3D 等的 AIGC 创作工具。

2.1.2、海外新闻出版商Axel Springer:为Openal提供文本训练数据,通过链接为创作者吸引流量

出版社优质文章素材为大模型训练的优质文本语料**,有助于加速大模型性能迭代,促进A生成内容版权体系完善。

2023 年 12 月 13 日,德国数字出版商 Axel Springer 和 Openal 宣布建立全球合作伙伴关系,成为世界上第一家与 Openal 合作的新闻机构。

1)对于OpenAL:OpenAL将付费使用Axel Springer的出版物内容来改进其AI模型训练数据库。ChatGPT 用户将收到来自 Axel Springer 旗下品牌的精选全球新闻提要。 当 ChatGPT 使用 Axel Springer 出版物中的信息回答用户的问题时,答案下方将提供一个链接,以确保内容版权所有者的信用、补偿和流量。

2)对于Axel Springer来说:它可以通过向AI公司提供高质量的内容材料来开辟新的业务线并获得潜在的收入增量,同时利用Openal的技术支持来改进其产品。通过与Openal合作,利用人工智能来增强内容体验并创造新的增长机会,探索新闻业的未来。

Openal一再引发争议,原因是未经授权使用新闻**文章来训练模型。 美国领先的新闻机构、华尔街**和《纽约时报》都曾与OpenAI就版权问题发生过争执。 23M2,New Corp 道琼斯部门总法律顾问 Jason Conti 在给彭博新闻社的一份声明中表示,任何使用华尔街**训练人工智能的企业都应该寻求道琼斯公司的许可23M8 《纽约时报》更新了其服务条款,禁止其新闻报道和**开发应用软件和训练人工智能模型,并警告说,如果继续引起争议,它将起诉Openal。

与阿克塞尔·施普林格(Axel Springer)的商业合作伙伴关系是Openal与全球出版商之间互利关系的起点。 Openal 首席运营官 Brad Lightcap 宣布,Openal 致力于与世界各地的出版商和创作者合作,以确保他们从先进的 AI 技术和新的收入模式中受益。

2.2. Shutterstock看好版权库与AI公司合作:AIGC整体利大于弊

2.2.1. Shutterstock的数据授权收入在业绩方面得到了更清晰的体现,带动了估值修复和股价回升

Shutterstock 的股价触底反弹,合作伙伴**业务数据逐渐释放其业绩潜力。 从 23m1 到 23m5,Shutterstock 的股价迅速上涨并**,随后的股价呈现**趋势,直到 23Q3 业绩发布后股价开始**。

1)23M1-23M4:在AIGC行业投资逻辑的催化下,股价大幅上涨。在AIGC投资热点下,市场开始探索可能受益的行业,Shutterstock作为一家从2024年开始与OpenAI建立合作的公司备受关注,大模型训练带动训练数据版权需求的逻辑非常顺畅,最高增幅为511%。

2)23M5-23M10:市场开始担心AI文生图的快速发展挤压了Shutterstock的传统业务**版权**。

3) 随着 Shutterstock 从模型训练数据许可中获得的收入快速增长,股价触底反弹。Shutterstock 对计算机视觉数据合作伙伴产品的披露代表了对提供给大型科技公司用于训练生成式 AI 和机器学习模型的 D 模型等资产的许可。 2303 这一收入为 4550 万美元,即 195%;在 23 年前九个月,收入达到 7950 万美元,即 121%。

2.2.2. Shutterstock传统业务衰落的原因多方面,AIGC对版权提供商的威胁和替代并不明显

在我们看来,Shutterstock 传统业务的下滑并不是因为文盛图,而更可能是由于多种因素,例如竞争压力。 我们将 Shutterstock 的传统业务(不包括计算机视觉数据收入)与其竞争对手 Getty Lmage 进行了比较。 Shutterstock 的传统业务代表排除了大型模型训练数据以外的业务,包括电子商务业务(客户可以按月订阅或即用即付***),以及为客户提供与 Getty Lmage 收入更具可比性的图书馆、图书馆和其他材料的企业服务。 版权提供商gettylmages凭借其丰富优质的资源,在图书馆市场展现出强大的竞争力。

在过去的23年里,葛底木的收入一直保持稳定,没有受到文生图的重大影响。 Getty LMAGES作为Shutterstock的竞争对手,没有AI模型训练数据,近两年总营收相对稳定,2303总营收为23亿美元,同比下降05%。与 Gettylmage 相比,Shutterstock 的传统业务收入自 2204 年以来持续下降,降至 2303 比 19亿美元,同比下降73%,而 2303 名 Shutterstock 订阅者和付费**订阅者也呈下降趋势。 我们认为,Shutterstock 传统业务收入的下滑更多地受到行业竞争压力的影响,但计算机视觉数据**也成为业绩的新增长动力。

截至 23 年底,公众对文生图和其他多模态生成的反感仍然强烈。 2024年12月6日,春晚吉祥物“龙辰辰”被质疑为AI映射,遭到国内舆论广泛诟病。 自从 Stable Diffusion、Midjourney 等文盛图软件进入大众视野以来,引发了关于 AI 生成**是否侵权的持续讨论。 22分12秒 马里兰大学帕克分校和纽约大学联合发表的一篇文章表明,一些参数量较小的文盛图模型会直接复制用于训练的材料的某一部分,而当时比较成熟的文盛图产品stablediffusion,也从像素级复制了名画的细节、结构和绘画风格。

公众对多模态生成的质疑主要来自:1)模型训练中使用的**材料是否经过授权;2)通过机器学习生成是否可以定义为学习和创作的过程;3)训练数据中使用的材料在AI生成过程中是否简单粗暴地拼接。

逐步扭转公众对AI多模态生成的负面情绪和片面认知,是AI等技术走向生产生活、释放商业化潜力的必要前提。 随着AIGC影响力的迅速扩大,科技公司也需要支付更多费用,以确保版权以及模型训练数据和生成内容的合规性,以应对未来可能的法律挑战。

AIGC版权问题及相关法规纠纷可分为两大类:

1)AI生成内容的版权定义:指AI生成的文本、**等内容是否受版权保护,版权应归用户、模型提供者、训练数据提供者等方所有。明确AI生成内容的版权是AIGC产品大规模商业化的重要前提。

2)模型训练数据著作权规定:指Openal、Stability Al等模型提供者在训练基础模型时使用的数据集是否受著作权保护,以及模型提供者应如何获得训练数据集的著作权。训练数据的版权要求是AIGC行业健康可持续发展的关键,也是消除公众对AI生成内容的负面情绪的关键。

报告总计:15页。

专题报告**:人工智能学院

相似文章

    AIGC 专题 2023 AIGCGPT 赋能通信行业应用白皮书 V2 0

    今天分享AIGC系列深度研究报告 AIGC专题 AIGC GPT赋能通信行业应用 V 报告出品方 亚信科技 报告共 页。专题报告 人工智能学院 年被认为是 AI 生成内容 AIGC 的第一年。ChatGPT作为AIGC在自然语言领域的代表,在年底一推出就掀起了一场可以牵扯到所有人 各行各业的 火 而...

    AIGC特别报道 AIGC帮助提高大规模对象存储服务(OSS)的能效。

    今天分享AIGC系列深度研究报告 AIGC特别报道 AIGC助力大规模对象存储OSS提升能效。全球软件开发大会 Global Software Development Conference 的报告 报告共 页。场景 通过 AI 进行根本原因分析,以支持可用性 SLA 的实现 场景 智能分析和访问端到...

    AIGC专题 AIGC创新工具深度赋能游戏开发

    今天分享AIGC系列深度研究报告 AIGC专题 AIGC创新工具,深度赋能游戏开发 报告制作人 GF 报告共页。专题报告 人工智能学院 游戏开发的复杂性日益增加,导致了工具应用市场的增长 游戏市场正处于快速增长期,增速快于游戏行业。随着游戏开发规模的扩大,基于其更好的跨平台能力和研发支持能力,第三方...

    AIGC 特别报告:人人享有生成式 AI 的新时代

    今天分享AIGC系列深度研究报告 AIGC 特别报告 人人享有生成式 AI 的新时代 埃森哲 Accenture 出品的报告 报告共页。ChatGPT 正在唤醒全球对人工智能 AI 变革潜力的认识,引发了前所未有的关注和创造力浪潮。该技术可以模仿人类的对话和决策能力,使我们处于公众采用人工智能的第一...

    AIGC推动娱乐全球化 未来无限可能 与创新竞争 钛媒体 2023 T EDGE

    自从人工智能开始登陆我们的日常生活和娱乐场景以来,它或多或少被嘲笑为一种 人工智障 然而,当ChatGPT出现时,人工智能热潮的点燃瞬间让人们对其快速发展感到恐惧,并成为今年业界讨论的焦点。先进的企业总会在公众的情绪中看到新的商机,无论是恐慌和焦虑,还是惊喜和兴奋。在AIGC激烈的竞争环境中,许多企...