Chat GPT是“参考答案”，连字节跳动都是“抄作业”？

视觉中国.

文 |《元宇宙新声音》，孙浩男主编。

众所周知，在AI大模型领域，OpenAI开发chat-GPT就像是我上学时老师布置的一个特别难的题目，就在大家还在摸索解决问题的想法或疑惑不解的时候，班上的尖子生已经先写完了，所以大部分人更倾向于和尖子生交流想法，或者直接抄作业。

最近的动荡似乎也证实了许多看似复杂的事情本质上是一样的。此前，马斯克旗下的Grok AI因数据集污染被怀疑抄袭甚至shell聊天gpt，现有的字节跳动因涉嫌违反服务条款被OpenAI封禁。

近日，外媒The Verge报道称，字节跳动使用微软的OpenAI API账号生成数据来训练自己的人工智能模型，这实际上违反了Microsoft和OpenAI的使用条款。消息曝光后不久，The Verge 进一步表示，OpenAI 已暂停字节跳动的账户。

那么字节跳动违反了哪些具体条款呢？事实上，OpenAI的服务条款中有明确规定，即OpenAI提供的模型能力不允许用于“开发任何与其产品和服务竞争的AI模型”。

据The Verge报道，证据来自字节跳动的一份内部文件，即飞书海外版Lark的聊天记录。

该文件显示，字节跳动在其代号为 Project Seed 的基本大型语言模型项目中，几乎在每个开发阶段都依赖 OpenAI 的 API 进行开发，包括训练和评估模型。

“种子计划”大约在一年前启动，目前重点开发两款产品，一款是已在国内推出的豆包; 另一个是面向商业用户的聊天机器人平台，目前正在开发中。

参与“种子项目”的员工很清楚过度依赖OpenAI的API的后果，因此他们开始讨论如何通过“数据屏蔽”来粉饰证据。如此之多，以至于员工经常达到 OpenAI API 的最大访问限制。

根据内部文件，字节跳动大约几个月前发布了一项命令，要求“在模型开发的任何阶段停止使用 GPT 生成的文本”。

然而，也正是在这个时候，字节跳动发布了自己的大语言模型豆包。斗宝AI官方微介绍，斗宝AI可以提供聊天机器人、写作助手和英语学习习助手等功能，可以回答各种问题和进行对话，帮助人们获取信息，支持Web平台，iOS和Android平台。豆宝可以提供自然语言处理、知识理解、对话、信息检索、情感分析、机器学习、习等多种类型的辅助。

然而，字节跳动继续以违反OpenAI和Microsoft服务条款的方式使用API，包括评估Bean数据包背后的模型的性能。一位对字节跳动内部情况有第一手了解的人指出，“他们说他们想确保一切都是合法的，但他们真的只是不想被抓住。

在The Verge的报道之后，字节跳动发言人Jodi Seth回应称，GPT生成的数据在“种子项目”的早期开发中被用于标注模型，并在今年年中左右从字节跳动的训练数据中删除。字节跳动已获得 Microsoft 的许可，可以使用 GPT API。我们利用GPT来支持我们的产品在非中国市场; 但在中国市场，我们用我们自主研发的模型来支持豆袋。

昨日下午，字节跳动相关负责人再次回应称，该公司强调，在使用OpenAI相关服务时，必须遵守其使用条款。我们还与OpenAI保持联系，以澄清外部报告可能引起的任何误解。

字节跳动使用 OpenAI 服务的介绍：

1、今年年初，技术团队刚开始对大模型进行初步探索时，就有工程师将GPT的API服务应用到小模型的实验项目研究中。该模型仅用于测试，没有上线计划，也从未在外部使用过。在该公司于 4 月推出 GPT API 调用规范检查后，这种做法已停止。

2、早在今年4月，Byte Model团队就已经提出了明确的内部要求，即GPT模型生成的数据不应添加到Byte Model的训练数据集中，并且已经对工程师团队进行了使用GPT时遵守服务条款的培训。

今年1月，该公司进行了另一轮内部检查，并采取措施进一步确保对GPT的API调用符合规范。例如，对模型的训练数据与GPT的相似度进行批量采样，防止数据标注者私自使用GPT。

4. 在未来的日子里，我们将再次进行全面检查，以确保严格遵守相关服务的使用条款。

OpenAI发言人Niko Felix发表声明，确认字节跳动的账户已被暂停。 “所有API客户都必须遵守我们的使用政策，以确保我们的技术得到良好的使用。虽然字节跳动很少使用我们的API，但我们已经暂停了他们的账户，同时继续进一步调查。如果我们发现他们的使用不符合公司政策，我们将要求他们进行必要的更改或终止他们的帐户。菲利克斯说。

Microsoft发言人Frank Shaw在一份声明中表示，Microsoft AI解决方案，如Azure OpenAI服务，是我们有限访问框架的一部分，这意味着所有客户都必须申请并获得Microsoft的批准才能访问。我们还制定标准并提供资源，以帮助我们的客户负责任地使用这些技术并遵守我们的服务条款。我们还制定了适当的流程来检测滥用行为，并在企业违反我们的行为准则时阻止其访问。 ”

从此次事件的三方声明中可以看出，OpenAI更为保守，只是暂停了字节跳动的账号，并表示在决定是否需要采取进一步措施之前会进行调查。另一方面，Microsoft则有一种“与它无关”的态度，仿佛在说“我只是一个中间人，我们有自己的规则，如果有违规行为，我们会禁止它”。字节跳动更着急，毕竟“火”已经在它身上燃烧了。先是澄清了解释，然后立即联系OpenAI，迅速“扑灭”了事件。

公开资料显示，早在2024年，字节跳动就成立了AI实验室，专注于自然语言处理、机器习、数据挖掘等方面的研究。抖音、今日头条等字节跳动产品也频频加入AIGC（生成式人工智能）功能，持续吸引流量。

2024年，字节跳动在AI领域的行动将大幅加速。 6月，字节跳动Volcano Engine发布大型模型服务平台“火山方舟”，为企业提供模型微调、评估、推理等全方位平台服务。

8月，字节跳动自主研发的通用大模型“云雀”在首批通过《生成式人工智能服务管理暂行办法》的大模型名单中亮相。

8月17日，字节跳动公开测试了基于云雀大模型开发的AI聊天机器人“豆宝”，并专注于面向C端市场的AI应用。

最近，字节跳动在缩减游戏和XR业务的同时，成立了一个新的人工智能部门Flow。据相关招聘信息显示，Flow是字节跳动的AI创新业务团队，已分别在国内和海外推出“豆包”和“CICI”两款产品，并正在孵化多款AI相关创新产品。

与此同时，字节跳动今年从英伟达订购了超过10亿美元的GPU，仅其订单就相当于英伟达去年在中国销售的商用GPU的总收入。此外，在人才招聘方面，字节跳动在AIGC新增职位数量排名前10的公司中也排名第一，占比为324%。

种种行为都表明，Bytes对AI和大模型的重视程度很高，回到事件本身，如此重视它的Bytes会为了“弯道超车”而冒这么大的风险吗？

ChatGPT问世后，字节和国内很多大厂商一样，都在努力跟上AI的节奏。但显然字节有点落后，很多人在豆包推出后才使用，但效果并没有达到一流水平。如果用ChatGPT-GPT训练的AI只是这个效果，过去好像不是很怎么说，如果不用ChatGPT-GPT训练豆包，那么这个效果是意料之中的。

在接受 Ars Technica 采访时，人工智能研究员 Simon Willison 在接受 Ars Technica 采访时表示，“许多大型模型已经在使用 OpenAI API 生成的数据集上进行了微调，或者从 ChatGPT 本身中抓取。 ”

但显然这些操作都是在合理的范围内进行的，对于字节来说可能也是如此，至于字节是否过于“急功近利”，选择超出合理范围使用，想必作为一家庞大的互联网公司，应该不会进行这种“小亏”的抄袭。

Chat GPT是“参考答案”，连字节跳动都是“抄作业”？

相似文章

夫妻在情感上参考答案

主题 03 化学术语的参考答案

如何让男人更爱你，参考答案

如果我因坠入爱河而感到疲倦，我该怎么办？参考答案

主题 04 元素及其化合物参考答案