视觉中国.
文 |《元宇宙新声音》,孙浩男主编。众所周知,在AI大模型领域,OpenAI开发chat-GPT就像是我上学时老师布置的一个特别难的题目,就在大家还在摸索解决问题的想法或疑惑不解的时候,班上的尖子生已经先写完了, 所以大部分人更倾向于和尖子生交流想法,或者直接抄作业。
最近的动荡似乎也证实了许多看似复杂的事情本质上是一样的。 此前,马斯克旗下的Grok AI因数据集污染被怀疑抄袭甚至shell聊天gpt,现有的字节跳动因涉嫌违反服务条款被OpenAI封禁。
近日,外媒The Verge报道称,字节跳动使用微软的OpenAI API账号生成数据来训练自己的人工智能模型,这实际上违反了Microsoft和OpenAI的使用条款。 消息曝光后不久,The Verge 进一步表示,OpenAI 已暂停字节跳动的账户。
那么字节跳动违反了哪些具体条款呢? 事实上,OpenAI的服务条款中有明确规定,即OpenAI提供的模型能力不允许用于“开发任何与其产品和服务竞争的AI模型”。
据The Verge报道,证据来自字节跳动的一份内部文件,即飞书海外版Lark的聊天记录。
该文件显示,字节跳动在其代号为 Project Seed 的基本大型语言模型项目中,几乎在每个开发阶段都依赖 OpenAI 的 API 进行开发,包括训练和评估模型。
“种子计划”大约在一年前启动,目前重点开发两款产品,一款是已在国内推出的豆包; 另一个是面向商业用户的聊天机器人平台,目前正在开发中。
参与“种子项目”的员工很清楚过度依赖OpenAI的API的后果,因此他们开始讨论如何通过“数据屏蔽”来粉饰证据。 如此之多,以至于员工经常达到 OpenAI API 的最大访问限制。
根据内部文件,字节跳动大约几个月前发布了一项命令,要求“在模型开发的任何阶段停止使用 GPT 生成的文本”。
然而,也正是在这个时候,字节跳动发布了自己的大语言模型豆包。 斗宝AI官方微介绍,斗宝AI可以提供聊天机器人、写作助手和英语学习习助手等功能,可以回答各种问题和进行对话,帮助人们获取信息,支持Web平台,iOS和Android平台。豆宝可以提供自然语言处理、知识理解、对话、信息检索、情感分析、机器学习、习等多种类型的辅助。
然而,字节跳动继续以违反OpenAI和Microsoft服务条款的方式使用API,包括评估Bean数据包背后的模型的性能。 一位对字节跳动内部情况有第一手了解的人指出,“他们说他们想确保一切都是合法的,但他们真的只是不想被抓住。
在The Verge的报道之后,字节跳动发言人Jodi Seth回应称,GPT生成的数据在“种子项目”的早期开发中被用于标注模型,并在今年年中左右从字节跳动的训练数据中删除。 字节跳动已获得 Microsoft 的许可,可以使用 GPT API。 我们利用GPT来支持我们的产品在非中国市场; 但在中国市场,我们用我们自主研发的模型来支持豆袋。
昨日下午,字节跳动相关负责人再次回应称,该公司强调,在使用OpenAI相关服务时,必须遵守其使用条款。 我们还与OpenAI保持联系,以澄清外部报告可能引起的任何误解。
字节跳动使用 OpenAI 服务的介绍:
1、今年年初,技术团队刚开始对大模型进行初步探索时,就有工程师将GPT的API服务应用到小模型的实验项目研究中。 该模型仅用于测试,没有上线计划,也从未在外部使用过。 在该公司于 4 月推出 GPT API 调用规范检查后,这种做法已停止。
2、早在今年4月,Byte Model团队就已经提出了明确的内部要求,即GPT模型生成的数据不应添加到Byte Model的训练数据集中,并且已经对工程师团队进行了使用GPT时遵守服务条款的培训。
今年1月,该公司进行了另一轮内部检查,并采取措施进一步确保对GPT的API调用符合规范。 例如,对模型的训练数据与GPT的相似度进行批量采样,防止数据标注者私自使用GPT。
4. 在未来的日子里,我们将再次进行全面检查,以确保严格遵守相关服务的使用条款。
OpenAI发言人Niko Felix发表声明,确认字节跳动的账户已被暂停。 “所有API客户都必须遵守我们的使用政策,以确保我们的技术得到良好的使用。 虽然字节跳动很少使用我们的API,但我们已经暂停了他们的账户,同时继续进一步调查。 如果我们发现他们的使用不符合公司政策,我们将要求他们进行必要的更改或终止他们的帐户。 菲利克斯说。
Microsoft发言人Frank Shaw在一份声明中表示,Microsoft AI解决方案,如Azure OpenAI服务,是我们有限访问框架的一部分,这意味着所有客户都必须申请并获得Microsoft的批准才能访问。 我们还制定标准并提供资源,以帮助我们的客户负责任地使用这些技术并遵守我们的服务条款。 我们还制定了适当的流程来检测滥用行为,并在企业违反我们的行为准则时阻止其访问。 ”
从此次事件的三方声明中可以看出,OpenAI更为保守,只是暂停了字节跳动的账号,并表示在决定是否需要采取进一步措施之前会进行调查。 另一方面,Microsoft则有一种“与它无关”的态度,仿佛在说“我只是一个中间人,我们有自己的规则,如果有违规行为,我们会禁止它”。 字节跳动更着急,毕竟“火”已经在它身上燃烧了。 先是澄清了解释,然后立即联系OpenAI,迅速“扑灭”了事件。
公开资料显示,早在2024年,字节跳动就成立了AI实验室,专注于自然语言处理、机器习、数据挖掘等方面的研究。 抖音、今日头条等字节跳动产品也频频加入AIGC(生成式人工智能)功能,持续吸引流量。
2024年,字节跳动在AI领域的行动将大幅加速。 6月,字节跳动Volcano Engine发布大型模型服务平台“火山方舟”,为企业提供模型微调、评估、推理等全方位平台服务。
8月,字节跳动自主研发的通用大模型“云雀”在首批通过《生成式人工智能服务管理暂行办法》的大模型名单中亮相。
8月17日,字节跳动公开测试了基于云雀大模型开发的AI聊天机器人“豆宝”,并专注于面向C端市场的AI应用。
最近,字节跳动在缩减游戏和XR业务的同时,成立了一个新的人工智能部门Flow。 据相关招聘信息显示,Flow是字节跳动的AI创新业务团队,已分别在国内和海外推出“豆包”和“CICI”两款产品,并正在孵化多款AI相关创新产品。
与此同时,字节跳动今年从英伟达订购了超过10亿美元的GPU,仅其订单就相当于英伟达去年在中国销售的商用GPU的总收入。 此外,在人才招聘方面,字节跳动在AIGC新增职位数量排名前10的公司中也排名第一,占比为324%。
种种行为都表明,Bytes对AI和大模型的重视程度很高,回到事件本身,如此重视它的Bytes会为了“弯道超车”而冒这么大的风险吗?
ChatGPT问世后,字节和国内很多大厂商一样,都在努力跟上AI的节奏。 但显然字节有点落后,很多人在豆包推出后才使用,但效果并没有达到一流水平。 如果用ChatGPT-GPT训练的AI只是这个效果,过去好像不是很怎么说,如果不用ChatGPT-GPT训练豆包,那么这个效果是意料之中的。
在接受 Ars Technica 采访时,人工智能研究员 Simon Willison 在接受 Ars Technica 采访时表示,“许多大型模型已经在使用 OpenAI API 生成的数据集上进行了微调,或者从 ChatGPT 本身中抓取。 ”
但显然这些操作都是在合理的范围内进行的,对于字节来说可能也是如此,至于字节是否过于“急功近利”,选择超出合理范围使用,想必作为一家庞大的互联网公司,应该不会进行这种“小亏”的抄袭。