随着 ChatGPT 等新兴 AI 模型的兴起,它们所依赖的网络爬虫正面临着来自全球主流新闻的大规模封锁**。 理查德·弗莱彻博士的团队发现,截至 2023 年底,48% 的 ** 屏蔽了 OpenAI 的爬虫,24% 屏蔽了谷歌的爬虫。 那么有多少新闻**屏蔽了AI爬虫呢?
1. AI网络爬虫
网络爬虫,有时称为“蜘蛛”或“机器人”,会自动浏览网络以系统地收集数据。 搜索引擎依靠其网络爬虫收集的数据来索引网络上的页面,以便快速响应搜索查询。
OpenAI 等 AI 公司可以使用爬虫从网络收集数据来训练他们的模型。 大型语言模型 (LLMS) 需要在大量数据上进行训练才能有效,而 Web 对于高质量的文本和视听数据非常重要**。
训练完成后,像 GPT 这样的 LLMS 可以通过 ChatGPT 等生成、输出和回答用户的问题。 虽然这些模型不需要互联网连接即可执行,但经过训练后,它们还可以连接到网络以实时检索信息,然后作为输出的一部分。
然而,由于各种可能的原因,News**可能不希望他们的内容被人工智能公司使用。
第二后续调查差异很大
为了了解各国主流新闻**对AI爬虫的屏蔽政策,Richard Fletcher博士的团队发起了一项后续调查。 追踪2023年10个国家前15大主流新闻**的爬虫屏蔽政策统计,通过定期抓取重大新闻**的机器人TXT文件,他们监测了不同国家和不同时间节点的爬虫比例,新闻**屏蔽了OpenAI和Google等公司,并公布了调查结果。
1.屏蔽比差异很大。
不同国家主流新闻**对AI爬虫的态度存在显著差异。 就 OpenAI 而言,美国高达 79% 的新闻**被屏蔽,而墨西哥和波兰只有约 20%。 谷歌爬虫之间也有类似的差异,德国有 60% 被屏蔽,波兰和西班牙只有 7%。
2.屏蔽时间点差异很大。
在大多数国家/地区,一些新闻**会在 AI 爬虫推出后不久采取行动阻止它们; 在西班牙、墨西哥和波兰等国家,主流**措施似乎更加缓慢和保守。 这可能与不同国家对人工智能的态度差异有关。
3.谷歌受到了双重打击。
97% 的人屏蔽了 Google 爬虫**,也屏蔽了 OpenAI。 虽然两者是不同的系统,但新闻并没有区分它们。 这预示着谷歌将面临比新闻人工智能领域竞争对手更多的限制。
不难看出,全球主流**对第三方AI平台的警惕性正在上升。 这将对人工智能相关模型的训练和应用产生负面影响。
第三主流**比较保守
调查结果还反映出,主流**在人工智能政策上普遍更加谨慎和保守。
具体来说,相较于网络用户群体小的垂直**,流行的口碑**更倾向于设置AI爬虫屏蔽。 同样,与电视台和数字平台相比,具有深厚印刷传统的报纸和杂志更有可能在其在线版块中阻止人工智能爬虫。
这种心理保守的态度与多种考虑有关:
一是主流**的内容价值更高,更重视知识产权,不希望AI平台免费获得利益;
其次,公众**更担心错误信息误导公众,损害公众的公信力;
第三,传统从业者对人工智能的了解不多,更难以理解长期利益的平衡。
所有的新闻**和封锁后的每一天,AI爬虫都没有解封的迹象。 这表明媒体对人工智能公司趋于保守,除非达成新的利益平衡,例如许可使用商业合作模式,否则主流**不太可能在短期内取消限制,因为内容价值、信息安全和其他考虑因素。
结论:
不难看出,本次调查结果显示,到2023年底,全球主流新闻**对于第三方AI平台的信息采集,基本会持防御态度。 随着人工智能公司与媒体之间的利益博弈仍在继续,未来双方关系将何去何从?
参考资料**网络,如有任何疑问,请联系删除。