三十多年来,一个简单的文本文件机器人TXT一直在维护网络秩序并控制网络爬虫的行为。 但随着AI公司的崛起,为了训练模型,他们收集了大量的数据,网络的“社会契约”正面临崩溃。 ** 业主与人工智能公司机器人之间的博弈TXT的未来也不确定。
几十年来,一个小小的文本文件默默地守护着互联网的秩序。 它没有法律或技术权威,甚至没有复杂的技术组件。 它代表了互联网早期先驱者的“握手协议”,旨在尊重彼此的意愿,共同构建一个对每个人都有好处的网络。 可以说是互联网的缩影,写成**。
它被称为机器人txt,通常位于您的根目录中。 这个文件允许任何**所有者 - 无论大小,无论是烹饪博客还是跨国公司 - 告诉互联网谁可以进入,谁不能进入。 哪些搜索引擎可以索引您的**? 哪些存档项目可以抓取您的网页并保存? 竞争对手可以监控您的页面供自己使用吗? 您可以做出决定并通知网络。
这不是一个完美的系统,但它曾经运行良好。 至少以前是这样。 几十年来,机器人TXT的主要关注点是搜索引擎; 你允许他们刮你的**,作为交换,他们承诺把人送回你身边。 现在,人工智能已经改变了这个公式:网络上的公司正在使用你的**及其数据来构建大量的训练数据集,以构建可能根本无法识别你的存在的模型和产品。
robots.TXT 提供交换关系; 对许多人来说,人工智能感觉只是索取,而不是给予。 但现在,人工智能领域的资金如此之大,技术水平变化如此之快,以至于许多**所有者无法跟上。 还有机器人TXT背后的底层协议,以及整个网络——长期以来一直是“每个人都保持冷静”——也可能跟不上。
在互联网的早期,机器人有很多名字:蜘蛛、爬虫、蠕虫、webant、网络爬虫。 大多数时候,它们是出于善意而建造的。 通常是开发人员试图建立一个很酷的新目录,确保他们自己的目录已经启动并运行,或者建立研究数据库——那是在 1993 年左右,当时搜索引擎还没有普及,你可以将大部分互联网放在你的电脑硬盘上。
当时唯一真正的问题是流量:对于看到它的人和托管它的人来说,访问互联网既慢又昂贵。 如果像许多人一样,您在计算机上托管页面或通过家庭互联网连接运行匆忙构建的服务器软件,那么只需要几个机器人过度热心地**您的页面,事情就会崩溃,您的账单就会飙升。
在 1994 年的几个月里,软件工程师兼开发人员 Martijn Koster 与其他网络管理员和开发人员合作,提出了一个他们称之为机器人排除协议的解决方案。 该提案相当简单:它要求 Web 开发人员将纯文本文件添加到他们的域中,指定不允许哪些机器人在其 ** 上搜索,或列出不允许所有机器人访问的页面。 (同样,在当时,你可以维护一个现有的每个机器人的列表——Koster 和其他一些人帮助做到了这一点。 对于机器人制造商来说,交易更简单:尊重对文本文件的渴望。
从一开始,科斯特就明确表示,他并不讨厌机器人,也不打算摆脱它们。 “机器人是网络上为数不多的操作问题和挫折之一,”他在1994年初发给一个名为www-talk的邮件列表的一封电子邮件中说,其中包括Tim Berners-Lee和Marc Andreessen等早期的网络先驱。 “与此同时,他们确实提供了有用的服务。 科斯特警告说,不要争论机器人是好是坏——因为没关系,它们已经存在并且不会消失。 他只是试图设计一个“最小化问题并可能最大化收益”的系统。
机器人是网络上为数不多的导致操作问题和挫败感的方面之一。 “与此同时,他们确实提供了有用的服务。 ”
到那年夏天,他的提议已经成为一个标准——不是官方的,而是或多或少被普遍接受的。 今年6月,科斯特再次致电www-talk小组,询问最新情况。 “简而言之,这是一种通过在服务器上提供一个简单的文本文件来引导机器人远离Web服务器URL空间的某些区域的方法,”他写道。 “如果你有大型档案、具有大量 URL 子树的 CGI 脚本、临时信息,或者只是不想为机器人提供服务,这将特别方便。 他建立了一个特定主题的邮件列表,其成员同意用于这些文本文件的一些基本语法和结构,将文件名从 robotsnotwanted 更改为TXT 到简单机器人txt,几乎每个人都同意支持它。
在接下来的 30 年里,这运作得很好。
但互联网已经无法再装在硬盘上,机器人变得更加强大。 谷歌使用它们来抓取和索引整个网络,供其搜索引擎使用,搜索引擎已成为互联网的接口,每年为公司带来数十亿美元的收入。 必应的爬虫也做了同样的事情,Microsoft将其数据库授权给其他搜索引擎和公司。 互联网档案馆使用爬虫为子孙后代存储网页。 根据最近的一项反垄断诉讼,亚马逊的爬虫在网上搜索产品信息,该公司用来惩罚在亚马逊以外提供更好交易的卖家。 像OpenAI这样的人工智能公司正在抓取网络来训练大型语言模型,这些模型可能会再次从根本上改变我们访问和共享信息的方式。
存储、组织和查询现代互联网的能力使任何公司或开发人员都可以访问世界上积累的知识。 在过去一年左右的时间里,ChatGPT等人工智能产品的兴起,以及它们背后的大型语言模型,使高质量的训练数据成为互联网上最有价值的商品之一。 这导致各种互联网提供商重新思考其服务器上数据的价值,并重新考虑谁可以访问什么。 过于宽容会让你的**失去所有价值; 太严格会让你**。 您必须始终根据新公司、新合作伙伴和新利益相关者做出选择。
有几种类型的互联网机器人。 您可以构建一个完全无害的机器人来爬行,并确保所有页面链接仍然指向其他实时页面; 您可以在网络上发送一个更粗略的机器人来收集您能找到的每个电子邮件地址或号码。 但最常见,也是迄今为止最具争议的是简单的网络爬虫。 它的工作是在互联网上找到并**尽可能多的内容。
网络爬虫通常相当简单。 它们以一个众所周知的**开头,比如 cnncom 或维基百科组织或健康gov。(如果你运行的是通用搜索引擎,你会从大量不同主题的高质量域名开始; 如果你只关心运动或汽车,你只会从汽车**开始。 爬虫存储第一个页面并将其存储在某个地方,然后自动单击该页面上的每个链接,所有链接,单击每个链接,并在网络上传播。 只要有足够的时间和足够的计算资源,爬虫最终会找到并**数十亿个网页。
权衡相当简单:如果谷歌可以抓取你的网页,它就可以将其编入索引并在搜索结果中显示。
谷歌在 2019 年估计,超过 5 亿**拥有一台机器人txt 页面,指示这些爬虫是否可以访问以及可以访问哪些内容。 这些页面的结构通常大致相同:它被命名为“user-agent”,指的是爬虫用来向服务器标识自己的名称。 谷歌的是谷歌机器人; 亚马逊的是 AmazonBot; Bing 是 BingBot; OpenAI 是 GPTbot。 Pinterest,LinkedIn,Twitter和许多其他**和服务都有自己的机器人,并不是所有的机器人都会在每个页面上被提及。 (维基百科和Facebook是两个特别详细的机器人平台。 下图为机器人txt 页面列出了给定 ** 不允许访问的网站部分或页面,以及允许的特定例外情况。 如果该行只说“disallow:”“,则爬虫是完全不可取的。
对于大多数人来说,“服务器过载”不再是他们真正关心的问题。 “如今,人们通常不太关注**上使用的资源,而更多地关注个人喜好,”谷歌搜索倡导者约翰·穆勒(John Mueller)说。 “您希望对哪些内容进行抓取和索引等? ”
从历史上看,大多数所有者必须回答的最大问题是是否允许 Googlebot 抓取他们的。 权衡相当简单:如果谷歌可以抓取你的网页,它就可以将其编入索引并在搜索结果中显示。 任何您希望 Google 可搜索的内容,Googlebot 都需要查看。 (当然,该页面在 Google 搜索结果中的显示方式和位置是一个完全不同的问题。 问题是你是否愿意让谷歌消耗你的一些带宽和你的副本,以换取搜索带来的可见性。
对于大多数人来说,这是一笔简单的交易。 “谷歌是我们最重要的蜘蛛,”Medium首席执行官Tony Stubblebine说。 谷歌可以**Medium的所有页面“,作为交换,我们获得了大量的流量。 这是双赢的。 每个人都这么认为。 “这是谷歌与整个互联网的协议,通过搜索结果中的广告将流量吸引到其他人。 在大家看来,谷歌一直都是机器人txt的模范公民。 “几乎所有知名的搜索引擎都遵循它,”谷歌的穆勒说。 “他们很高兴能够抓取网络,但他们不想用......来惹恼人们它只是让每个人都更容易。 ”
然而,在过去一年左右的时间里,人工智能的兴起已经颠覆了这个等式。 对于许多出版商和平台来说,抓取他们的数据来训练它感觉更像是窃取而不是交易。 “我们很快发现,与人工智能公司合作,”Stubblebine说,“不仅仅是一种价值交换,我们没有得到任何东西。 真的是零。 去年秋天,当 Stubblebine 宣布 Medium 将阻止 AI 爬虫时,他写道:“人工智能公司已经从作家身上榨取了价值,以便向互联网读者发送垃圾邮件。 ”
去年,许多业内人士都表达了与Stubblebine相同的观点。 “我们认为,未经我们许可,'抓取'BBC数据来训练通用AI模型不符合公共利益,”BBC全国总监Rhodi Talfan D**ies去年秋天写道,并宣布BBC也将阻止OpenAI的爬虫。 《纽约时报》也封锁了 GPTbot,几个月前起诉 OpenAI,称 OpenAI 的模型“是通过复制和使用数百万篇受版权保护的新闻文章、深入调查、观点文章、评论、操作指南等构建的。 路透社新闻应用程序编辑本·威尔士(Ben Welsh)的一项研究发现,在接受调查的1,156家出版商中,有606家拥有机器人gptbot 在 txt 文件中被阻止。
这不仅仅是出版商。 Amazon、Facebook、Pinterest、Wikihow、WebMD 和许多其他平台明确阻止 GPTbot 访问其中的部分或全部**。 在大多数这些机器人中在 TXT 页面上,OpenAI 的 GPTbot 是唯一一个明确且完全不允许的爬虫。 但是,还有许多其他针对人工智能的机器人开始抓取网络,例如Anthropic的Anthropic-AI和谷歌的新Google扩展。 根据原创性根据去年秋天的一项 AI 研究,网络上排名前 1,000 位**的公司中有 306 家阻止了 GPTbot,但只有 85 家阻止了 Google-extended,28 家阻止了 Anthropic-AI。
还有一些用于网络搜索和人工智能的爬虫。 CCBOT 由 Common Crawl 组织运营,并在网络上搜索搜索引擎,但其数据也被 OpenAI、Google 和其他公司用于训练其模型。 Microsoft的Bingbot既是搜索爬虫,也是AI爬虫。 这些只是表明自己身份的爬虫——许多其他爬虫试图在相对秘密的环境中运行,因此很难在其他网络流量中阻止甚至找到它们。 对于任何足够受欢迎的**来说,找到一个鬼鬼祟祟的爬虫就像大海捞针一样。
在大多数情况下,GPTbot 已经成为一个机器人TXT 的主要反派,因为 OpenAI 允许这种情况发生。 该公司发布并宣传了一个关于如何阻止 gptbot 的页面,并构建了它的爬虫,以便在每次接近 ** 时大声识别自己。 当然,在它训练了使其如此强大的底层模型之后,并且只有在它成为技术生态系统的重要组成部分之后,它才会做所有这些事情。 但OpenAI的首席战略官Jason Kwon表示,这正是重点。 “我们是生态系统的参与者,”他说。 “如果你想以开放的方式参与这个生态系统,那么这是一个每个人都感兴趣的互惠交易。 他说,如果没有这笔交易,网络将开始萎缩、关闭——这对OpenAI和每个人都不利。 “我们这样做是为了保持网络开放。 ”
默认情况下,始终允许机器人排除协议。 它认为,正如科斯特在30年前所做的那样,大多数机器人都是好的,由好人制造,因此默认允许它们。 总的来说,这是正确的决定。 “我认为互联网从根本上说是一种社会生物,”OpenAI的Kwon说,“这种持续了几十年的握手似乎已经奏效了。 他说,OpenAI 在维护该协议方面的作用包括让大多数用户免费获得 ChatGPT,为他们提供价值回馈,并遵守机器人规则。
但是机器人TXT 不是一份法律文件——在创建 30 年后,它仍然依赖于所有相关方的善意。 在您的机器人中在 txt 页面上禁止机器人就像在你的树屋上放一个“不允许女孩”的标志——它会发送一条信息,但它不会在法庭上站得住脚。 任何想忽略机器人的人TXT 的爬虫都可以简单地做到这一点,几乎不用担心后果。 (尽管有一些关于网络抓取的法律先例,但即使是这些先例也可能很复杂,并且大多属于允许抓取和抓取。 例如,互联网档案馆在 2017 年宣布不再遵守机器人txt。 “随着时间的流逝,我们观察到搜索引擎爬虫的机器人TXT文件不一定服务于我们的档案目的,“互联网档案馆Wayback Machine的主管Mark Graham当时写道。 就这样结束了。
随着人工智能公司的出现,以及他们的爬虫变得越来越肆无忌惮,任何想要等待或等待人工智能接管的人都在进行一场永无止境的打地鼠游戏。 如果可能的话,他们必须单独阻止每个机器人和爬虫,同时还要考虑到,如果人工智能确实是搜索的未来,就像谷歌和其他公司所做的那样,那么阻止人工智能爬虫可能是短期的胜利,但长期的灾难。
双方都有人认为,我们需要更好、更强大、更严格的工具来管理爬虫。 他们认为,涉及的钱太多了,有太多新的和不受监管的用例,而且不能指望每个人都同意做正确的事情。 两位专注于技术的律师在 2019 年一篇关于网络爬虫合法性的文章中写道:“虽然许多参与者制定了一些规则来规范他们对爬虫的使用,但总的来说,这些规则太弱了,很难追究他们的责任。 ”
一些发布者希望更详细地控制抓取的内容和使用位置,而不是机器人TXT 的完全允许或拒绝权限。 几年前,谷歌致力于将机器人排除协议作为官方标准,并推动削弱机器人TXT的地位,理由是它是一个过时的标准,太多的**不屑一顾。 “我们认识到,现有的网络发布者控制是在新的人工智能和研究用例出现之前开发的,”谷歌信任副总裁丹妮尔·罗曼(Danielle Romain)去年写道。 “我们认为,现在是网络和人工智能社区探索其他机器可读手段的时候了,使网络出版商能够选择和控制新兴的人工智能和研究用例。 ”
尽管人工智能公司面临着如何构建和训练模型的监管和法律问题,但这些模型也在不断改进,似乎每天都有新的公司涌现出来。 大大小小的公司都面临着一个抉择:是屈服于人工智能革命,还是站出来反对它。 对于那些选择戒烟的人来说,他们最有力的**是三十年前网络上最早、最乐观的真正信徒达成的协议。 他们认为互联网是一个美妙的地方,到处都是善良的人,他们希望互联网首先是一件好事。 在那个世界和那个互联网上,在文本文件中解释您的愿望就足够了。