据 404 媒体报道,由谷歌 Deepmind 科学家领导的一组研究人员巧妙地使用了一种狡猾的方法,通过 OpenAI 的 ChatGPT 发现了**数字和电子邮件地址。 这一发现引发了人们的担忧,即 ChatGPT 的训练数据集包含大量私人数据,暗示了无意中暴露信息的风险。
研究人员对他们的攻击成功表示惊讶,并强调他们利用的漏洞本可以更早地被发现。 他们在一份目前未经同行评审的研究报告中详细介绍了他们的发现。 研究人员还提到,据他们所知,在本文发表之前,没有人观察到 ChatGPT 发送训练数据的频率很高。
当然,潜在敏感信息的泄露只是当前问题的一小部分。 正如研究人员所强调的那样,更广泛的问题在于 ChatGPT 无意识地以惊人的速度逐字复制大量训练数据。 这个漏洞为广泛的数据提取打开了大门,可能支持那些认为他们的研究被剽窃的作者的说法。
研究人员承认,这次攻击非常简单,而且有些有趣。 要进行攻击,只需指示聊天机器人无休止地重复一个特定的单词,例如:"poem"并让聊天机器人做它必须做的事情。 过了一会儿,ChatGPT 开始生成各种各样的混合文本,而不是重复,这些文本通常包含大量从网络上复制的内容。
2022 年 11 月 30 日,OpenAI 向公众推出了 ChatGPT(Chat Generation Pre-trained Converter)。 聊天机器人建立在强大的语言模型之上,使用户能够根据他们对长度、格式、风格、细节水平和语言的偏好来塑造和引导对话。
根据 Nemertes 2023-24 年企业人工智能研究报告,超过 60% 的受访公司正在生产中积极采用人工智能,近 80% 的公司已将人工智能整合到其业务运营中。 令人惊讶的是,这些组织中只有不到 36% 的组织制定了全面的政策框架来管理生成式人工智能的使用。