陈培雯近日,芝加哥大学研究团队的AI数据中毒工具Nightshade正式发布,据说**数量在上线短短5天就突破了25万,热度远超研究团队的预期。
几个月前,当团队宣布将发布 Nightshade 时,我正在研究它,因为它与通常为 AI 生成的内容添加水印或徽标的想法不同。
Nightshade 允许艺术家上传自己的原始图纸,然后在被机器学习算法识别为错误信息的画作中嵌入有毒数据,例如有四条腿的汽车。 因此,如果一家AI公司未经艺术家许可,使用数十张这样的图像来训练AI图像生成系统,就相当于中毒了,系统输出的准确性将急剧下降。
可以看出,由于艺术家对随意使用艺术品进行AI训练的强烈不满,随着Nightshade的出现,艺术家拿起了AI数据中毒工具,开始化攻为强。
因此,人工智能的发展肯定会有一些新的变化。
AI开发者肯定会增加数据清洗和安全验证的工作量,AI模型开发的成本和复杂度将进一步增加。 在AI应用运行过程中,将不断引入数据验证的技术环节,对中毒数据进行识别和过滤,确保AI模型运行的可靠性。
这可能会推动人工智能行业向更尊重版权、更透明地获取训练数据的方向转变。 同时,也可能有发展倡议和行动指南,要求人工智能技术的健康发展不对个人的基本权益产生潜在影响。
AI数据中毒工具Nightshade的出现是一个重要事件。 它不仅反映了人工智能发展与版权保护之间的紧张关系,也标志着人工智能带来的第二类风险即将到来。
从行业观察的角度来看,我认为AI发展带来的风险可以分为三大类。 第一类是人工智能被用于各种恶意目的,如假冒、虚假广告、欺诈、网络攻击等; 第二类是在攻防各种对抗中演变的AI利用风险; 第三类是人工智能发展过快并超出人类预期的风险。
其中,第一类是已知风险,在人工智能出现之前就已经存在,但人工智能的应用增加了此类风险的危害性。 今天正在推广的各种AI风险防范要求也关注这一点。
类别 2 和 3 是未知风险。 即使经过仔细的研究和推断,也很难了解这些风险的全貌。 例如,在 Nightshade 出现之前,业界一直在遵循 AI 生成内容水印的发展思路,但这种中毒对抗工具的出现可能会成为内容保护的主要工具。 在以往的风险分析中,这种对抗带来的风险并不容易被考虑在内。
除了 Nightshade,Anthropic 最近也发表了关于 AI 模型训练过程中嵌入式后门的研究成果,预计我们也会看到越来越多的 AI 对抗攻防风险浮出水面。
最后,对于AI发展过快、超出人类预期的风险,走在AI前沿的Hinton、Sutskever等研究者已经讨论过了,其内涵已经上升到了价值观和发展理念的层面,一两篇文章谈不上。 不过,我仍然保持上一篇文章的基本判断,人工智能的发展会越来越快,它带来的变化、机遇、风险和挑战将比现在预期的要大。