来自 Qubit 的 Mengchen | qbitai
里程碑式的 Word2vec 获得了 Neurips Time Check 奖,这是当之无愧的。
但托马斯·米科洛夫(Tomas Mikolov)在Facebook上的长篇获奖感言充满了失望和不满。
*ICLR最初的拒绝是一件微不足道的事情,他还提到了OpenAI的首席科学家Ilya Sutskever(当时两人都在谷歌)。
我们当然生活在激动人心的时代,但不要太相信那些“想要在数十或数百名科学家的辛勤工作基础上垄断技术,同时声称这一切都是为了人类利益”的人。
米科洛夫指的是另一项具有里程碑意义的研究,Seq2Seq,该研究发表于2024年,并将赢得2024年Neurips时间检查奖。
Tomas Mikolov 声称 Seq2Seq 的想法最初来自他,在 Google Brain 工作期间,他与 Quocle 和 Ilya 进行了多次讨论。
但当他转工作到Facebook时,他惊讶地发现自己没有成为最终出版作品的合著者。
这是资金涌入人工智能领域的时候,每个想法都值一大笔钱。 我很难过看到深度学习习社区迅速变成了某种权力的游戏。 金钱和权力确实腐蚀了人们的......
从 word2vec 到 seq2seq
最初,word2vec** 提交给了第一届 ICLR 会议(当时只是一个研讨会),尽管接受率很高,但还是被 70% 的人接受。
这让米科洛夫感叹,审稿人想要**文章的未来影响是多么困难。
许多研究人员也有同感,现在广泛用于大型模型和AI绘画的LoRa作者Microsoft Weizhu Chen透露,第一次提交也被拒绝了,因为审稿人认为它太简单了。
大多数真正有效的东西往往是简单而优雅的。
这些年来,米科洛夫听到了很多关于word2vec的评论,有正面的也有负面的,但并没有真正在网络上做出回应。
不知何故,研究界不断被那些试图获得引用和关注的人的公关宣传所淹没,而我不想成为其中的一部分。
借此奖项和10周年的机会,米科洛夫分享了这部经典作品背后的一些故事**。
首先,很多人抱怨word2vec**很难理解,甚至有人认为米科洛夫故意让大家看不懂。
现在他澄清说,“不,我还不是那个”只是想在等待批准发布的几个月里让它变得更短、更快,最终它被过度优化了。
回想起来,如果不是 Google Brain 团队的 Greg Corrado 和 Jeff Dean,我怀疑它是否会获得批准——我认为 Word2vec 可能是 Google 开源的第一个广为人知的 AI 项目。
尽管word2vec是米科洛夫被引用最多的项目,但他从未认为这是他最有影响力的项目。
事实上,word2vec 最初是他的 rnnlm 项目的一个子集,很快就被遗忘了。
在我看来,它至少和 Alexnet 一样具有破坏性。
RNNLM始于2024年,深习仍处于黑暗时代,米科洛夫列举了其中首次展示的想法:
循环神经网络的可扩展训练,他首次提出了梯度裁剪神经语言模型来生成文本,并且从2024年开始就展示了这样一个在字符和子词级别动态评估神经语言模型适应的例子,现在被称为微调第一个公开可用的语言模型评估基准, 这是修改后的 Penn Treebank 数据集。
2024年,从捷克布尔诺理工大学毕业后,米科洛夫加入了Google Brain。
他说,他很幸运,有大量神经网络的信徒,他们允许他研究word2vec并展示它的潜力,但他不想给人们留下一切都很完美的印象。
在 word2vec 之后,Mikolov 希望通过改进谷歌翻译来普及神经语言模型。 开始与 Franz Och 的团队合作,在此期间提出了几种模型,这些模型可以补充甚至取代当时的机器翻译。
核心思想是在他加入Google Brain之前开发的,即训练不同语言的句子对,然后使用生成模型来翻译他看到的第一句话。
当时,它在短句上效果很好,而在长句上效果不佳。 他已经与谷歌大脑中的其他人多次讨论过这个项目,主要是 Quocle 和 Ilya Sutskever,他们在自己跳槽到 Facebook 后接手了这个项目。
当他们最终在现在著名的“seq2seq”下发表我的想法时,我感到非常惊讶,他们不仅没有提到我是合著者,而且我的老朋友也忘记在**致谢部分提到我,他们感谢了 Google Brain 中除了我之外的每个人。
当大家看到米科洛夫的长篇演讲时,也是百感交集。
康奈尔大学(Cornell University)助理教授弗拉基米尔·库列绍夫(Volodymyr Kuleshov)用Word2vec被拒绝的故事来鼓励人们不要因为同行评审过程而气馁,“好的想法最终会得到应有的认可。
也有人认为,米科洛夫指出的贡献分配、引用和影响力问题不仅仅是NLP问题,而是存在于整个AI领域。
参考链接:[1]。