除了Gemini的生成式AI模型外,谷歌今天早上还发布了AlphaCode 2,这是Google Deepmind Labs在大约一年前推出的生成式alphacode的改进版本。 Alphacode 2 实际上是由 Gemini 模型驱动的,或者至少是它的某个变体(Gemini Pro)在编程种族数据之上进行了微调。 谷歌表示,在至少一个基准测试中,Alphacode 2 的表现远远优于其前身。
据谷歌称,Alphacode 2(用Python、J**A、C++和Go等语言编码)在编程竞赛平台CodeForces主办的编码竞赛中平均表现优于约85%的竞争对手。 相比之下,上一代 alphacode 在同一子集上的平均得分仅为 50%。
我们选择了 12 场最近的比赛,有超过 8,000 名参与者,要么来自第二组,要么来自更困难的比赛'1+2'群。 这使我们能够解决总共 77 个问题"AlphaCode 2 的技术*** 已编写。 "Alphacode 2 在 10 次尝试中解决了 43% 的问题,几乎是原始 alphacode (25%) 的两倍。
可以理解的是,AlphaCode 2 涉及"复杂"数学和计算机科学理论中的编程难题。 DeepMind研究科学家雷米·勒布朗(Rémi Leblond)在预先录制的视频中解释说,AlphaCode 2能够进行动态编程,以及其他相当复杂的技术。
Alphacode 2 不仅知道何时正确实施此策略,而且还知道如何在实施时使用它。 Leblond 说,Alphacode 2 不仅知道何时正确实施这一策略,还知道何时使用它。 考虑到需要动态编程的编程问题是原始 alpha 代码的一大绊脚石,这一点值得注意。
勒布朗 说:"[alphacode 2] 需要表现出一定程度的理解、一定程度的推理和解决方案的设计,然后才能实际执行以解决 [a] 编码问题。 它可以在以前从未见过的问题上完成所有这些工作"。
AlphaCode 2 解决这个问题的方法是首先利用它"策略模型"系列为每个问题生成大量样本。 与问题不匹配的样本将被过滤掉,聚类算法将使用"语义相似的样本"分组以避免任何冗余。 最后,alphacode 2 中的评分模型从 10 个最大的样本开始"集群",这就是 alphacode 2 中问题的答案。
现在,所有 AI 模型都有缺陷,alphacode 2 也不例外。 根据 alphacode 2,它需要大量的试验和错误,缩放的成本太高,并且它在很大程度上依赖于能够过滤掉明显不好的样本。 **据推测,迁移到更强大的 Gemini 版本(例如 Gemini Ultra)可能会缓解一些问题。
DeepMind产品副总裁Eli Collins在一次简报中暗示了这种可能性。
柯林斯说"最新结果最让我兴奋的一件事是,当程序员与 [Alphacode 2 powered by Gemini] 合作时,[模型] 的性能通过定义 ** 遵循的某些属性而变得更好。 未来,我们将看到程序员利用高性能人工智能模型作为协作工具,协助整个软件开发过程,从推理问题到协助实施。 "