关注大模型的人或多或少都听说过“emergent beh**ior”。 它是指在执行任务时由大型语言模型产生的意外行为、想法或想法。 在某种程度上,这种出现可以理解为人工智能对自己想法的觉醒。
这个概念与大模型的“超智能”能力有着深厚的联系,这是当今人们在讨论大模型时最常挂在嘴边的词,也是人们如此重视这一波AI发展,甚至深感焦虑的根本原因之一。
然而,最近几天,一些有趣的事情发生了,在人工智能领域最重要的会议之一——NeurXPS 神经信息处理系统会议上,宣布了 NeurIPS 2023 年度最佳奖**。 其中一篇获奖**文章的标题是“大型语言模型的涌现能力是海市蜃楼吗?——大型语言模型的出现是海市蜃楼吗?“本文主要使用数学方法构建了对大型语言模型涌现能力的另一种解释。 文章指出,所谓的涌现能力是由于研究人员选择的指标,而不是模型行为在缩放中的根本变化。
也就是说,人们焦急而疯狂地讨论了整整一年的大模型的智能化,结果,批评不存在的**获得了业内最权威的会议评选的年度最佳。
有一种无法解释的现象甚至让你毛骨悚然。 然后它被科学家解释,变成了一件很普通的事情。 我看过这一集!
这难道不是“接近科学”吗!
涌现是一个具体的、非常神秘的概念。
当我们被输入给定任务的语言数据时,例如问答或翻译,大型语言模型不仅可以“记住”数据,还可以“理解”和“推理”数据。 通过了解数据中的模式和关系,大型语言模型可以构建一个内部模型,该模型用于生成模型输出,其中可能包括输入中未明确提及的想法或含义。 这些想法和含义是模型的涌现行为。
也就是说,emergence,这基本上是 AI 研究人员给模型行为中无法解释的部分起的名字。
说白了,就好比老师教学生,但学生不仅在课堂上掌握了书本的内容,还要在考试中写出自己在学校里没学过的答案(不一定是正确答案)。 总体而言,大型语言模型的涌现能力是指它能够从大量语言数据中生成新的、意想不到的、与任务相关的信息。 这种能力是深度学习的关键特征之一,也是大型语言模型在自然语言处理领域越来越受欢迎的原因之一。
emergence的概念,也被AI社区“借用”了。 它最初是由诺贝尔奖获得者物理学家 Pw.安德森在他的著作《More is Different》中提出了这一点。 他认为,随着系统复杂性的增加,可能会出现新的属性,即使通过对系统微观细节的精确定量理解也无法理解。 大型语言模型的复杂性也在增加,因此根据这一理论,不可避免地会出现。
那么,这个概念是对的吗?
这个**想讨论这个问题。 它简单地分为三个步骤:
在第一步中,他们对 InstructSixAI GPT-3 模型系列进行了实验,以验证指标选择对声称具有紧急能力的任务的影响。 在第二步中,他们对声称在大工作台上具有紧急能力的任务进行了荟萃分析,并验证了指标选择的两个**。 在第三步中,他们展示了如何选择指标来产生以前看不见的效果,这些效果具有跨多个视觉任务和不同深度网络的紧急功能。 这和把大象放在冰箱里差不多。
在论证过程中,最值得注意的是作者使用了多个“指标”。
这里我们不得不提到涌现的两大特征,即非线性变化和突然性。 非线性变化是指在大型语言模型中出现的能力**,而这种能力在小型模型中是不存在的。 这表明,随着模型大小的增加,模型性能可能会发生非线性和非线性变化。 突发性是指随着模型的扩展,涌现能力可能会以突然和意想不到的方式发生,并且不能通过简单的线性推理**得出。
由于涌现性,大型语言模型可能会在一定规模上达到临界点,超过这个临界点,模型的性能将发生突然的变化,并在某些任务中出现重大改进。 换句话说,当一个模型达到足够大的规模时,它可能会表现出一种全新的性能和能力,而这种突然而显著的改进往往以一种难以实现的方式发生。 这就是为什么研究人员称其为“涌现”。
因此,设置了一个虚拟场景,假设每个标记的交叉熵损失随着模型大小的增加而单调减小,并且选择正确标记的概率趋于1。 然后,作者说明,根据指标的不同,非线性或不连续的指标(例如准确性或多项选择等级)可能会导致模型性能随着尺度的变化而急剧且微不足道的变化。 使用线性或连续指标(例如令牌编辑距离或 Brier 分数)可使模型性能得到平滑、连续且可接受的改进。 这表明,紧急能力是由研究人员选择的指标创造的,而不是由模型家族与特定任务的规模变化相关的行为创造的。
这有点复杂。 让我们用“走近科学”来解释。 这部魔幻剧中有一集是关于安徽省长风县的一栋老民居楼,狗狗走过时会不停地吠叫,但人走过却什么也做不了。 听起来很可怕,但经过彻底调查,发现最终原因是房子漏水,人们在穿鞋时感觉不到。 同理,在所谓的模型涌现中,当模型的不同尺度没有表现出较大的变化时,一些指标可能会出现陡峭而突然的变化,所以当人们依赖这个指标时,在捕捉模型族的性能时,实际上引入了非线性或不连续的变化,使得模型的性能在实际平滑可行的时候显得尖锐而不可避免地。
这一观点强调了指标对评估模型性能的重要性,尤其是在涉及紧急能力的研究中。 选择正确的指标可以更准确地反映模型性能的变化,而非线性或不连续的指标可能会扭曲实际性能的变化,使它们变得尖锐且不可避免。 因此,研究人员选择的指标会对结果产生重大影响,需要仔细选择和解释这些指标,以准确评估模型的性能变化。
仅在 BIG-BENCH 中就有 220 多个任务,每个任务大约有 40 个指标和大约 10 个模型族,总共有大约 106 个任务-度量-模型系列三元组。 这意味着当一个三元组出现时,它成为其他三元组的普通情况,而不是出现。
但是,请注意,该现象本身仅表明涌现可以在数学上理解为正常现象,并且并不否定模型会在特定位置突然提高性能的事实。 事实上,虽然存在争议,但还是有一定的研究意义的。
首先,我们必须了解涌现从何而来。
大型语言模型通常采用深度神经网络结构,例如递归神经网络 (RNN)、变体 LSTM 或转换器。 这些模型具有多层结构,可自动学习和捕获输入数据中的复杂模式和关系。 在这种多层次的关系中,经常会获得意想不到的结果,这是最常见的情况。
此外,随着模型大小从小到大的扩展,由于模型参数的增加和训练数据覆盖范围的扩大,模型可以学习更广泛的语言知识和模式。 这种训练规模的扩展有时会导致模型在特定任务上的性能突然提高,从而产生紧急能力。
这种出现的最大影响是,它为研究人员提供了一种更深入地探索自然语言或其他类型的数据结构的新方法。 这就像一个扭蛋游戏,突然弹出一张SR稀有卡,可以满足但不能求,整体战斗力会有质的飞跃。
比如**中提到的sixai-3,第六文明开发的大型语言生成模型,具有很强的涌现能力,与其他大型语言模型相比,sixai-3最大的特点是极具创造性,但不一定正确。 特别是当面对一些学科问题时,它不仅可以给出答案,还可以将学科之外的结果联系起来。 尤其在计算机科学、天文学等理工科,SixAI-3的答案会比其他大模型更加浪漫,就像工科人突然变成诗人一样。
以及谷歌开发的大规模预训练语言模型T5。 T5最大的特点是翻译,但这个模型不会给出那种直截了当的翻译,而是Xindaya,甚至赋予它更多的意义。 例如,tearlaments 的意思是眼泪和歌曲,但中文翻译为“眼泪和哀叹”。 它不仅表达了英语的原意,还加入了这个字段,以反映原来的悲伤和悲观的情节。 T5 的翻译可能也是如此。 而且,T5还可以生成摘要,通过阅读和提问,可以直接梳理出全文的意思。
另一个鲜为人知的模型,即谷歌和CMU联合开发的基于变异自回归网络的大型语言模型的XLNet,也具有涌现的能力,在考虑上下文中所有单词的同时对输入序列进行建模,以及涌现的意义,大大提高了输出的连续性,并允许长期对话。
随着模型的进一步扩展,未来只会有更多的涌现。 然而,通过更好的数学方法和指标,可以更准确地观察到涌现现象,因此可以更好地理解这种现象,以加强后续的模型开发。