聪明的东西。
作者 |程倩.
编辑 |李水清.
智东12月13日**,昨日晚间,Microsoft展示了小模特大招!
Microsoft 发布了一个 27 亿参数的小语言模型 phi-2,该模型已经过研究人员的测试PHI-2 在参数尺度小于 130 亿的模型中展示了最先进的性能
在性能方面,PHI-2 在大板凳硬 (BBH)、常识推理、语言理解、数学和编码基准测试中表现出色平均性能得分已经超过了 70 亿、130 亿参数规模的 Mistral 和 Llama 2,在某些基准测试中超过了谷歌的 Gemini Nano 2
phi-2 的另一大优点是参数大小足够小,可以使用它笔记本电脑、手机和其他移动设备。
在过去的几个月里,Microsoft Research 的机器学习 习 基金会团队发布了小型语言模型 (SLM) PHI 系列。
其中,第一个模型是 13 亿参数尺度的 Phi-1,官方博客称 Phi-1 在 SLM 中的 Python 编码中表现最好,尤其是在 Humaneval 和 MBPP 基准测试上。 第二个模型是 phi-1,其规模为 13 亿个参数5. 该模型侧重于常识推理和语言理解。
现在,Microsoft 发布了 Phi-2,研究人员可以从 Azure AI Studio 模型目录中使用它,以帮助研究人员探索机器可解释性、安全性改进或微调各种任务的实验。
一些大型模型拥有数千亿个参数,这使得它们具有许多新兴能力,那么可以通过改变训练策略来实现更小的参数吗?Microsoft的小型语言模型(SLM)系列可能是这个问题的答案。
PHI-2 是一个基于 Transformer 架构的模型,下一个单词 ** 目标,在合成数据集和 Web 数据集的混合上多次传递,用于 NLP 和编码4T代币。
Phi-2 在在 96 个 A100 GPU 上训练了 14 天,作为基础模型,与人类反馈强化习(rlhf)不一致,并且没有根据指令进行微调。
尽管如此,研究人员观察到,与经过改编的现有开源模型LLAMA 2-7B相比,PH-2在避免生成冒犯性、有害和有偏见的内容方面的表现并不差。
研究人员根据Toxigen的13个人口统计数据计算了安全性评分,他们选择了6,541个句子的子集,并根据混淆和句子“毒性”以0到1的等级对它们进行评分。 高分表示该模型不太可能产生攻击性、有害的句子。
Llama 2 和 PHI-2 在生成攻击性、有害和有偏见的内容方面的表现比较(来源:Microsoft的官方博客)。
Microsoft 使用 PHI-2 打破了传统的语言模型扩展法则,有两个关键环节:
首先,训练数据的质量对模型的性能至关重要。Microsoft 的模型训练数据由专门创建的合成数据集组成,这些数据集教授模型一般推理以及科学、心理学和其他领域。
研究人员还选取了一些网络数据来进一步丰富训练语料,并根据内容的价值和质量对数据进行筛选。
此外,从 phi-1 规模的 13 亿个参数5年前,Microsoft研究人员意识到大规模知识转移,将 phi-1其中 5 个知识嵌入在 27 亿参数 phi-2 中。 这种方法不仅加速了训练收敛,还提高了phi-2的基准分数。
Phi-2 和 Phi-15 比较(来源:Microsoft的官方博客)。
Microsoft 总结了 PHI-2 在学术基准测试中与主流语言模型相比的性能。
其基准测试涵盖 Big Bench Hard(BBH 数据集)以及 PIQA、Winogrande、Arc Easy、Challenge、SIQA、Hellaswag、OpenBookQA、MMLU、SquadV2、GSM8K 数学数据集以及 Humaneval 和 MBPP 编码数据集的常识推理数据集。
Phi-2 拥有 27 亿个参数,在 BBH、常识推理、语言理解、数学和编码方面超过了 MISTRAL 和 LLAMA 2 的 70 亿个和 130 亿个参数。
相较于相差 25 倍的 700 亿参数 LLAMA 2,PH-2 在编码、数学等多步推理任务上表现更好。
LLAMA 2、MISTRAL 和 PHI-2 性能比较(来源:Microsoft的官方博客)。
此外,Microsoft还将 PHI-2 与谷歌最近发布的 Gemini Nano 2 进行了比较,后者公布的模型参数大小为 325亿,PHI-2 的性能部分优于 Gemini Nano 2。
Phi-2 和 Gemini Nano 2 的性能比较(来源:Microsoft的官方博客)。
考虑到来自一些公共基准的数据可能会泄漏到训练数据中,Microsoft 对第一个模型 phi-1 进行了广泛的清理研究,以排除这种可能性。
基于判断语言模型的最佳方法是在特定用例上对其进行测试的考虑,研究人员使用多个专有的Microsoft数据集和任务评估了PHI-2,并再次将其与MISTRAL和LLAMA 2进行了比较,结果为,平均而言,PHI 2 优于 MISTRAL-7B,后者优于具有 70 亿、130 亿和 730 亿参数尺度的 LLAMA-2 模型
除了基准测试之外,研究人员还测试了社区内的一些常见线索,他们观察到的性能与基准测试的结果一致。
其中,研究人员测试了用于评估谷歌Gemini Ultra模型解决物理问题的能力的问题。
与Gemini的测试类似,研究人员进一步要求PHI-2询问学生的错误答案,看看它是否能识别错误。
然而,从输出来看,这与Gemini报告中描述的Gemini Ultra输出并不完全是同类比较,在Gemini报告中,学生的答案上传了手写文本的图像,而Phi-2测试则使用了原始文本。
PHI-2 的参数大小只有 27 亿,但与更大的 70 亿和 130 亿参数模型相比,其性能仍然不逊色。 Microsoft对小模型市场布局的专注,也印证了小模型在大模型时代的价值。
Microsoft与OpenAI的紧密合作,使得GPT模型的性能在大规模模型市场无与伦比,再加上Microsoft的PHI系列参数更小,可以进一步抢占开源模型的长尾市场。 但是,目前,PHI系列仅允许用于研究目的。
从市场角度来看,越来越多的玩家开始探索在手机等移动设备上部署大模型,Microsoft此举也可能加速模型能力在设备端的应用。