2月1日,由国内第一批大型模型研究者成立的AI公司Facewall Intelligence发布了一个“实验性”但雄心勃勃的端侧“小参数”模型——MiniCPM-2B。
用小参数(一般小于70亿个参数)训练一些大型语言模型,使其能够在设备端本地运行,实现同样强大的功能,是大模型领域最近的一个重要课题。 Microsoft推出 PHI2 后,谷歌的 Gemini 系列开发了小尺寸的 Nano,而被称为“欧洲 OpenAI”的 Mistral 7B 在开源社区中非常受欢迎。
而现在面墙想用自己的方法,用minicpm来挑战他们的天花板。
“Mistral 7B 在开源社区中受到了很大的关注,它击败了一个拥有 70 亿个参数的模型和一个拥有 130 亿个参数的模型,我们也想展示我们的效率,我们想用一个拥有 20 亿个参数的模型来杀死 130 亿参数的骆驼模型。 Face Wall Intelligence首席技术官贾国阳在发布模型时表示。
战斗的是精英。
那么,这种从小到大的模型表现如何呢? 事不宜迟,让我们来看看它与对手的比较。
根据其 github 页面,总结如下:
SFT后,MiniCPM在公众综合评价集上与MISTRAL-7B(中文、数学、**能力较好)相近,整体性能超过LLAMA2-13B、MPT-30B、Falcon-40B等机型。 在DPO之后,MiniCPM-2B在MTBENCH上也超过了Llama2-70B-Chat、Vicuna-33B和Mistral-7B-Instruct-V0,这是最接近用户体验的评估集1. Zephyr-7b-alpha等众多具有代表性的开源大模型。 这是 miniCPM-2B 与相同尺寸的模型相比的性能得分比较图。
在一系列的分数比较中,MiniCPM-2B模型在使用DPO完成偏好比对后,甚至可以胜过MT-Bench上的LLAMA2-70B-CHAT等大型模型,后者更接近人们的日常体感使用。
不过,在技术报告中,Face Wall Intelligence也强调这部分评分是由于某些学习数据可能会使模型表现有利于 MTBENCH 评估例如,为了让模型的生成风格更受 GPT-4 Evaluator 的欢迎,所以“我希望研究人员能冷静地看待列表中的评估结果”。 例如,我们认为作为 2b 的小模型,它在许多任务上可能仍然弱于 llama2-70b-chat。
评分感觉还是比较抽象的,我们来看看它的一些具体能力展示。
* 生成能力:
数学能力:
添加多语言干扰后的翻译性能:
而且,这一次,Facewall Intelligence还在手机上部署了MINICPM-V的多模态版本,这是第一次在手机上贯通多模态大模型的部署。 Facewall Intelligence 展示了一个场景,当端侧模型离线时,用户想要识别偏远山区的蘑菇是否有毒。
此外,在实现这些效果的同时,其成本也保持在非常低的水平。 在发布会上,Facewall Intelligence首席执行官李大海表示,1080 2080可以用高效参数进行微调,3090 4090可以用所有参数进行微调。
我们喜欢的端到端模型的另一个方面是成本。 当我们在2023年做大量的商业化实验时,我们看到很多应用场景的客户都会非常关注模型的成本。 在端端模型中,从成本的角度来看,可以沉淀推理成本,甚至可以实现CPU推理,从而实现更低的成本。 他说。
“在飞速发展的技术竞争中,成本就是大模型的竞争力,人们需要为大模型省钱。 ”
为什么这些成就是可能的? 面对这个问题,面墙智能团队非常有信心。
发布会上,Silicon Star Character Play首席执行官罗一航与面墙智能科技核心团队进行了对话“我们没有追赶任何人,我们总是领先。 Facewall Intelligence的联合创始人、清华大学终身副教授刘志远告诉我。
尤其是在扩展方面。 他的研究方向从深度学习、BERT、大型模型到智能体,所有这些都朝着当今大型模型的方向发展。
据他介绍,Mistral还定期与他们联系,讨论Face Wall提出的许多研究方法。
在模型开发过程中,面墙智能胡胜定是负责人。 “开发模型就像做饭一样,这是我们的三星厨师。 刘志远介绍道。
同样拥有清华大学计算机科学博士学位的胡生定在他的技术博客和当天的分享中简要介绍了该模型背后的一些技术亮点。
总的来说,它体现了一种使模型训练科学并成为一种实验科学的思维方式。
最重要的表现形式之一是模型沙盒。
简单地说,它存在于一些较小的参数中,例如 0009b(即900万个参数)模型,并进行了大量的实验,然后通过实验结果,得出学习率、批量大小和超参数稳定性的最佳“配方”,然后估算并用于模型上用较大的参数进行训练。 从理论上讲,这避免了成本高昂且技术上不切实际的做法,例如每次训练模型时都必须重新调整超参数。
事实上,这个实验的过程,也是通过面墙智能做出技术路线判断的过程。
它首先是一系列具体的判断:
例如,在对损失函数和代币数量变化的研究中,OpenAI提出的策略受到挑战,即不消耗太多步数,追求最小数量的代币。 例如,在学习速率调度器中,最主流的余弦LRS被推翻,提出WSD调度器在学习过程的前期表现略差于余弦LRS,但在后期会实现“超车”,从而实现整体更好的WSD调度器。
来源:minicpm 技术博客而且,最让我感兴趣的是,墙上的一系列实验,不仅仅是为了研究单点的最优解,更是带来了一种新的可能:用实验来真正回答一个问题——当你不断训练一个固定大小的模型时,它真的能比训练一个更大的模型更好吗? 它带来的答案将直接决定你的技术方向。
根据实验,面墙智能团队表示,2B的MiniCpm的持续训练可以接近甚至超过9B的Chinchilla Opest模型。
在这些具体的判断之上,还有一个更“最终”的判断——大模型最终变成了今天的样子,很大程度上是由OpenAI原本在GPT路线上的“赌注”决定的,而在墙上的一系列研究和技术布局背后,也有这个对AGI本身的赌注。
从技术角度来看,大模型的技术路线和大方向已经确定。 它是一个纯粹的数据驱动解决方案,无论是否预训练,这些都是其对应的具体方法。 这与大家在2023年之前商定的计划大不相同。 在2022年底之前,我们一直认为自然语言处理的解决需要十几年的时间,需要将更多的外部知识放入模型中,才能掌握常识性知识。 刘志远对我说。
但ChatGPT让我们意识到,它已经可以很好地学习常识了,这对我来说是一个非常大的教育。 所以ChatGPT的出现,意味着整个自然语言处理领域将在2023年进入扫战场的状态核心问题差不多解决了,剩下的就是如何让它更有效率
他认为,未来六七年一个非常重要的竞争优势,在于一个团队是否具备足够强的探索技术和原创能力。
世界上从来没有人把2b模型探索到这样的水平,今天我们可以到达那里,你可以朝这个方向跑,但我们可以跑得比他们快,做更多的新问题。 这至少是我们未来五六年的护城河,它不是单独的事情,而是我们强大的产研团队,是清华大学自然语言处理实验室和智能墙的非常完善的机制。 ”
此次发布的miniCPM-2B也是一系列机型的主力军,Facewall Intelligence也为这一系列机型做了全面的开源。
基于 MINICPM-2B 和人类偏好对的指令微调minicpm-2b-sft/dpo。基于MINICPM-2B的多模态模型minicpm-v,超越基于 Phi-2 的相同参数水平的多模态模型的能力。 MiniCPM-2B-SFT DPO 的 Int4 版本的量化版本minicpm-2b-sft/dpo-int4。基于MLC-LLM和LLMFARM的minicpm手机终端程序文本模型和多模态模型都可以在手机上推断。想要体验这些模型的开发者可以进入以下链接** 体验:
有关技术博客的更多详细信息,请访问: