作者 | zer0
编辑 |沙漠之影
如何用最小的规模和最强的AI来做到这一点?
志东2月2日表示,本周四,中国首家从事“大模特+代理”的创业公司。智能地面对墙壁年初,最大的旗舰端侧机型发布面墙 minicpm
这是一门“2B性能小钢炮”,只用了24亿个参数,却能对抗百亿大模型。
此前爆火的欧洲生成式AI独角兽Mistral AI,凭借其大胆的路线,凭借70亿参数大模型MISTRAL-7B成功挑战LLAMA 2,成为证明亿参数模型足以实现高性能的标杆。
如今,“中国版米斯特拉尔”作为一匹黑马全面开启,在多个主流评测榜中性能超越米斯特拉尔-7B,并首次有效实现设备侧多模态部署,给出实测示例,能聊天写,也能理解图像信息,给出精准答案。
取得这些成绩的团队,无论年轻还是资深,都立足于中国大型模范企业人口最稠密的地区——北京五道口,成立仅一年,科研团队100余人,80%的含量在青北,平均年龄只有28岁。
发布会上,智东与面墙智能核心创始团队进行了深入交流。 据分享,面墙智能具有三大模型技术优势:1).算法优化,自创“模型沙盒”; 2)省钱秘籍,支持在CPU上推理,在消费类显卡上高效训练和微调; 3)数据治理,形成从数据治理到多维度评估的闭环,驱动模型快速迭代。
去年下半年以来,智能硬件圈愈发热闹:华为、小米、OPPO、vivo、荣耀等大厂纷纷下手为手机安装数十亿参数; AI PC 概念车在国际消费电子盛会 CES 2024 上亮相许多初创企业已经挑战了人工智能硬件的新形式。
用更小的模型做更强的AI,成为大模型竞争达到1000亿个参数后的另一个重点方向。 这反映了智能硬件产品面临的问题:云运行模式足够强大,但如果设备端不能独立,那么网络断线、响应延迟慢等问题都会影响终端用户的用户体验。
将大模型落地在端侧的关键是做三件事:一是体积够小,二是性可以用,三是成本够低
由于智能硬件的内存容量和带宽有限,设备侧模型越小,计算量和占用内存越低,计算成本、功耗和推理时延越低,设备端AI应用响应越快。
在飞速发展的技术竞赛中,成本成为大型机型最具竞争优势。 成本代表着大模式的利润率,是智能终端企业关注的焦点。 设备侧模型具有全天候、低成本的特点,通过云协同,可以弥补千亿级参数模型在大规模部署成本和门槛方面的固有短板,减轻云数据中心的算力负担。
作为一家创业公司,2022年8月才成立的面墙智能,此前专注于千亿大模型和AI代理的研发,并没有像各大手机厂商那样具备足够硬件产品的天然优势,那么为什么会选择进入终端端呢?
这要从团队的使命,Facing Wall Intelligence的愿景“万物的智慧”,以及OpenBMB开源社区的愿景“让大模型飞入千家万户”开始,让它的目标是让尽可能多的人在尽可能多的地方和场景中享受到大模型的通用智能。
就像人类智能被脑干、小脑、大脑划分为不同的任务一样,未来,不同大小的模型将负责不同复杂度的任务,因此通用人工智能(AGI)的实现路径更加高效。
所以电源端侧是面向墙壁的智能策略的重要组成部分。
2B比例模型可以应用于更贴近用户、更便携的移动设备,从而在更多的地方发挥作用,解决大模型实际实现中成本高、门槛高的问题。
从技术研究和判断来看,2023年ChatGPT和GPT-4的上线,说明大模型的技术路线已经基本确定,下一步就是探索其科学机理,将效率优化到极致。
清华大学计算机科学系终身副教授、Facewall Intelligence联合创始人刘志远表示,他希望这种端到端的模型能够让更多的人意识到,就算是2B大小的模型,所能达到的能力上限,还是远远超乎想象的。 正如船舶和飞机是在流体力学的支持下建造的一样,该团队对大型模型科学研究的承诺是真正商业化和可持续发展的重要驱动力。
同时,通过云协同催化应用的实现,设备侧大模型可以更好地为面墙提供智能化“大模型+代理”双引擎战略服务。 设备端大模型技术的积累,与云端大模型持续小型化的技术是一致的,最终将有助于加速向AGI迈进。
如果将智能体能力应用到设备侧模型上,可以更好地服务于特定场景,创造更多价值,我认为这两个方向可以相互支持,产生一些奇妙的化学反应。 Face Wall Intelligence联合创始人兼首席技术官曾国阳说。
2023年,MISTRAL-7B诞生,以7B参数击败了百亿参数的开源大语言模型霸主LLAMA 2,成为大模型领域“以小打大”的典范,以昂扬的斗志树立开源领域的新标杆。
今年年初,Facewall Intelligence接过了“小型化大型车型”的重担:推出“性能新旗舰”。面墙 minicpm凭借2B参数量表和1T代币选取数据,横扫多个主流评测榜单,中英文平均分超过MISTRAL-7B,中文和通用能力战斗力超过Microsoft明星模型PHI-2(蒸馏GPT-4)。
面对“山东省哪座最高的山,比黄山高还是矮? 差距有多大? “通过这个混合测试问题,MiniCPM不仅可以给出准确的高度,还可以计算出差异,这比手动搜索和计算要快得多。
minicpm-2b不仅具有更强的通用和中文能力,而且在与英文竞争时,还具有与数十亿甚至数百亿参数大模型搏斗的能力。
它可以绕过多语言混合翻译的陷阱,例如被要求用英语的大模型将中英混合句子翻译成法语,理解意图,并输出正确答案。
对于角色扮演,minicpm也非常熟练:扮演李奎向宋江要钱,他能生动地把握说话的语气和技巧; 在给妻子写情书时,他自觉地塞了一些可以表达爱意的表情符号。 因此,它可以用来驱动一些情感聊天机器人的端到端应用程序。
此外,minicpm编程能力超越了MISTRAL-7B,可实现端侧操作和写入**,有助于节省编程工作量。
miniCPM-7B与数百亿大模型的PK相同,在大多数评估中也能在性能上领先。
在最接近人类评级的评估集 MTBENCH 上,MiniCPM 获得了良好的评级。
INT4量化后,MiniCPM可以部署在手机上进行推理,流输出速度略高于人类语音的速度。
miniCPM开源地址:
minicpm 不仅会说话,还会看第一批已经跑过了多模态大模型在手机上的部署。miniCPM-V的评价性能超过同规模的其他多模态模型,达到9的水平6b qwen-vl-chat 具有相当甚至更好的性能,可以解释图像细节并理解抽象模因。
为什么我们需要将多式联运能力带到最后? Facewall Intelligence联合创始人兼CEO李大海举了一个极端的例子,比如去野外露营,在信号差的时候遇到蛇,怎么判断是不是毒蛇? 这时拍张照片发到端面的大模型上,就能得到及时的回复。 如果有紧急情况,也可以在断网的情况下先求助于设备端大模型。
多模态能力并不止于此,更大版的面向墙面的omnilmm,在同等规模下实现了开源社区的领先能力。 例如,通过一个大型模型猜测要做什么样的游戏,它能够在多模态连续模式下使用纯文本 chatgpt-35.组合实现石头剪刀布的功能。
流式实时交互的实现是使用 OmniLMM 12B 将 ** 帧转换为文本描述,然后基于纯文本 ChatGPT-35. 根据文本描述和用户问题回答问题。
多模态大模型可以理解很多图像细节。 例如,左边的狗没有穿导盲犬识别服装,大模特通过周围元素判断它是导盲犬; 在右图中,大模特从电视台的标志推断出来,判断是电视节目。
这些功能已集成在 12B 型号上,并将在以后引入面壁 miniCPM-V。
omnilmm 开源地址:
据刘志远介绍,是共享的在多模态大模型方向上,国内与国际的差距相对较小,但技术成熟度不如大语言模型,这体现在处理模式的不一致以及图像生成和理解尚未形成良好的统一性。 目前,多式联运架构多元化,还有进一步探索的空间。
全面降低成本是minicPM的一大亮点。
MiniCPM 作为一款节省大量成本的模型,支持 CPU 推理和消费级显卡训练。 int4 量化后,只占用2gb空间,具备在设备侧手机上部署模型的条件。
做一个简单的算术题,骁龙855芯片售价600元,每秒7颗5个代币,以5年计算,可以得到minicpm170万个代币设备端推理的成本仅为1元,是云端mistral-medium的成本,相当于悬崖**。
除了端到端的推理,其成本优势还体现在二次开发持续改进的低成本上。 因为它是最小的只需1个1080 2080显卡即可进行高效参数微调,1个3090 4090可实现全参数微调,一机可继续参数训练; 量化版压缩75%,性能基本无损。
目前miniCPM主要在手机上实现,在更多智能终端场景的落地中,需要继续挖掘用户价值。 据李大海介绍,minicPM已经跑遍了国际主流手机品牌和终端CPU芯片,在老旧手机上没有运行压力
目前,facewall团队尚未对手机推理模型进行深入的优化和系统测试,仅以外部开发者的身份验证minicpm使用手机芯片进行推理的可行性。
要训练模型,效率是关键在面墙团队看来,在模型训练过程中,高效基础设施的全过程是大模型创业的护城河,决定了技术天花板,短期内可能会带来不错的效果,但深入的工作会受到基础设施的限制。
面墙智能打造了一套全流程优化加速工具套件平台面墙模型力,包括:2021年研发的高效训练框架BMTRAIN,实现SOTA在行业内的分布式实现,将千亿模型的训练门槛降低到64张卡; BMINF高效推理框架采用高效采样加速算法和稀疏激活方式,可实现3倍推理加速。 BMCOOK高效压缩框架,INT4无损压缩,可实现5倍以上的推理加速,降低70%的存储开销。 BMTune 高效调优框架提供了各种用于微调、提示学习等的工具包。
借助这些工具,Facewall Intelligence可以做到这一点推理速度提高 10 倍,成本降低 90%
Facewall Intelligence首席研究员韩旭表示,很多基础设施作业都使用各种设备和算力来加速训练,并积极寻找一些算法层面与硬件相匹配的高效特征,从算法和模型层面实现效率,两者的协同可以提升设备侧大模型的推理性能。
在沟通过程中,面墙智能核心创始团队反复提到一个关键词:有效
小尺寸是模型技术的终极领域,而高效率是传统饰面墙技术的优势。 我们之所以能够做到“小而大”,除了前面提到的“”之外,团队对算力、数据、算法进行了多重优化。省钱为王“外面,还有更多”。数据治理算法优化“两个增益叠加。
在数据治理方面,面墙智能构建了现代化的“数据工厂”,形成了从数据治理到多维度评估的有效闭环,通过高质量的数据积累和友好数据策略的持续训练,驱动模型版本的快速迭代。 曾国阳表示,人脸墙异常智能处理的经验和数据选择的认知是其在大模型上不断发展的技术壁垒
minicpm 可以用 1t 代币数据实现高性能有两个关键点:第一:高质量数据,训练使用选定的高质量数据集; 第二个是数以千计的预实验这涉及Facewall Intelligence在算法优化中探索的更有效的训练技术。
算法优化面貌,面墙智能自创”。模型沙箱技术上,用相同数量的数据训练一个更大的模型,用一个小模型最大化一个大模型的性能,大模型和小模型共享超参数方案,可持续的最优、高效和可扩展的模型训练策略。 刘志远打了个比方,这方面的技术壁垒就像做饭一样,你获得食谱并不一定能成为米其林三星
沙箱是一种安全机制,它为正在执行的程序提供隔离的环境,通常用作不可信、破坏性或无法确定程序意图的程序的实验。 Facewall Intelligence 在 MiniCPM 发布之前就做到了这一点数以千计的模型沙盒实验探索最佳超参数配置,以确保通过训练任何规模的模型都能获得最佳结果。
例如,对全球使用的学习率调度器进行了优化,并探索了对持续训练非常友好的热身稳定衰减(WSD)调度器。 调度器新的学习速率调度策略可以实现最佳衰减步数,连续训练效率更高。 这种学习率调度器有助于训练模型,并根据不同的后续目的进行优化。
除了 001 学习率是任何模型规模下的最佳损失,并且还实现了“模型沙箱”扩展了超参数稳定化的模型大小,一些调整接近 CEREBRAS-GPT,同一组超参数支配所有模型; 最佳批量大小,收敛速度与资源消耗之间的最优平衡; 固定模型乘法上限,可随时退火,得到最优模型在阶段的生长倍数; 数据课程,持续训练友好,将高质量数据添加到 WSD 调度程序的退火阶段以获得更好的功能,并且还支持持续训练。
刘志远说,“大模型”不仅仅是一个大模型,其实它是一种技术,内置了大数据、参数治理和科学能力,如今的墙面智能技术足以训练一个2B模型,让它至少可以玩4B模型之前做事,相应的方法也可以在同一行, 比如用类似的模型来做80B甚至800B的模型。
关于minicpm算法优化的更多细节,请参考其开源项目上传的技术报告。
直达快车:
在李大海看来,做大模型的一个重要竞争优势,就是要有足够强的原创技术探索能力。
作为最早的大型模型研究团队之一,Facewall Intelligence是为数不多的在工业经理人离开实验室后立即引入他们进行操作并提前思考商业公司的初创公司之一。
联合创始人刘志远是清华大学终身副教授,联合创始人兼CEO李大海是知乎的CTO,联合创始人兼CTO曾国阳是8岁开始学习编程的天才少年,首席研究员韩旭是清华大学计算机科学系博士后。
据报道,Facewall Intelligence于2018年从清华大学NLP实验室诞生,并发布了全球首个知识引导的预训练模型ERNIE; 2020年12月,成为首款物道大模型主力阵容,发布全球首款20亿参数的中文开源大模型CPM; 2022年4月,OpenBMB开源社区成立。
在大模型时代,AI技术已经足够成熟,可以标准化和产品化,应用于各行各业。 刘志远意识到,仅靠学校实验室无法进行最前沿的探索,于是他从2021年开始筹备公司,确立了“让大模型走进千家万户”的初心。 之后,李大海作为知乎的CTO先是参与投资,随后又担任Facewall Intelligence的CEO,直接参与管理。
2022年8月,面墙智能公司化,2023年4月获得知乎投资天使轮融资,2023年全年推出多款基座车型和代理产品。
除了与清华大学NLP实验室合作外,李大海透露,Facewall Intelligence与知乎也有很多合作,知乎的数据在多模态大模型训练中起着非常大的作用,这也是Facewall Intelligence的优势所在。
目前,面墙智能主要有三条产品线:大模型、AI代理、AI基础设施
Facewall Intelligence并不执着于走“大于大”的路线,而是没有放弃对超大规模语言模型的研究。 其 1000 亿模型 CPM-C 性能已超过 GPT-35. 目前推理成本为 GPT-35涡轮增压**的一半,并有很大的降低成本的空间。 正在训练更大、更强的 CPM-D。
清华大学计算机科学系博士、面墙智能研究团队成员胡生定解释说,扩大模型的规模非常重要,在更小的模型上做实验不是目的,而是一种手段,以便最终服务于一个特别大的模型并导致超级智能。 开发更小的模型可以降低智能成本,满足更多用例的需求,并使更多人能够获得智能。
看似我们做了很多事情,但实际上核心很明确,“刘志远说,而面墙智能和清华NLP实验室的共同愿景是实现AGI,让它服务于整个人类社会,”我们会做AGI需要的事。 ”
接下来,Facewall Intelligence将遵循“大模型+代理”的双引擎策略,探索更小的模型、更快的速度、更低的成本,将全系列的模型桶开源并贡献给社区。
面壁miniCPM实现了2B大模型性能的新标杆,实现了“极高效、极低成本、极小规模”的领先地位,并在业界首次将多模态能力引入设备侧。
除了开源模型,面墙智能在研发过程中还公开了各种实验结果和数据匹配公式,希望与同行一起进步,共同推动向通用人工智能的迈进。
在刘志远看来,为了让通用人工智能惠及所有人,追求更大的模型、更强的能力,以及如何充分找到和挖掘固定大小的模型性能上限,将是迈向通用人工智能的重要使命。 该领域的下一个任务必须是使路线更加科学化和规范化。 这也是Facewall Intelligence与清华大学NLP实验室产学研结合的重要使命。
最后一个小彩蛋:临近春节,Facewall Intelligence开发了一款名为“Heart”的应用,它基于大型模型的能力,具有“敲cp”功能,测试版已经开放,欢迎大家尝试。