聪明的东西
作者 |香草
编辑 |沙漠之影
国产模式又出圈了吗?
智东在12月12日表示,近日,阿里云同益千问的720亿参数模型QWEN-72B击败了LLAMA 2等国内外开源大模型登上全球最大模特社区的顶端hugging face之开源大模型排行榜(打开 LLM 排行榜)。
Hugging Face 开源大模型排行榜,数据截至 12 月 12 日。
在六维考核中,通义千文获得了平均点结果。 其中,在考察数学推理能力的GSM8K基准测试,以及考察事实提问能力的TruthfulQA上,通义千泉提问分别超越骆驼3 个分数和 3
而就在今天,在上海人工智能实验室最新推出的中国大模型榜单和国内权威开源大模型评测OpenCompass上,通益千问72B也获得了第一名。
Opencompass中国大模型榜单,数据截至12月12日。
经过12天的开源,通益千问72b斩获多项权威评测榜冠军,硬实力得到了专业人士的认可。
在开源社区中,通益千问72B引发了全球开发者狂欢的浪潮,国外有学者认为,这种开源模型在处理某些任务方面的表现可以与GPT-4相媲美。 截至目前,通益千问拥有全系列的开源模型累计**金额突破150万,生下它超过 150 种新型号和应用
来自中国的超级开源模式是如何制作的? 志东与同益实验室的科学家交谈,寻求答案。
12 月 1 日,阿里云宣布正式开源了拥有 720 亿参数的大型语言模型——通益千问 QWEN-72b。
该模型一经发布,立即在社交平台X上引起了海内外大量开发者的关注。
人工智能研究机构FAST数据科学家AI联合创始人杰里米·霍华德(Jeremy Howard)** Tongyi Qianwen在一篇文章中说:“由于这些令人兴奋的新模型的发布,上面的帖子在发布10分钟后就过时了。 在此之前,他刚刚在推特上发布了另一个中国开源模型Deepseek的基准测试结果。
General Robotics 1X 人工智能副总裁、谷歌前高级研究科学家 Eric Jang 说:“干得好! 这篇技术文章非常值得一读,我很高兴他们也开源了对齐的 VLM。 ”
Microsoft 的 365 管理平台 Coreview 的首席技术官 Ivan Fior**Anti 用几个感叹号表达了他的兴奋:“可以测试另一个新的大模型! 几个月后,这些模型将变得非常强大! ”
一位专注于人工智能的波兰学者说:“乍一看,它确实令人印象深刻。 仔细观察,(Tongyi Qianwen)在处理波兰语方面与 GPT-4 不相上下(而 LLAMA2 在这方面做得很糟糕)。 ”
印度NLP科学家、数据科学社区Maxpool创始人Pratik BH**SAR认为,该模型在很多任务上都已经超越了GPT-4,迫不及待地想用通义千文实现商业化应用。
在中国,中小企业和创业公司也非常喜欢开源的通益千问。 具身智能机器人创业公司优路智能创始人兼CEO陈俊波曾称通义千文是“目前中文领域智能性能最好的开源大模型之一”。
陈俊波,优路智能创始人兼CEO(来源:阿里云)。
华东理工大学X-D Lab学生开发者闫昕基于通义千文开源模型开发了心理健康模型,如MindChat(漫无边际)、医疗健康模型Sunsimiao(孙思淼)、教育考试模型GradChat(锦鲤)。 通益千问72b开源后,闫欣很好奇它是如何刷新“我们领域的能力极限值”的。
我们可能会基于QWEN-72B进行一些学术探索,包括使用联邦习算法来处理数据。 ”
闫昕,华东理工大学X-D实验室学生开发人员(来源:阿里云)。
同益千文QWEN-72B开源发布时,在10个权威评估集中取得了开源模型的最佳成绩,有4个基准测试超越了闭源模型GPT-4。
值得一提的是,在数学能力评估基准上,QWEN-72B取得了35分的成绩2分,几乎是同规模LLAMA 2的三倍。
QWEN-72B在前10大权威测试中的得分。
在今天刚刚更新的OpenCompass评测系统中,QWEN-72B获得了开源基础模型的第一名。
OpenCompass大模型排名,数据截至12月12日。
在OpenCompass中文能力测试中,同益千问72B基础模型和对话模型包揽了前两名,与GPT-4等主流模型拉开了差距。
Opencompass中国大模型榜单,数据截至12月12日。
日前,通益千问72B在最权威的Hugging Face开源大模型排行榜上名列前茅。 该榜单收录了来自世界各地的数百个开源模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评价。
QWEN-72B 和 LLAMAMA-2-70B 进行六项主要测试。
其中,同益千文在MMLU、TruthfulQA、GSM8K三大基准中的表现已经大大超过了LLAMA 2。
在具体能力方面,MMLU考察了模型的世界知识和语言能力,这是一个综合评估。 TruthfulQA考察模型的常识问答,包括常识能力、抗幻觉能力、问答能力等。 GSM8K 检查模型的数学推理和计算。
在实际应用中,通义千文在各方面的能力表现如何?
让我们从一个经典的数学问题开始:0999无限循环和1循环哪个更大?
解决问题的逻辑是明确的,结果是正确的。
在理解汉语方面,通义千文也能准确识别复杂的重叠词:
我们来看一个逻辑推理问题:天堂和地狱有两扇门,两个门卫,一个说真话,一个说谎,你只能问一个人一次,如何找到天堂之门?
佟义千文没有被难倒,通过逻辑分析,准确地找到了问题的答案。
在常识上,通义千文也不是问题,准确回答了冰水是纯净的还是混水的。
面对“陷阱”这个假设性的问题,统义千文也在努力给出一个合理的答案。
整体来看,同益千问72B的性能非常耐久,超越LLAMA 2成为开源大模型的新标杆。
那么问题来了——为什么 QWEN-72B 具有如此出色的性能?
阿里巴巴同益实验室的科学家告诉智东,同益千文模型的不断优化和进步,主要依靠三个基本能力。
首先,培训更扎实,方法更先进。
在QWEN-72B模型的训练中,阿里云使用了多达43吨的高质量数据进行训练,相当于7吨代币,覆盖近20种语言,涵盖金融、法律、医疗等领域。 同时,通益千文团队优化了数据匹配和数据源,使用更高质量、更多样化的3T代币进行训练。
在训练方法上,通益千文团队综合运用DP(数据并行)、TP(张量模型并行)、PP(流水线并行)、SP(序列并行)等方法进行大规模分布式并行训练,并引入Flashattention-2等高效算子,提高训练速度。
二是AI基础设施全面升级大模型训练又快又好
在今年的Apsara大会上,阿里云首席技术官周 Jingren表示,阿里云已经全面升级了其AI基础设施。 这大大提高了大模型的训练和推理效率,同益千问72b开源模型的推出就是最新的例子。
借助阿里云AI平台PAI的拓扑感知调度机制,统义千文团队有效降低了大规模训练过程中的通信成本,训练速度提升了30%。
此外,在训练稳定性方面,PAI平台的AIMaster管理组件监控作业日志、错误报告、指标等信息,使团队能够区分用户错误和系统错误,根据作业类型和容错场景提供管理能力和全链路自动化运维能力,自动拒绝故障机器重启任务, 将训练期间手动干预和重启的频率从每天减少到每周一次。
据悉,中国一半的大型模型公司都在阿里云上运行,百川智能、智步AI、零壹万物、昆仑万维、vivo、复旦大学等一大批龙头企业和机构都在阿里云上训练了大型模型。
最后,来自应用场景和开源社区的丰富反馈也帮助研发团队不断迭代和优化基础模型。
目前,全球大模型领域主要有两条技术路线。 一个是以 OpenAI 的 GPT-4 为代表的闭源路由,另一个是以阿里云的通益千问和 Meta 的 LLAMA 2 为代表的开源路由。
闭源模型的定制不如开源模型,无法满足当前模型应用市场的多样化需求。
阿里云是国内首家开源自研大模型的科技公司,先后开源了QWEN-7B、QWEN-14B、QWEN-72B、QWEN-18b还开源了两个多模态大模型,视觉理解模型QWEN-VL和音频理解大模型QWEN-audio,率先实现了大模型“全尺寸、全模态”开源。
阿里云还为开发者提供了更加便捷、普惠的大型模型服务:开发者可以在Moda社区中直接体验一系列模型的效果,也可以通过阿里云灵济平台调用模型API,或者基于阿里云百联平台定制大型模型应用; 阿里云AI平台PAI也深度适配通益千问全系列模型,推出轻量级微调、全参数微调、分布式训练、离线推理验证、一流服务部署等服务。
智东从一些开发者群体中了解到,从用户的角度来看,之所以选择国产开源模式,是因为开源模式性价比高,定制化程度高,能够适应现阶段千行百业对大模型应用的多元化探索。
其次,借助开源社区的有效反馈和集体智慧,可以更快地对开源模型进行迭代优化和扩展,甚至有些问题相似,更容易找到现成的解决方案。
最后,国内用户需要对中国强大的车型有更多的可控性和更多的了解,通益千问72b在中国能力上远远超过骆驼2,这是中国自主研发的大模型与国外模型相比不可替代的优势。
在12月1日的通益千文发布会上,周静仁表示,开源生态对于推动中国大模型的技术进步和应用至关重要,通益千文将继续投入开源,希望成为“AI时代最开放的大模型”。
在阿里云想象的“大模自由市场”中,通益千文只是“百模”之一。 QWEN大模型系列的开源,是阿里云将知识与行动相结合,开展大模型生态建设的最佳实践。 大模型越早推向市场,就越会吸收用户的反馈来喂养大模型,“模型越强、应用越多、应用越多、模型越强”的“飞轮效应”。
超越LLAMA 2是国产大模型“百模大战”中的一个节点,通过更广泛的落地应用和更繁荣的生态,进一步攻克最强闭源大模型GPT-4,或许在AI大战中,以阿里云为代表的中国企业有更大的胜算。