**|科技星球
发短信|贾宁宇
自12月1日阿里云宣布开源以来,同益千问72b模型开启了“屠宰榜”模式,并接连斩获多项权威排行榜。 今天,通义千文又夺得了重要榜单冠军。
12月12日,国内权威大模型评测平台opencompass近日更新榜单,阿里云通益千问荣登开源基座大模型榜首,并荣获中文数据集评测前两名。
图片说明:通益千问72B荣登OpenCompass基座型号榜首。
OpenCompass是上海人工智能实验室的开源大模型评估平台,参与QWEN、LLAMA2等开源模型和GPT-4、ChatGPT等主流模型的评估,可对大模型的能力进行综合评估,是业界认可的最权威的中国能力评估榜单之一。
通益千问72B开源模型(QWEN-72B),至67综合得分1分获得OpenCompass基座大模型榜单第一名,在学科能力和理解能力的评价上超越标杆GPT-4,创下开源大模型新纪录。
在opencompass中文数据集的评估中,通义千问72b基础模型和对话模型(qwen-72b-chat)占据了前两名,与其他模型拉开了差距。
图注:通益千问72b基础模型和对话模型占据了中文数据集测试的前两名。
就在日前,通益千文击败了LLAMA2等国内外开源大模型,在全球最大的开源大模型社区Huggingface的最新开源大模型排行榜中名列前茅。
HuggingFace是全球最具影响力的AI开源社区,其Open LLM排行榜被认为是最可信的专业榜单,收录了全球数百个开源模型,如QWEN系列、Llama2等。
开源的通益千问(QWEN-72B)表现抢眼,得分73分总分6分在所有预训练模型中排名第一。 刷新了中国大模特在HuggingFace榜单上的记录。
图片说明:通益千文72B荣登HuggingFace排行榜榜首。
通益千问72b已成为国内外公认的最强大的开源大模型,完全可以满足企业和科研应用对大模型性能的高要求。
此前,在12月1日,在开源公布之时,QWEN-72B在10项权威基准评测中获得了开源模型的最佳成绩,超过了LLAMA2-70B,在部分评测中也超过了闭源GPT-35 和 GPT-4。
图片说明:通益千问 720 亿开源模型部分成果超越闭源 GPT-35 和 GPT-4。
具体来说,在英文任务上,QWEN-72B在MMLU基准测试中获得了开源模型的最高分;在中文任务中,QWEN-72B在C-Eval、CMMLU、Gaokaobench等基准测试中占据主导地位,得分超过GPT-4;在数学推理方面,QWEN-72B在GSM8K和MATH评估中断层领先于其他开源模型在理解力方面,QWEN-72B在Humaneval、MBPP等评估中的表现有了很大的提升,能力有了质的飞跃。
据了解,阿里云已开源了4个同义千问18亿、70亿、140亿、720亿参数的大语言模型,以及视觉理解QWEN-VL和音频理解QWEN-audio的2个多模态大模型,引领了“全尺寸、全模态”的开源。
截至目前,通益千问开源模型系列总数已超过150万个,涌现出150多个新模型和新应用。
阿里云CTO周景仁曾表示,开源生态对于推动中国大模型的技术进步和应用至关重要,通益千文将持续投入开源,希望成为“AI时代最开放的大模型”,与合作伙伴一起推动大模型的生态建设。
开发者可以在阿里云魔术社区中直接体验系列模型的效果,也可以通过阿里云灵机平台调用模型API,也可以基于阿里云百联平台定制大模型应用阿里云AI平台PAI也深度适配通益千问全系列模型,推出轻量级微调、全参数微调、分布式训练、离线推理验证、一流服务部署等服务。