开源仅12天，通益千文就斩获多项大模型权威评测冠军

**|科技星球

发短信|贾宁宇

自12月1日阿里云宣布开源以来，同益千问72b模型开启了“屠宰榜”模式，并接连斩获多项权威排行榜。今天，通义千文又夺得了重要榜单冠军。

12月12日，国内权威大模型评测平台opencompass近日更新榜单，阿里云通益千问荣登开源基座大模型榜首，并荣获中文数据集评测前两名。

图片说明：通益千问72B荣登OpenCompass基座型号榜首。

OpenCompass是上海人工智能实验室的开源大模型评估平台，参与QWEN、LLAMA2等开源模型和GPT-4、ChatGPT等主流模型的评估，可对大模型的能力进行综合评估，是业界认可的最权威的中国能力评估榜单之一。

通益千问72B开源模型（QWEN-72B），至67综合得分1分获得OpenCompass基座大模型榜单第一名，在学科能力和理解能力的评价上超越标杆GPT-4，创下开源大模型新纪录。

在opencompass中文数据集的评估中，通义千问72b基础模型和对话模型（qwen-72b-chat）占据了前两名，与其他模型拉开了差距。

图注：通益千问72b基础模型和对话模型占据了中文数据集测试的前两名。

就在日前，通益千文击败了LLAMA2等国内外开源大模型，在全球最大的开源大模型社区Huggingface的最新开源大模型排行榜中名列前茅。

HuggingFace是全球最具影响力的AI开源社区，其Open LLM排行榜被认为是最可信的专业榜单，收录了全球数百个开源模型，如QWEN系列、Llama2等。

开源的通益千问（QWEN-72B）表现抢眼，得分73分总分6分在所有预训练模型中排名第一。刷新了中国大模特在HuggingFace榜单上的记录。

图片说明：通益千文72B荣登HuggingFace排行榜榜首。

通益千问72b已成为国内外公认的最强大的开源大模型，完全可以满足企业和科研应用对大模型性能的高要求。

此前，在12月1日，在开源公布之时，QWEN-72B在10项权威基准评测中获得了开源模型的最佳成绩，超过了LLAMA2-70B，在部分评测中也超过了闭源GPT-35 和 GPT-4。

图片说明：通益千问 720 亿开源模型部分成果超越闭源 GPT-35 和 GPT-4。

具体来说，在英文任务上，QWEN-72B在MMLU基准测试中获得了开源模型的最高分;在中文任务中，QWEN-72B在C-Eval、CMMLU、Gaokaobench等基准测试中占据主导地位，得分超过GPT-4;在数学推理方面，QWEN-72B在GSM8K和MATH评估中断层领先于其他开源模型在理解力方面，QWEN-72B在Humaneval、MBPP等评估中的表现有了很大的提升，能力有了质的飞跃。

据了解，阿里云已开源了4个同义千问18亿、70亿、140亿、720亿参数的大语言模型，以及视觉理解QWEN-VL和音频理解QWEN-audio的2个多模态大模型，引领了“全尺寸、全模态”的开源。

截至目前，通益千问开源模型系列总数已超过150万个，涌现出150多个新模型和新应用。

阿里云CTO周景仁曾表示，开源生态对于推动中国大模型的技术进步和应用至关重要，通益千文将持续投入开源，希望成为“AI时代最开放的大模型”，与合作伙伴一起推动大模型的生态建设。

开发者可以在阿里云魔术社区中直接体验系列模型的效果，也可以通过阿里云灵机平台调用模型API，也可以基于阿里云百联平台定制大模型应用阿里云AI平台PAI也深度适配通益千问全系列模型，推出轻量级微调、全参数微调、分布式训练、离线推理验证、一流服务部署等服务。

开源仅12天，通益千文就斩获多项大模型权威评测冠军

相似文章

开源12天，斩获抱脸OpenCompass等权威榜单冠军，通义千文疯狂甩骆驼2成新标杆

嘲笑大牙！4天票房只有167元，12月，这部国产大片被吴京击败

OnePlus 12 新发布！只要4999元，就能拥有这样的神器？

性价比“真狠”，12G 256G仅售1391元，标配2K直屏5500mAh

双校外校毕业生425人，研究生在读的只有12人，但录取分数很高