开源仅12天,通益千文就斩获多项大模型权威评测冠军

小夏 体育 更新 2024-01-29

**|科技星球

发短信|贾宁宇

自12月1日阿里云宣布开源以来,同益千问72b模型开启了“屠宰榜”模式,并接连斩获多项权威排行榜。 今天,通义千文又夺得了重要榜单冠军。

12月12日,国内权威大模型评测平台opencompass近日更新榜单,阿里云通益千问荣登开源基座大模型榜首,并荣获中文数据集评测前两名。

图片说明:通益千问72B荣登OpenCompass基座型号榜首。

OpenCompass是上海人工智能实验室的开源大模型评估平台,参与QWEN、LLAMA2等开源模型和GPT-4、ChatGPT等主流模型的评估,可对大模型的能力进行综合评估,是业界认可的最权威的中国能力评估榜单之一。

通益千问72B开源模型(QWEN-72B),至67综合得分1分获得OpenCompass基座大模型榜单第一名,在学科能力和理解能力的评价上超越标杆GPT-4,创下开源大模型新纪录。

在opencompass中文数据集的评估中,通义千问72b基础模型和对话模型(qwen-72b-chat)占据了前两名,与其他模型拉开了差距。

图注:通益千问72b基础模型和对话模型占据了中文数据集测试的前两名。

就在日前,通益千文击败了LLAMA2等国内外开源大模型,在全球最大的开源大模型社区Huggingface的最新开源大模型排行榜中名列前茅。

HuggingFace是全球最具影响力的AI开源社区,其Open LLM排行榜被认为是最可信的专业榜单,收录了全球数百个开源模型,如QWEN系列、Llama2等。

开源的通益千问(QWEN-72B)表现抢眼,得分73分总分6分在所有预训练模型中排名第一。 刷新了中国大模特在HuggingFace榜单上的记录。

图片说明:通益千文72B荣登HuggingFace排行榜榜首。

通益千问72b已成为国内外公认的最强大的开源大模型,完全可以满足企业和科研应用对大模型性能的高要求。

此前,在12月1日,在开源公布之时,QWEN-72B在10项权威基准评测中获得了开源模型的最佳成绩,超过了LLAMA2-70B,在部分评测中也超过了闭源GPT-35 和 GPT-4。

图片说明:通益千问 720 亿开源模型部分成果超越闭源 GPT-35 和 GPT-4。

具体来说,在英文任务上,QWEN-72B在MMLU基准测试中获得了开源模型的最高分;在中文任务中,QWEN-72B在C-Eval、CMMLU、Gaokaobench等基准测试中占据主导地位,得分超过GPT-4;在数学推理方面,QWEN-72B在GSM8K和MATH评估中断层领先于其他开源模型在理解力方面,QWEN-72B在Humaneval、MBPP等评估中的表现有了很大的提升,能力有了质的飞跃。

据了解,阿里云已开源了4个同义千问18亿、70亿、140亿、720亿参数的大语言模型,以及视觉理解QWEN-VL和音频理解QWEN-audio的2个多模态大模型,引领了“全尺寸、全模态”的开源。

截至目前,通益千问开源模型系列总数已超过150万个,涌现出150多个新模型和新应用。

阿里云CTO周景仁曾表示,开源生态对于推动中国大模型的技术进步和应用至关重要,通益千文将持续投入开源,希望成为“AI时代最开放的大模型”,与合作伙伴一起推动大模型的生态建设。

开发者可以在阿里云魔术社区中直接体验系列模型的效果,也可以通过阿里云灵机平台调用模型API,也可以基于阿里云百联平台定制大模型应用阿里云AI平台PAI也深度适配通益千问全系列模型,推出轻量级微调、全参数微调、分布式训练、离线推理验证、一流服务部署等服务。

相似文章

    开源12天,斩获抱脸OpenCompass等权威榜单冠军,通义千文疯狂甩骆驼2成新标杆

    聪明的东西 作者 香草 编辑 沙漠之影 国产模式又出圈了吗?智东在月日表示,近日,阿里云同益千问的亿参数模型QWEN B击败了LLAMA 等国内外开源大模型登上全球最大模特社区的顶端hugging face之开源大模型排行榜 打开 LLM 排行榜 Hugging Face 开源大模型排行榜,数据截至...

    嘲笑大牙!4天票房只有167元,12月,这部国产大片被吴京击败

    说实话,这几年我看到了很多票房 比如年上映的 误入青春 这部电影的噱头就是 西游团团重聚,四老一剧 虽然大家对李世宏 马德华 徐少华 刘大刚都很熟悉,但毕竟他们不如刘晓彤彤出名。此外,这部电影讲述的故事乏善可陈,甚至不如网络电影精彩,所以最终只拿到了元的票房。在票房往往超过亿甚至数十亿的时候,四位数...

    OnePlus 12 新发布!只要4999元,就能拥有这样的神器?

    暖冬好事奖 独家启示 OnePlus ,仅元起...

    性价比“真狠”,12G 256G仅售1391元,标配2K直屏5500mAh

    在手机,屏幕质量是最重要的硬件之一。Redmik采用K直屏,是目前市面上最低 功能最强大的K屏幕手机,它仍然被携带三星直屏。该屏幕提供 hz 高刷新率 高亮度和高触摸灵敏度等参数为用户带来出色的滑动 触摸和显示体验。即使价格相同手机相比之下,Redmik的屏幕质量也不逊色,秒级就彻底杀死了它们。另外...

    双校外校毕业生425人,研究生在读的只有12人,但录取分数很高

    双校外校毕业生人,研究生在读的只有人,但录取分数很高 双校外校毕业生人,研究生在读的只有人,但录取分数很高 北京电子科技职业学院位于首都北京,是一所学术背景深厚 社会影响力广泛的普通高等学府。学院不仅培养了一大批优秀人才,还向各级党政机关输送了信息安全和办公自动化专业人才,为我国信息化建设做出了积极...