2月6日,阿里发布通义千问1版本 5 由 6 个大小模型组成,“qwen”是指基础语言模型,“qwen-chat”是指通过 SFT(监督微调)和 RLHF(强化学习人类反馈)等训练后技术训练的聊天模型。
模型概述
在这个 qwen1在版本 5 中,我们开源了 05b、1.发布了8b、4b、7b、14b、72b等6个不同尺度的碱基和聊天,并一如既往地发布了各尺度对应的定量模型。
以下是此更新的一些亮点:
支持 32k 上下文长度; 打开基础 + 聊天模型的检查点; 可与变压器一起在本地运行; 同时发布了 GPTQ int-4、int8、AWQ 和 GGUF 权重。 绩效评估基本能力qwen1.5在多个基准测试中表现出出色的性能。 无论是在语言理解、生成、推理能力方面,还是在多语言和人类偏好生产方面。
qwen1.5-72B 在所有基准测试中都远远优于 LLAMA2-70B,展示了其在语言理解、推理和数学方面的卓越能力。
多语种能力选取来自欧洲、东亚和东南亚的12种不同语言,对BASE模型qwen1的多语言能力进行综合评价5 基础模型在 12 种不同语言的多语言方面表现出色,在考试、理解、翻译和数学等各个维度的评估中都取得了优异的成绩,并可用于翻译、语言理解和多语言聊天等下游应用。
人类偏好对齐尽管落后于 GPT-4-Turbo,但最大的 QWEN15 型号 qwen15-72B-Chat 在 MT-Bench 和 Alpaca-Eval V2 上都表现出色,优于 Claude-21、gpt-3.5-turbo-0613、mixtral-8x7b-ininstruction 和 tulu 2 DPO 70b,与 Mistral Medium 相当。
位于 qwen15 与 HuggingFace Transformers 库集成。 从 437.从版本 0 开始,您可以直接使用本机转换器库使用 qwen1,而无需加载任何自定义项(指定信任远程代码选项)。5. 像这样加载模型:
from transformers import automodelforcausallm# this is what we previously usedmodel = automodelforcausallm.from_pretrained("qwen/qwen-7b-chat", device_map="auto", trust_remote_code=true)# this is what you can use nowmodel=automodelforcausallm.from_pretrained("qwen/qwen1.5-7b-chat",device_map="auto")
项目地址 github: