阿里巴巴的AIGC开源模型Qwen 72B是私有部署的

小夏 科技 更新 2024-01-31

最近大家都知道,阿里推出了自己的开源大模型千问72b,据说对中国人非常友好,在开源模型中,可以说是名列前茅的。

千问拥有强大的基础语言模型,已经对多达 3 万亿个代币的多语言数据进行了稳定的预训练,涵盖领域、语言(重点是中文和英文

QWEN 模型显示在一系列基准数据集 (例如,MMLU、C-Eval、GSM8K、Math、Humaneval、MBPP 等这些数据集评估了该模型在自然语言理解、数学和 QWEN-72b 方面的能力,以便在所有任务上实现比 llama2-70b 更好的性能并在 10 项任务中的 3 项任务中优于 GPT-35。

从下图可以看出,千问机型的版本在逐步升级,对显卡的要求也在逐渐提高恐怕一个4090已经很难支撑了,想要省钱的人可以选择共享算力平台。

算力共享平台

python 3.PyTorch 1 的 8 及更高版本12岁及以上,推荐2人建议将 CUDA 11 用于版本 0 及更高版本4 及以上(GPU 用户、Flash-Attention 用户等需要考虑此选项)要运行 BF16 或 FP16 模型,需要在多个卡上至少 144GB 的视频内存(例如,2xa100-80G 或 5xv100-32G),以及至少 48GB 的视频内存(例如,1xa100-80g 或 2xv100-32g)来运行 int4 model** 项目,或使用 git 命令转到该项目, 减压后。项目地址:如果不使用 docker,请满足以上要求并安装依赖。 pip install -r requirements.txt如果您的设备支持 fp16 或 bf16,我们建议安装 flash-attention(我们现在支持 Flash Attention 2。 ) 以获得更高的效率和更低的内存占用。(Flash-Attention 是可选的,项目无需安装即可工作)git clone

cd flash-attention &&pip install .# below are optional. installing them might be slow.# pip install csrc/layer_norm# if the version of flash-attn is higher than 2.1.1, the following is not needed.# pip install csrc/rotary

from transformers import automodelforcausallm, autotokenizerfrom transformers.generation import generationconfigtokenizer = autotokenizer.from_pretrained("qwen/qwen-1_8b-chat", trust_remote_code=true)# only qwen-72b-chat and qwen-1_8b-chat has system prompt enhancement now.model = automodelforcausallm.from_pretrained("qwen/qwen-1_8b-chat", device_map="auto", trust_remote_code=true).eval()# model = automodelforcausallm.from_pretrained("qwen/qwen-72b-chat", device_map="auto", trust_remote_code=true).eval()response, _= model.chat(tokenizer, "嗨,你好", history=none, system="请用二次元可爱的语气和我说话"打印(响应) 您好!我是一只可爱的二次元猫,不知道大家有没有问题需要我帮忙回答?response, _= model.chat(tokenizer, "my colleague works diligently", history=none, system="you will write beautiful compliments according to needs")print(response)# your colleague is an outstanding worker! their dedication and hard work are truly inspiring. they always go above and beyond to ensure that their tasks are completed on time and to the highest standard. i am lucky to h**e them as a colleague, and i know i can count on them to handle any challenge that comes their way.

pip install -r requirements_web_demo.txtpython web_demo.py

相似文章

    为什么阿里云在大模型开源的道路上越走越远?牛头快速回顾

    阿里云坚定支持大模型开源的原因 思路和逻辑。近日,阿里云为通益千问召开新闻发布会,开源了同益千问亿参数模型QWEN B。此外,通益千文还开源了亿参数模型QWEN b 和音频模型 qwen audio。截至目前,同益千问已经开源了亿 亿 亿 亿参数的四大语言模型,以及视觉理解和音频理解的多模态大模型,...

    中国开源模型荣登HuggingFace排行榜榜首

    月日消息,全球最大的开源大模型社区Huggingface近日公布了最新的开源大模型排行榜,阿里云通益千问击败llama等国内外开源大模型登上榜首。Tongyi Qianwen B荣登Huggingface公开法学硕士排行榜榜首 HuggingFace的Open LLM排行榜是目前大模型领域最权威的榜...

    开源 MoE 模型 Mixtral 8x7B 优于 GPT 3 5

    大型模型创业公司Mistral AI终于推出了前两天 开源 的MOE模型mixtral xb 据官方统计,mixtral xb 具有高质量和开放式配重稀疏混合专家模型 SMOE 使用 Apache 许可证开源。在大多数基准测试中,Mixtral 的性能优于 LLAMA B,推理速度提高了 倍。在大多...

    深化AIGC大模型多模态应用,AI Agent加速应用普及

    报告制作人 招商局 跟踪当前AIGC行业的发展,大模型的多模态发展进一步深化,尤其是文盛 能力的快速提升,将大大降低创作门槛,开拓C端创作的商业空间,以及游戏 影视制作等B端应用空间。在应用端,随着大模型能力的提升和大模型开发工具门槛的降低,AI智能体的构建能力有望快速下沉,这将推动AI应用的进一步...

    加速大模型应用 AIGC加速融入多种业态

    事件刺激 经过年中以来个多月的调整,人工智能板块已经完成触底,随着大模型盈利的爆发叠加利好政策,新一轮 即将启动。最新消息 月日,谷歌正式推出全新大语言模型gemini,并针对不同场景发布了 Ultra Pro 和 Nano 三个不同版本。gemini. 的 Ultra 版本在多项功能上超过了 GP...