Mistral AI 开源了采用 SMoE 架构的 Mixtral 8x7B 模型,整体性能优秀

小夏 科技 更新 2024-01-29

Mistral AI 发布了其最新的 mixtral 8x7b 模型,这是一个具有开放权重的稀疏专家模型 (SMOE),能够处理 32,000 个代币上下文,在大多数基准测试中优于 LLAMA 2 70B(700 亿个参数)和 GPT 35 个模型和 Apache 20 授权开源。

mixtral 8x7b 属于稀疏混合专家模型,是一种适合构建大型高效神经网络的深度 习 架构。 这类模型中的一个重要概念是专家系统,它指的是网络中特定的子模块或子网络,每个专家都擅长处理特定类型的输入数据或任务。

稀疏混合EA模型的稀疏性意味着每个输入只会触发少量EA交易,即并非每个输入都需要由所有EA进行处理,因此可以有效降低计算成本。 在稀疏混合专家模型中,经过训练的路由器可以根据输入数据的特征将任务分配给最合适的专家,而在混合 8x7b 模型中,路由器会根据接收到的任务确定两个最相关的专家,在两个专家处理完输入后,专家输出将整合到最终输出中。

稀疏混合专家模型通过结合不同专家的知识和技能,以稀疏的方式处理数据,同时在处理大量参数和数据的同时保持合理的计算成本范围,从而提高了大型神经网络的效率和性能。

mixtral 8x7b 模型总共有 467 亿个参数,虽然参数总数很大,但模型在处理每个 token 时只会选择和使用其中的 129 亿个,这是稀疏性的体现,而 mixtral 8x7b 模型不会每次都启动所有参数。 而且由于该模型一次只使用一些参数,因此处理速度和计算成本相当于只有 129 亿个参数的模型。

根据官方数据,相较于同样开源的 LLAMA 2 70B 模型,MIXTRAL 8X7B 在大多数基准测试中表现更好,推理速度是 LLAMA 2 70B 的 6 倍,MIXTRAL 8X7B 在大多数标准基准测试中的表现也和 GPT3 一样好5 相当甚至超过。 在幻觉和偏见方面,Mixtral 比 Llama 2 更逼真,偏见更少。

目前能够处理英语、法语、意大利语、德语和西班牙语,mixtral 8x7b 在生成程序方面非常出色**。 mixtral 8x7b 的微调指令遵循模型 mixtral 8x7b 指令,而 83 分,成为目前最好的开源指令跟随模型,性能和 GPT 35 相当。

相似文章

    MistralAI 发布 Mistral 8x7B MoE,一种基于混合专家技术的大型语言模型

    法国大型模型初创公司Mistralai于今年月发布了Mistral B模型,号称是亿参数尺度模型中最强大的模型。由于其商业友好的开源协议,MISTRAL B引起了很多关注。就在昨天,Mistralai 突然在推特上发了一条 Magnet 的链接,后来才发现,这是一个基于混合专家的大模型。混合专家网络...

    AI Horizons Mistral AI 发布 87GB 开源 MoE 模型 Soul,并推出大模型 SoulX

    ...

    Facebook 的开源 StyleX 用 JavaScript 编写 CSS

    Meta 前身为 Facebook 开源了一个新的 CSS in JS 库 StyleX。github地址 正式地,StyleX 是一个富有表现力 确定性 可靠且可扩展的样式系统。它通过使用编译时工具混合了静态 CSS 的性能和可扩展性。此外,StyleX 不仅仅是一个基于编译器的 css in j...

    开源12天,斩获抱脸OpenCompass等权威榜单冠军,通义千文疯狂甩骆驼2成新标杆

    聪明的东西 作者 香草 编辑 沙漠之影 国产模式又出圈了吗?智东在月日表示,近日,阿里云同益千问的亿参数模型QWEN B击败了LLAMA 等国内外开源大模型登上全球最大模特社区的顶端hugging face之开源大模型排行榜 打开 LLM 排行榜 Hugging Face 开源大模型排行榜,数据截至...

    Meta 和 IBM 联手开源 AI

    由于缺乏监管,对人工智能发展和安全的担忧继续迅速增长。最新的行业解决方案计划来自 Meta 和 IBM。这两家公司成立了一个名为人工智能联盟的组织。人工智能联盟的使命是 培养开放社区,使开发人员和研究人员能够加速人工智能领域负责任的创新 它被定义为 建立科学严谨性 信任 安全 保障 多样性和经济竞争...