开源 MoE 模型 Mixtral 8x7B 优于 GPT 3 5

小夏数码更新 2024-01-29

大型模型创业公司Mistral AI终于推出了前两天“开源”的MOE模型mixtral 8x7b

据官方统计，mixtral 8x7b 具有高质量和开放式配重稀疏混合专家模型（SMOE）。使用 Apache 20 许可证开源。在大多数基准测试中，Mixtral 的性能优于 LLAMA 2-70B，推理速度提高了 6 倍。在大多数标准基准测试中，它都超过了 GPT-35。

因此，Mistral AI 称 mixtral 为最强大的开放权重模型，也是性价比权衡的最佳模型。

Mixtral 主要特点

32k 上下文。

提供英语、法语、意大利语、德语和西班牙语版本。

超越 LLAMA 2 系列和 GPT-35

在**生成方面表现强劲。

在 mt-bench 上获得 8 分3分。

Mixtral 作为一个稀疏混合专家网络，是一个仅解码器模型，其中前馈模块从 8 组不同的参数中选择。在每一层，对于每个令牌，路由网络选择两组“专家”来处理令牌，并加法组合它们的输出。

mixtral 共有 45b 个参数，但每个令牌仅使用 12b 个参数。因此，它以与 12b 模型相同的速度和成本处理输入并生成输出。

有关更多详细信息，请查看：

相似文章

第一个开源MoE模型发布！GPT 4 具有相同的架构，来自欧洲的 OpenAI

来自 Qubit 的 Mengchen qbitai 取消今晚的所有计划！许多人工智能开发人员决定不睡觉。只是因为 Mistral AI 刚刚发布了第一个开源的 MOE 模型。MOE架构的全称是Mixture of Experts，是传闻中GPT 采用的解决方案，可以说是开源模型最接近GPT 的一集...

中国开源模型荣登HuggingFace排行榜榜首

月日消息，全球最大的开源大模型社区Huggingface近日公布了最新的开源大模型排行榜，阿里云通益千问击败llama等国内外开源大模型登上榜首。Tongyi Qianwen B荣登Huggingface公开法学硕士排行榜榜首 HuggingFace的Open LLM排行榜是目前大模型领域最权威的榜...

为什么阿里云在大模型开源的道路上越走越远？牛头快速回顾

阿里云坚定支持大模型开源的原因思路和逻辑。近日，阿里云为通益千问召开新闻发布会，开源了同益千问亿参数模型QWEN B。此外，通益千文还开源了亿参数模型QWEN b 和音频模型 qwen audio。截至目前，同益千问已经开源了亿亿亿亿参数的四大语言模型，以及视觉理解和音频理解的多模态大模型，...

苹果在大模型上最大的动作开源的 M-core 专用 ML 框架可以运行 70 亿个大模型

小萧来自凹飞寺量子比特 qbitai 苹果M系列芯片独家机器学习习框架，开源火爆！现在，借助此框架，您可以运行亿个参数的大型模型训练 Transformer 模型或直接在 Apple GPU 上进行 LoRa 微调。它由 Apple 正式发布，风格类似于 PyTorch，但不基于任何现有框架...

全大模型APE最强的“全开源”多模态分割

要点 .APE是一个完全开源的多模态分割模型，通过对每个类别名称实例进行独立建模，将词级嵌入压缩为句子级嵌入，采用不同的特征融合方式，统一前台和背景粒度，提高分割效果。 APE的方法主要包括对每个类别名称实例进行独立建模，将词级嵌入压缩为句子级嵌入，采用不同的特征融合方法，通过矩阵乘法计算对象嵌入和...