开源 MoE 模型 Mixtral 8x7B 优于 GPT 3 5

小夏 数码 更新 2024-01-29

大型模型创业公司Mistral AI终于推出了前两天“开源”的MOE模型mixtral 8x7b

据官方统计,mixtral 8x7b 具有高质量和开放式配重稀疏混合专家模型 (SMOE)。使用 Apache 20 许可证开源。 在大多数基准测试中,Mixtral 的性能优于 LLAMA 2-70B,推理速度提高了 6 倍。 在大多数标准基准测试中,它都超过了 GPT-35。

因此,Mistral AI 称 mixtral 为最强大的开放权重模型,也是性价比权衡的最佳模型。

Mixtral 主要特点

32k 上下文。

提供英语、法语、意大利语、德语和西班牙语版本。

超越 LLAMA 2 系列和 GPT-35

在**生成方面表现强劲。

在 mt-bench 上获得 8 分3分。

Mixtral 作为一个稀疏混合专家网络,是一个仅解码器模型,其中前馈模块从 8 组不同的参数中选择。 在每一层,对于每个令牌,路由网络选择两组“专家”来处理令牌,并加法组合它们的输出。

mixtral 共有 45b 个参数,但每个令牌仅使用 12b 个参数。 因此,它以与 12b 模型相同的速度和成本处理输入并生成输出。

有关更多详细信息,请查看:

相似文章

    第一个开源MoE模型发布!GPT 4 具有相同的架构,来自欧洲的 OpenAI

    来自 Qubit 的 Mengchen qbitai 取消今晚的所有计划!许多人工智能开发人员决定不睡觉。只是因为 Mistral AI 刚刚发布了第一个开源的 MOE 模型。MOE架构的全称是Mixture of Experts,是传闻中GPT 采用的解决方案,可以说是开源模型最接近GPT 的一集...

    中国开源模型荣登HuggingFace排行榜榜首

    月日消息,全球最大的开源大模型社区Huggingface近日公布了最新的开源大模型排行榜,阿里云通益千问击败llama等国内外开源大模型登上榜首。Tongyi Qianwen B荣登Huggingface公开法学硕士排行榜榜首 HuggingFace的Open LLM排行榜是目前大模型领域最权威的榜...

    为什么阿里云在大模型开源的道路上越走越远?牛头快速回顾

    阿里云坚定支持大模型开源的原因 思路和逻辑。近日,阿里云为通益千问召开新闻发布会,开源了同益千问亿参数模型QWEN B。此外,通益千文还开源了亿参数模型QWEN b 和音频模型 qwen audio。截至目前,同益千问已经开源了亿 亿 亿 亿参数的四大语言模型,以及视觉理解和音频理解的多模态大模型,...

    苹果在大模型上最大的动作 开源的 M-core 专用 ML 框架可以运行 70 亿个大模型

    小萧 来自 凹飞寺量子比特 qbitai 苹果M系列芯片独家机器学习习框架,开源火爆!现在,借助此框架,您可以运行 亿个参数的大型模型 训练 Transformer 模型或直接在 Apple GPU 上进行 LoRa 微调。它由 Apple 正式发布,风格类似于 PyTorch,但不基于任何现有框架...

    全大模型APE最强的“全开源”多模态分割

    要点 .APE是一个完全开源的多模态分割模型,通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方式,统一前台和背景粒度,提高分割效果。 APE的方法主要包括对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和...