大型模型创业公司Mistral AI终于推出了前两天“开源”的MOE模型mixtral 8x7b
据官方统计,mixtral 8x7b 具有高质量和开放式配重稀疏混合专家模型 (SMOE)。使用 Apache 20 许可证开源。 在大多数基准测试中,Mixtral 的性能优于 LLAMA 2-70B,推理速度提高了 6 倍。 在大多数标准基准测试中,它都超过了 GPT-35。
因此,Mistral AI 称 mixtral 为最强大的开放权重模型,也是性价比权衡的最佳模型。
Mixtral 主要特点
32k 上下文。
提供英语、法语、意大利语、德语和西班牙语版本。
超越 LLAMA 2 系列和 GPT-35
在**生成方面表现强劲。
在 mt-bench 上获得 8 分3分。
Mixtral 作为一个稀疏混合专家网络,是一个仅解码器模型,其中前馈模块从 8 组不同的参数中选择。 在每一层,对于每个令牌,路由网络选择两组“专家”来处理令牌,并加法组合它们的输出。
mixtral 共有 45b 个参数,但每个令牌仅使用 12b 个参数。 因此,它以与 12b 模型相同的速度和成本处理输入并生成输出。
有关更多详细信息,请查看:
相似文章
来自 Qubit 的 Mengchen qbitai 取消今晚的所有计划!许多人工智能开发人员决定不睡觉。只是因为 Mistral AI 刚刚发布了第一个开源的 MOE 模型。MOE架构的全称是Mixture of Experts,是传闻中GPT 采用的解决方案,可以说是开源模型最接近GPT 的一集...
月日消息,全球最大的开源大模型社区Huggingface近日公布了最新的开源大模型排行榜,阿里云通益千问击败llama等国内外开源大模型登上榜首。Tongyi Qianwen B荣登Huggingface公开法学硕士排行榜榜首 HuggingFace的Open LLM排行榜是目前大模型领域最权威的榜...
阿里云坚定支持大模型开源的原因 思路和逻辑。近日,阿里云为通益千问召开新闻发布会,开源了同益千问亿参数模型QWEN B。此外,通益千文还开源了亿参数模型QWEN b 和音频模型 qwen audio。截至目前,同益千问已经开源了亿 亿 亿 亿参数的四大语言模型,以及视觉理解和音频理解的多模态大模型,...
小萧 来自 凹飞寺量子比特 qbitai 苹果M系列芯片独家机器学习习框架,开源火爆!现在,借助此框架,您可以运行 亿个参数的大型模型 训练 Transformer 模型或直接在 Apple GPU 上进行 LoRa 微调。它由 Apple 正式发布,风格类似于 PyTorch,但不基于任何现有框架...
要点 .APE是一个完全开源的多模态分割模型,通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方式,统一前台和背景粒度,提高分割效果。 APE的方法主要包括对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和...