Mistral AI 发布了其最新的 mixtral 8x7b 模型,这是一个具有开放权重的稀疏专家模型 (SMOE),能够处理 32,000 个代币上下文,在大多数基准测试中优于 LLAMA 2 70B(700 亿个参数)和 GPT 35 个模型和 Apache 20 授权开源。
mixtral 8x7b 属于稀疏混合专家模型,是一种适合构建大型高效神经网络的深度 习 架构。 这类模型中的一个重要概念是专家系统,它指的是网络中特定的子模块或子网络,每个专家都擅长处理特定类型的输入数据或任务。
稀疏混合EA模型的稀疏性意味着每个输入只会触发少量EA交易,即并非每个输入都需要由所有EA进行处理,因此可以有效降低计算成本。 在稀疏混合专家模型中,经过训练的路由器可以根据输入数据的特征将任务分配给最合适的专家,而在混合 8x7b 模型中,路由器会根据接收到的任务确定两个最相关的专家,在两个专家处理完输入后,专家输出将整合到最终输出中。
稀疏混合专家模型通过结合不同专家的知识和技能,以稀疏的方式处理数据,同时在处理大量参数和数据的同时保持合理的计算成本范围,从而提高了大型神经网络的效率和性能。
mixtral 8x7b 模型总共有 467 亿个参数,虽然参数总数很大,但模型在处理每个 token 时只会选择和使用其中的 129 亿个,这是稀疏性的体现,而 mixtral 8x7b 模型不会每次都启动所有参数。 而且由于该模型一次只使用一些参数,因此处理速度和计算成本相当于只有 129 亿个参数的模型。
根据官方数据,相较于同样开源的 LLAMA 2 70B 模型,MIXTRAL 8X7B 在大多数基准测试中表现更好,推理速度是 LLAMA 2 70B 的 6 倍,MIXTRAL 8X7B 在大多数标准基准测试中的表现也和 GPT3 一样好5 相当甚至超过。 在幻觉和偏见方面,Mixtral 比 Llama 2 更逼真,偏见更少。
目前能够处理英语、法语、意大利语、德语和西班牙语,mixtral 8x7b 在生成程序方面非常出色**。 mixtral 8x7b 的微调指令遵循模型 mixtral 8x7b 指令,而 83 分,成为目前最好的开源指令跟随模型,性能和 GPT 35 相当。