Gemini 的开源版本诞生了！全能多模态模型Emu2上榜热点，多任务刷新SOTA

编辑：桃子好困。

最强全能多式联运模型来了！就在近日，智源教育学院发布了开源行业的双子座EMU2，一气呵成刷新了多个SOTA。

在过去的 18 个月里，我们看到了 AI 领域的许多重要时刻。

LLAMA、ALPACA等众多开源模型竞相发布，这不仅可以媲美闭源模型的性能，也为大家提供了投身AI的机会

2024年8月，Stable Diffusion发布，让Dall·e的神秘光环不再遥不可及，每个人都能召唤出属于自己的数字达芬奇;

2023 年 2 月，Meta 的 LLAMA 及其随后的语言模型大军让 ChatGPT 的独角戏成为一场星光熠熠的表演

2023 年 12 月 6 日，Google Deepmind 推出了多模态超级巨星 Gemini。

仅仅两周后，智源教育学院发布了其最新一代的生成式多模态开源模型EMU2。

很快，这项在开源多模态领域的工作引起了国际社会的广泛关注，并登上了HN热门榜单的第三位。

EMU2 在 HackerNews 列表中引起了人们的关注。

拥抱脸大V AK**。

据悉，该型号的轻量级版本即将推出，允许技术玩家在本地运行。

EMU2通过大规模自回归生成式多模态预训练，显著推动了多模态情境学习能力的突破。

EMU2在小样本多模态理解任务中大大超越了Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型，在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多项小样本理解任务、视觉问答、主体驱动图像生成等方面均达到最佳性能。

EMU2 模型与 Flamingo、GPT-4V 和 Gemini 等模型的功能比较一目了然。

Gemini 的开源版本即将到来

与 2023 年 7 月发布的第一代多模态到多模态 EMU 模型相比，EMU2 使用更简单的建模框架，训练解码器从编码器的语义空间重建图像，并将模型缩放到 37B 参数，以实现模型能力和通用性的突破。

同时，仍然使用大量的图、文本、**序列，建立基于统一自回归建模的多模态预训练框架，将图像、**等模态的标记序列直接与文本标记序列交错输入到模型中进行训练。

值得一提的是，EMU2是目前最大的开源生成式多模态模型，基于EMU2微调的EMU2-CHAT和EMU2-Gen模型分别是功能最强大的视觉理解模型和能力最强的视觉生成模型

- emu2-chat它可以准确理解最佳指令，从而实现更好的信息感知、意图理解和决策规划。

- emu2-gen它可以接受图像、文本和交错位置的序列作为输入，以实现灵活、可控、高质量的图像和**生成。

现在，EMU2 的模型已经开源，并且有一个 demo 可供试用。

项目：型号：

demo：

多次性能刷新 SOTA

通过对多模态理解和生成能力的定量评估，EMU2在少样本理解、视觉问答、主观图像生成等多个任务中均达到最佳性能。

在小样本评估中，EMU2 在各种场景中明显优于 Flamingo-80B，例如 127分。

指令微调后，EMU2 可以自由地回答图像和输入的问答，并在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多个图像和问答评估集上实现最佳性能，以统一模型。

在零样本 Dreambench 主观驾驶图像生成测试中，与之前的方法相比有明显的改进，例如 71%，比 Microsoft 的 KOSMOS-G 恐龙得分高出 7 分2%。

多模态情境学习

生成式预训练完成后，EMU2 具备全面而强大的多模态情境学习能力。基于几个例子，该模型可以用来完成相应的理解和生成任务。

例如，在上下文中描述图像，在上下文中理解视觉提示（覆盖图像上的红色圆圈），在上下文中生成类似样式的图像，在上下文中生成相应主题的图像，等等。

强大的多模态理解

对对话数据指令进行微调后，emu2-chat可以准确理解**指令，更好地完成多模态理解任务。

例如，推断图像中的特征、读取符号以提供指导、根据需要提取和估计指定属性、回答简单的专业主题问题等。

基于任意提示序列的图像生成

emu2-gen已经过高质量图像的微调，可以接受图像、文本和位置的序列作为输入，以生成相应的高质量图像，这种灵活性带来了高度的可控性。

例如，在指定位置生成熊和向日葵，并指定身体：

在指定位置、给定主体、指定样式生成宠物狗和小鸸鹋的合影图像：

基于**序列的生成示例：

根据任意提示序列的 ** 生成

此外，emu2 支持基于任意提示序列的 ** 生成。

基于文本、交错和位置交错序列，可以生成相应的高质量。

统一的生成式预训练

EMU2的训练方法是多模态序列的生成预训练。

使用统一的自回归建模方法，下一个视觉或文本令牌基于当前生成的令牌。

与EMU1相比，EMU2使用更简单的建模框架，训练更好的解码器从特征中重建原始图像，并将模型缩放到37B参数。

Gemini 的开源版本诞生了！全能多模态模型Emu2上榜热点，多任务刷新SOTA

相似文章

OA开源版是提升企业效率的最佳选择

蚂蚁集团开源OpenASCE，大规模全链路因果关系习系统

4 0,25场不败！欧洲第一匹黑马诞生，22胜83球，皇马贪婪年轻元帅

《模拟人生4》学习习版完整DLC综合版如何使用正版模拟工坊

斗鱼孵化全面揭秘小生命诞生，你知道多久吗？

Gemini 的开源版本诞生了！全能多模态模型Emu2上榜热点，多任务刷新SOTA

相似文章

OA开源版是提升企业效率的最佳选择

蚂蚁集团开源OpenASCE，大规模全链路因果关系习系统

4 0,25场不败！ 欧洲第一匹黑马诞生，22胜83球，皇马贪婪年轻元帅

《模拟人生4》学习习版完整DLC综合版 如何使用正版模拟工坊

斗鱼孵化全面揭秘小生命诞生，你知道多久吗？

4 0,25场不败！欧洲第一匹黑马诞生，22胜83球，皇马贪婪年轻元帅

《模拟人生4》学习习版完整DLC综合版如何使用正版模拟工坊