编辑:桃子好困。
最强全能多式联运模型来了!就在近日,智源教育学院发布了开源行业的双子座EMU2,一气呵成刷新了多个SOTA。
在过去的 18 个月里,我们看到了 AI 领域的许多重要时刻。
LLAMA、ALPACA等众多开源模型竞相发布,这不仅可以媲美闭源模型的性能,也为大家提供了投身AI的机会
2024年8月,Stable Diffusion发布,让Dall·e的神秘光环不再遥不可及,每个人都能召唤出属于自己的数字达芬奇;
2023 年 2 月,Meta 的 LLAMA 及其随后的语言模型大军让 ChatGPT 的独角戏成为一场星光熠熠的表演
2023 年 12 月 6 日,Google Deepmind 推出了多模态超级巨星 Gemini。
仅仅两周后,智源教育学院发布了其最新一代的生成式多模态开源模型EMU2。
很快,这项在开源多模态领域的工作引起了国际社会的广泛关注,并登上了HN热门榜单的第三位。
EMU2 在 HackerNews 列表中引起了人们的关注。
拥抱脸大V AK**。
据悉,该型号的轻量级版本即将推出,允许技术玩家在本地运行。
EMU2通过大规模自回归生成式多模态预训练,显著推动了多模态情境学习能力的突破。
EMU2在小样本多模态理解任务中大大超越了Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多项小样本理解任务、视觉问答、主体驱动图像生成等方面均达到最佳性能。
EMU2 模型与 Flamingo、GPT-4V 和 Gemini 等模型的功能比较一目了然。
Gemini 的开源版本即将到来
与 2023 年 7 月发布的第一代多模态到多模态 EMU 模型相比,EMU2 使用更简单的建模框架,训练解码器从编码器的语义空间重建图像,并将模型缩放到 37B 参数,以实现模型能力和通用性的突破。
同时,仍然使用大量的图、文本、**序列,建立基于统一自回归建模的多模态预训练框架,将图像、**等模态的标记序列直接与文本标记序列交错输入到模型中进行训练。
值得一提的是,EMU2是目前最大的开源生成式多模态模型,基于EMU2微调的EMU2-CHAT和EMU2-Gen模型分别是功能最强大的视觉理解模型和能力最强的视觉生成模型
- emu2-chat它可以准确理解最佳指令,从而实现更好的信息感知、意图理解和决策规划。
- emu2-gen它可以接受图像、文本和交错位置的序列作为输入,以实现灵活、可控、高质量的图像和**生成。
现在,EMU2 的模型已经开源,并且有一个 demo 可供试用。
项目: 型号:
demo:
多次性能刷新 SOTA
通过对多模态理解和生成能力的定量评估,EMU2在少样本理解、视觉问答、主观图像生成等多个任务中均达到最佳性能。
在小样本评估中,EMU2 在各种场景中明显优于 Flamingo-80B,例如 127分。
指令微调后,EMU2 可以自由地回答图像和输入的问答,并在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多个图像和问答评估集上实现最佳性能,以统一模型。
在零样本 Dreambench 主观驾驶图像生成测试中,与之前的方法相比有明显的改进,例如 71%,比 Microsoft 的 KOSMOS-G 恐龙得分高出 7 分2%。
多模态情境学习
生成式预训练完成后,EMU2 具备全面而强大的多模态情境学习能力。 基于几个例子,该模型可以用来完成相应的理解和生成任务。
例如,在上下文中描述图像,在上下文中理解视觉提示(覆盖图像上的红色圆圈),在上下文中生成类似样式的图像,在上下文中生成相应主题的图像,等等。
强大的多模态理解
对对话数据指令进行微调后,emu2-chat可以准确理解**指令,更好地完成多模态理解任务。
例如,推断图像中的特征、读取符号以提供指导、根据需要提取和估计指定属性、回答简单的专业主题问题等。
基于任意提示序列的图像生成
emu2-gen已经过高质量图像的微调,可以接受图像、文本和位置的序列作为输入,以生成相应的高质量图像,这种灵活性带来了高度的可控性。
例如,在指定位置生成熊和向日葵,并指定身体:
在指定位置、给定主体、指定样式生成宠物狗和小鸸鹋的合影图像:
基于**序列的生成示例:
根据任意提示序列的 ** 生成
此外,emu2 支持基于任意提示序列的 ** 生成。
基于文本、交错和位置交错序列,可以生成相应的高质量。
统一的生成式预训练
EMU2的训练方法是多模态序列的生成预训练。
使用统一的自回归建模方法,下一个视觉或文本令牌基于当前生成的令牌。
与EMU1相比,EMU2使用更简单的建模框架,训练更好的解码器从特征中重建原始图像,并将模型缩放到37B参数。