Gemini 的开源版本诞生了!全能多模态模型Emu2上榜热点,多任务刷新SOTA

小夏 科技 更新 2024-01-31

编辑:桃子好困。

最强全能多式联运模型来了!就在近日,智源教育学院发布了开源行业的双子座EMU2,一气呵成刷新了多个SOTA。

在过去的 18 个月里,我们看到了 AI 领域的许多重要时刻。

LLAMA、ALPACA等众多开源模型竞相发布,这不仅可以媲美闭源模型的性能,也为大家提供了投身AI的机会

2024年8月,Stable Diffusion发布,让Dall·e的神秘光环不再遥不可及,每个人都能召唤出属于自己的数字达芬奇;

2023 年 2 月,Meta 的 LLAMA 及其随后的语言模型大军让 ChatGPT 的独角戏成为一场星光熠熠的表演

2023 年 12 月 6 日,Google Deepmind 推出了多模态超级巨星 Gemini。

仅仅两周后,智源教育学院发布了其最新一代的生成式多模态开源模型EMU2。

很快,这项在开源多模态领域的工作引起了国际社会的广泛关注,并登上了HN热门榜单的第三位。

EMU2 在 HackerNews 列表中引起了人们的关注。

拥抱脸大V AK**。

据悉,该型号的轻量级版本即将推出,允许技术玩家在本地运行。

EMU2通过大规模自回归生成式多模态预训练,显著推动了多模态情境学习能力的突破。

EMU2在小样本多模态理解任务中大大超越了Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在VQ**2、OKVQA、MSVD、MM-Vet、Touchstone等多项小样本理解任务、视觉问答、主体驱动图像生成等方面均达到最佳性能。

EMU2 模型与 Flamingo、GPT-4V 和 Gemini 等模型的功能比较一目了然。

Gemini 的开源版本即将到来

与 2023 年 7 月发布的第一代多模态到多模态 EMU 模型相比,EMU2 使用更简单的建模框架,训练解码器从编码器的语义空间重建图像,并将模型缩放到 37B 参数,以实现模型能力和通用性的突破。

同时,仍然使用大量的图、文本、**序列,建立基于统一自回归建模的多模态预训练框架,将图像、**等模态的标记序列直接与文本标记序列交错输入到模型中进行训练。

值得一提的是,EMU2是目前最大的开源生成式多模态模型,基于EMU2微调的EMU2-CHAT和EMU2-Gen模型分别是功能最强大的视觉理解模型和能力最强的视觉生成模型

- emu2-chat它可以准确理解最佳指令,从而实现更好的信息感知、意图理解和决策规划。

- emu2-gen它可以接受图像、文本和交错位置的序列作为输入,以实现灵活、可控、高质量的图像和**生成。

现在,EMU2 的模型已经开源,并且有一个 demo 可供试用。

项目: 型号:

demo:

多次性能刷新 SOTA

通过对多模态理解和生成能力的定量评估,EMU2在少样本理解、视觉问答、主观图像生成等多个任务中均达到最佳性能。

在小样本评估中,EMU2 在各种场景中明显优于 Flamingo-80B,例如 127分。

指令微调后,EMU2 可以自由地回答图像和输入的问答,并在 VQ**2、OKVQA、MSVD、MM-VET 和 Touchstone 等 10 多个图像和问答评估集上实现最佳性能,以统一模型。

在零样本 Dreambench 主观驾驶图像生成测试中,与之前的方法相比有明显的改进,例如 71%,比 Microsoft 的 KOSMOS-G 恐龙得分高出 7 分2%。

多模态情境学习

生成式预训练完成后,EMU2 具备全面而强大的多模态情境学习能力。 基于几个例子,该模型可以用来完成相应的理解和生成任务。

例如,在上下文中描述图像,在上下文中理解视觉提示(覆盖图像上的红色圆圈),在上下文中生成类似样式的图像,在上下文中生成相应主题的图像,等等。

强大的多模态理解

对对话数据指令进行微调后,emu2-chat可以准确理解**指令,更好地完成多模态理解任务。

例如,推断图像中的特征、读取符号以提供指导、根据需要提取和估计指定属性、回答简单的专业主题问题等。

基于任意提示序列的图像生成

emu2-gen已经过高质量图像的微调,可以接受图像、文本和位置的序列作为输入,以生成相应的高质量图像,这种灵活性带来了高度的可控性。

例如,在指定位置生成熊和向日葵,并指定身体:

在指定位置、给定主体、指定样式生成宠物狗和小鸸鹋的合影图像:

基于**序列的生成示例:

根据任意提示序列的 ** 生成

此外,emu2 支持基于任意提示序列的 ** 生成。

基于文本、交错和位置交错序列,可以生成相应的高质量。

统一的生成式预训练

EMU2的训练方法是多模态序列的生成预训练。

使用统一的自回归建模方法,下一个视觉或文本令牌基于当前生成的令牌。

与EMU1相比,EMU2使用更简单的建模框架,训练更好的解码器从特征中重建原始图像,并将模型缩放到37B参数。

相似文章

    OA开源版是提升企业效率的最佳选择

    phpoa!国内首家专业OA办公软件 OA系统 政府办公开源OA系统服务商,采用PHP MySQL开源语言,一直致力于应用管理软件基层研发,先后推出了企业OA OA 集团OA SaaS版OA等应用平台!在当今的信息时代,企业管理的复杂性与日俱增。为了应对这一挑战,越来越多的公司正在寻找一种高效的解决...

    蚂蚁集团开源OpenASCE,大规模全链路因果关系习系统

    当地时间月日,为期天的AI国际峰会NePIPS 神经信息处理系统 在美国路易斯安那州新奥尔良开幕。Neurips是人工智能和机器习领域的世界顶级会议,与ICML一起被誉为人工智能领域难度最大 级别最高 最具影响力的会议。大会首日,中国互联网公司蚂蚁集团受邀举办主题为 面向行业垂直领域的知识增强AI ...

    4 0,25场不败! 欧洲第一匹黑马诞生,22胜83球,皇马贪婪年轻元帅

    本赛季的勒沃库森也成为了一支备受球迷关注的球队,成为了欧洲第一匹黑马球队。勒沃库森本赛季的成绩也很糟糕,在这场比赛之前已经保持了场不败。而在这场比赛对阵波鸿的比赛中,球队也希望全力以赴,争取达到场不败的纪录。比赛第分钟,希克进入禁区后获得一对一机会。希克直接被对手放倒,裁判也上前直接判罚点球,希克冷...

    《模拟人生4》学习习版完整DLC综合版 如何使用正版模拟工坊

    Rubao 使用 SGLY 共享的修饰符,即最新版本 ,包括从原版到现在的所有DLC 模拟人生 本体 来上班 一起玩得开心 城市生活 猫狗 春夏秋冬 梦幻起飞 海岛生活 趣味大学 绿色生活 雪乡度假 露天度假 豪华派对 完美露台 水疗天 冰凉厨房 令人毛骨悚然 电影乐趣 浪漫花园 外出就餐 儿童游乐...

    斗鱼孵化全面揭秘小生命诞生,你知道多久吗?

    在家庭鱼缸中,斗鱼以其独特的美感和活力吸引了许多爱好者。当你看到斗鱼在水中优雅地游动时,你可能会想 斗鱼卵孵化成小鱼需要多长时间?本文将揭开斗鱼孵化的神秘面纱,让您了解此生诞生的奇妙过程。.斗鱼蛋的孵化时间。斗鱼卵通常孵化约 周。具体时间取决于多种因素,如斗鱼的种类 水温 水质等。在合适的条件下,斗...