全大模型APE最强的“全开源”多模态分割

小夏 社会 更新 2024-01-28

要点:

1. APE是一个完全开源的多模态分割模型,通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方式,统一前台和背景粒度,提高分割效果。

2、APE的方法主要包括对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,统一前台和背景粒度。 在多个常见数据集上的实验表明,使用 APE 方法可以获得强大的分割结果。

3. APE方法在各检测、分割和方向性检测数据集上均优于现有方法,在D3数据集上取得了显著提升。 APE方法在开集检测、开集分割、视觉定位等任务中也表现出了竞争力,取得了新的SOTA成果。

网站管理员之家 (chinaz.)。com)12月10日消息:APE 是一个完全开源的多模态分割模型,其独特之处在于它采用独立建模每个类别名称实例的方法。 虽然以前的方法通常将多个类别名称连接到单个提示中,但 APE 可以通过独立建模每个类别名称或描述短语来习学习实例之间的差异。 此外,APE通过将词级嵌入压缩到句子级嵌入中,从而有效地表达语义信息,从而降低计算复杂度和内存消耗。

*地址: 开源链接:

演示链接:

APE 使用不同的特征融合方式来处理不同类型的提示。 对于具有纯类别名称的文本要素,使用“零”文本标记作为替代方法,以避免过度拟合问题。 对于语言描述的文本特征,采用特定的融合方法在语义层面理解它们和视觉特征。 此外,APE通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,从而实现一次性检测和分割。

APE 还通过统一前台和背景粒度来改进分割。 在分割任务中,前景和背景的粒度不同,但传统方法往往面临前背景冲突的问题。 为此,APE 提出统一前台和背景的粒度,将不同的背景块视为独立的标签,使模型能够以统一的模式训练前台和后台数据,并轻松整合大规模与类无关的数据。

APE在各种检测、分割和方向性检测数据集上取得了很好的成果。 特别是在 D3 数据集上,APE 明显优于其他方法。 在开放集检测任务中,APE在常见数据集上的表现也明显优于其他方法。 此外,APE在开放集分割任务和视觉定位任务上取得了有竞争力的成绩,并在RoboFlow100和OdinW基准测试中取得了新的SOTA。

APE是一种非常有前途的多模态分割模型,具有广泛的应用前景。 通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,并统一前台和背景粒度,在多个公共数据集上实现了APE强分割结果,并展示了竞争结果。 未来的研究可以进一步探索类人猿在其他视觉任务中的应用,并优化和改进其方法。

相似文章

    超越 GPT 4!谷歌发布最强大的多模态大型模型 Gemini

    月日凌晨,谷歌在其官网上发布了一款全新且功能最强大的多模态大模型 双子座。据悉,Gemini 有 Ultra Pro Nano 三个版本,可以自动生成文本 总结内容等,并理解 音频和 内容。在 MMLU Drop Hellaswag GSMK 等主流评测中,Gemini Ultra 的能力全面超越 ...

    深化AIGC大模型多模态应用,AI Agent加速应用普及

    报告制作人 招商局 跟踪当前AIGC行业的发展,大模型的多模态发展进一步深化,尤其是文盛 能力的快速提升,将大大降低创作门槛,开拓C端创作的商业空间,以及游戏 影视制作等B端应用空间。在应用端,随着大模型能力的提升和大模型开发工具门槛的降低,AI智能体的构建能力有望快速下沉,这将推动AI应用的进一步...

    谷歌双子座是神话般的多模态和被低估的宽容

    图片来自 视觉中国。谷歌最强大的大模型Gemini已经发布,我陆续阅读了技术报告和一些评测分析,周末也记录并分享了 首先,有几点值得标记。Gemini Ultra 的得分为 是第一个在MMLU 大规模多任务语言理解 上超越人类专家的模型,类似于高考。国内外也有类似的基准。例如,C eval CMML...

    谷歌发布了 Gemini,一款性能优于 GPT 4 的多模态大模型!

    近日,谷歌CEO桑达尔?Pichai 和 DeepMind 首席执行官 Damith Hassabis 在谷歌官网上的一篇文章中宣布,谷歌最新的多模态大型模型 gemini版本 正式上线。该模型被称为 Gemini,不仅优于 OpenAIGPT 模型,而且还是最强大 用途最广泛的模型之一。Gemin...

    风口研究报告 AI进入多模态时代 中国人工智能市场潜力巨大

    今日 月日 两市股指早盘弱跌,午后止跌反弹,三大股指一度转红 下午,北向资金转为小幅流入。行业板块涨幅较小,跌幅较大,软件开发 文化传媒 互联网服务 游戏 教育 计算机设备等TMT板块领涨,风电设备 汽车零部件 电力设备 生物制品 能源金属 医疗服务跌幅居前。当地时间月日,谷歌宣布推出其最大 最强大...