要点:网站管理员之家 (chinaz.)。com)12月10日消息:APE 是一个完全开源的多模态分割模型,其独特之处在于它采用独立建模每个类别名称实例的方法。 虽然以前的方法通常将多个类别名称连接到单个提示中,但 APE 可以通过独立建模每个类别名称或描述短语来习学习实例之间的差异。 此外,APE通过将词级嵌入压缩到句子级嵌入中,从而有效地表达语义信息,从而降低计算复杂度和内存消耗。1. APE是一个完全开源的多模态分割模型,通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方式,统一前台和背景粒度,提高分割效果。
2、APE的方法主要包括对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,统一前台和背景粒度。 在多个常见数据集上的实验表明,使用 APE 方法可以获得强大的分割结果。
3. APE方法在各检测、分割和方向性检测数据集上均优于现有方法,在D3数据集上取得了显著提升。 APE方法在开集检测、开集分割、视觉定位等任务中也表现出了竞争力,取得了新的SOTA成果。
*地址: 开源链接:
演示链接:
APE 使用不同的特征融合方式来处理不同类型的提示。 对于具有纯类别名称的文本要素,使用“零”文本标记作为替代方法,以避免过度拟合问题。 对于语言描述的文本特征,采用特定的融合方法在语义层面理解它们和视觉特征。 此外,APE通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,从而实现一次性检测和分割。
APE 还通过统一前台和背景粒度来改进分割。 在分割任务中,前景和背景的粒度不同,但传统方法往往面临前背景冲突的问题。 为此,APE 提出统一前台和背景的粒度,将不同的背景块视为独立的标签,使模型能够以统一的模式训练前台和后台数据,并轻松整合大规模与类无关的数据。
APE在各种检测、分割和方向性检测数据集上取得了很好的成果。 特别是在 D3 数据集上,APE 明显优于其他方法。 在开放集检测任务中,APE在常见数据集上的表现也明显优于其他方法。 此外,APE在开放集分割任务和视觉定位任务上取得了有竞争力的成绩,并在RoboFlow100和OdinW基准测试中取得了新的SOTA。
APE是一种非常有前途的多模态分割模型,具有广泛的应用前景。 通过对每个类别名称实例进行独立建模,将词级嵌入压缩为句子级嵌入,采用不同的特征融合方法,通过矩阵乘法计算对象嵌入和提示嵌入之间的相似度,并统一前台和背景粒度,在多个公共数据集上实现了APE强分割结果,并展示了竞争结果。 未来的研究可以进一步探索类人猿在其他视觉任务中的应用,并优化和改进其方法。