来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: A Simple Image Segmentation Framework via In-Context Examples

创新点


  • 探索了通用的分割模型,发现现有方法在上下文分割中面临任务模糊性的问题,因为并非所有的上下文示例都能准确传达任务信息。
  • 提出了一个利用上下文示例的简单图像分割框架SINESegmentation framework via IN-context Examples),利用了一个Transformer编码-解码结构,其中编码器提供高质量的图像表示,解码器则被设计为生成多个任务特定的输出掩码,以有效消除任务模糊性。
  • SINE引入了一个上下文交互模块,以补充上下文信息,并在目标图像与上下文示例之间产生关联,以及一个匹配Transformer,使用固定匹配和匈牙利算法消除不同任务之间的差异。
  • 完善了当前的上下文图像分割评估系统,实验结果表明,SINE可以处理广泛的分割任务,包括少量样本的语义分割、少量样本的实例分割和视频目标分割。

内容概述


图像分割涉及在像素级别上定位和组织概念,比如语义分割、实例分割、全景分割、前景分割和交互分割。然而,现有的大多数分割方法都是针对特定任务量身定做的,无法应用于其他任务。

最近一些工作探索了通用分割模型,通过上下文学习解决多样且无限的分割任务。上下文分割模型需要理解上下文示例传达的任务和内容信息,并在目标图像上分割相关概念,但并不是所有的上下文示例都能准确传达任务信息。例如当提供一个特定个体的照片,是仅限于个体本身、涵盖所有人的实例分割,还是集中于语义分割?模糊的上下文示例可能使传统的上下文分割模型难以清晰地定义不同任务之间的边界,从而导致不期望的输出。

为了解决这个问题,论文提出了基于上下文示例的简单图像分割框架SINESegmentation framework via IN-context Examples)。受到SAM模型的启发,SINE预测针对不同复杂度任务定制的多个输出掩码。这些任务包括相同物体、实例到整体语义概念。SINE统一了现有的各种粒度的分割任务,旨在实现更广泛的任务泛化。

SegGPT相比,SINE能够在可训练参数更少的情况下有效地解决上下文分割中的任务模糊性问题,而SegGPT仅输出语义分割结果。此外,论文进一步将少样本实例分割引入当前的评估系统,以便全面评估这些模型。

SINE


SINE是一个基于查询的分割模型,遵循DETRMask2Former的设计。使用相同对象(ID)查询 \(\textbf{q}_{id}\) 来识别和定位目标图像中与参考图像中具有相同对应关系的对象,使用可学习的实例查询 \(\textbf{q}_{ins} \in \mathbb{R}^{S \times C}\) 来识别和定位目标图像中与参考图像具有相同语义标签的对象。

SINE基于经典的Transformer结构,引入了一些针对上下文分割任务的有效设计,包括一个冻结的预训练图像编码器、一个上下文交互模块和一个轻量级匹配Transformer (M-Former) 解码器。

上下文交互

上下文交互的目的是补充上下文信息,并在参考图像特征和目标图像特征之间产生关联。

  • 掩码池化

为每个掩码分配不同的ID标签,将参考掩码 \(\textbf{m}_r\) 转换为ID掩码 \(\textbf{m}_{id} \in \mathbb{R}^{N \times H \times W}\) ,通过将具有相同类别标签的掩码合并来得到语义掩码 \(\textbf{m}_{sem} \in \mathbb{R}^{M \times H \times W}\) ,其中 \(N\) 和 \(M\) 分别是ID掩码和语义掩码的数量。

然后,使用这些掩码对参考特征 \(\textbf{F}_r\) 进行池化,获得提ID标记 \(\textbf{t}_{id} \in \mathbb{R}^{N \times C}\) 和语义标记 \(\textbf{t}_{sem} \in \mathbb{R}^{M \times C}\) 。

  • 上下文融合模块

上下文融合模块该模块是一个Transformer块,包括自注意力机制、交叉注意力机制和前馈网络,实现参考特征和目标特征之间的上下文关联:

\[\begin{equation}
\begin{split}
\left<\textbf{q}_{id}, \textbf{p}_{sem}, \textbf{F}_t^{'}\right> = InContextFusion\left(\textbf{t}_{id}, \textbf{t}_{sem}, \textbf{F}_{t} ;\theta \right),
\end{split}
\end{equation}
\]

这些标记 ( \(\textbf{t}_{id}\) 和 \(\textbf{t}_{sem}\) ) 和目标特征 ( \(\textbf{F}_{t}\) ) 通过这个共享模块进行融合,在交叉注意力中它们彼此作为键和值,从而可以获得增强后的目标特征 \(\textbf{F}_t^{'}\) 、ID查询 \(\textbf{q}_{id}\) 和语义原型 \(\textbf{p}_{sem}\) 。

匹配Transformer

为了有效地进行上下文分割并消除任务模糊性,M-Former实现了一个双路径的Transformer解码器,共享自注意力层。一路径用于与查询( \(\textbf{q}_{id}\) 和 \(\textbf{q}_{ins}\) )交互,提取与目标图像中的上下文示例相关的特征。第二路径用于增强语义原型 \(\textbf{p}_{sem}\) 以实现更准确的匹配。这两条路径共享自注意力层,以便将语义从 \(\textbf{p}_{sem}\) 分配给 \(\textbf{q}_{ins}\) 。

M-Former共有 N 个块,整体的过程如下:

\[\begin{equation}
\begin{split}
\left<\textbf{q}_{id}^l, \textbf{q}_{ins}^l, \textbf{p}_{sem}^l\right> = MFormer_l\left(\textbf{q}_{id}^{l-1}, \textbf{q}_{ins}^{l-1}, \textbf{p}_{sem}^{l-1} ; \theta^l, \textbf{F}_t^{'} \right),
\end{split}
\end{equation}
\]

对于实例分割,使用更新后的语义原型 \(\textbf{p}_{sem}\) 作为分类器,并让 \(\hat{\textbf{y}}_{ins}=\{\hat{y}_{ins}^i\}_{i=1}^S\) 表示 \(S\) 个实例预测的集合。使用匈牙利损失来学习SINE,通过计算预测 \(\hat{y}_{ins}^i\) 和GT \(y^j\) 之间的分配成本以解决匹配问题,即 \(-p_i(c^j)+\mathcal{L}_\text{mask}(\hat{m}_{ins}^i,m^j)\) ,其中 \((c^j, m^j)\) 是GT对象的类别和掩码, \(c^j\) 可能为 \(\varnothing\) 。 \(p_i(c^j)\) 是第 \(i\) 个实例查询对应类别 \(c^j\) 的概率, \(\hat{m}_{ins}^i\) 表示其预测的掩码。 \(\mathcal{L}_\text{mask}\) 是一种二元掩码损失和Dice损失:

\[\begin{equation}
\begin{split}
\mathcal{L}_{\text{Hungarian}}(\hat{\textbf{y}}_{ins}, \textbf{y}) = \sum\nolimits_{j=1}^S \left[-\log p_{\sigma(j)}(c^j)
+ \mathbb{1}_{c^j\neq\varnothing} \mathcal{L}_{\text{mask}}(\hat{m}^{\sigma(j)}_{ins},m^j) \right],
\end{split}
\end{equation}
\]

其中 \(\sigma(j)\) 表示二分匹配的结果索引。

为了赋予SINE预测同一对象的能力,使用图像中同一实例的不同裁剪视图作为参考-目标图像对。设 \(\hat{\textbf{y}}_{id}=\{\hat{y}_{id}^i\}_{i=1}^N\) 表示 \(N\) 个ID预测的集合。

由于参考ID和目标ID之间的关系是固定的且可以准确确定,可以在预测和GT之间执行固定匹配,损失可以写为:

\[\begin{equation}
\begin{split}
\mathcal{L}_{\text{ID}}(\hat{\textbf{y}}_{id}, \textbf{y}) = \sum\nolimits_{i=1}^N \left[-\log p_i(c^i)
+ \mathbb{1}_{c^i\neq\varnothing} \mathcal{L}_{\text{mask}}(\hat{m}^i_{id},m^i) \right],
\end{split}
\end{equation}
\]

其中 \((c^i, m^i)\) 是GT的类别和掩码, \(c^i \in \{1, \varnothing\}\) , \(c^i=1\) 表示一个对象同时出现在参考图像和目标图像中。总损失为 \(\mathcal{L}=\mathcal{L}_{\text{Hungarian}}+\mathcal{L}_{\text{ID}}\) 。

一旦训练完成,SINE的全部能力在推理过程中得以释放,能够解决上下文示例中的模糊性并为不同的分割任务输出预测。

主要实验






如果本文对你有帮助,麻烦点个赞或在看呗~

更多内容请关注 微信公众号【晓飞的算法工程笔记】

SINE:上下文示例驱动,打造真正的通用分割模型 | NeurIPS'24的更多相关文章

  1. StarSpace是用于高效学习实体向量的通用神经模型

    StarSpace是用于高效学习实体向量的通用神经模型,用于解决各种各样的问题: 学习单词,句子或文档级嵌入. 文本分类或任何其他标签任务. 信息检索:实体/文件或对象集合的排序,例如 排名网络文件. ...

  2. PGTM通用性能测试模型

    PTGM通用性能测试模型 一.      测试前期准备阶段 目标: 1. 保证系统稳定性: 2. 建立合适的测试团队. 活动: 1.    系统基础功能验证 类似于BVT测试,确保被测系统已具备进行性 ...

  3. 基于reflectasm打造自己的通用bean工具

    业务场景: 在很多的业务系统中,erp,crm系统中,有许多的对象信息都是拆开来的,例如一个商品,那可能他的商品名称,商品等主要信息放在一个表(衍生出来一个对象),他的附属信息(商品图片,规格,价格等 ...

  4. JZ2440 裸机驱动 第11章 通用异步收发器UART

    本章目标: 了解UART原理: 掌握S3C2410/S3C2440中UART的使用 11.1 UART原理及UART内部使用方法 11.1.1 UART原理说明     UART用于传输串行数据:   ...

  5. s3c2440液晶屏驱动 (内核自带) linux-4.1.24

    自带有一部分驱动的配置信息,只要修改这部分就能支援 不同的液晶屏 - /arch/arm/mach-s3c24xx/mach-smdk2440.c 另一部分在 /drivers/video/fbdev ...

  6. DDD领域驱动设计实践篇之如何提取模型

    需求说明: 省级用户可以登记国家指标 省级用户和市级用户可以登记指标分解 登记国家指标时,需要录入以下数据:指标批次.文号.面积,这里省略其他数据,下同 登记指标分解时,需要录入以下数据:指标批次.文 ...

  7. stable diffusion打造自己专属的LORA模型

    通过Lora小模型可以控制很多特定场景的内容生成. 但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹-_-). 甚至可以训练一个专属家庭版的模型(family mode ...

  8. 学习笔记TF059:自然语言处理、智能聊天机器人

    自然语言处理,语音处理.文本处理.语音识别(speech recognition),让计算机能够"听懂"人类语音,语音的文字信息"提取". 日本富国生命保险公司 ...

  9. IDDD 实现领域驱动设计-理解限界上下文

    上一篇:<IDDD 实现领域驱动设计-理解领域和子域> <实现领域驱动设计>前两章内容,基本上读完了,和<领域驱动设计>不同的是,它把很多的概念都放在前面进行讲述了 ...

  10. Linux驱动学习 —— 在/sys下面创建目录示例

    有时我们需要在/sys下面创建一些目录, 下面给出了一个示例. 在加载驱动模块后, 在/sys下面会创建一个名为sysfs_demo的目录,并在其中在创建几个文件和目录. [root@tiny4412 ...

随机推荐

  1. 快速搭建k8s

    换桥接模式,换sealos 桥接模式 部署出问题了,用这个: ipconfig 以太网适配器 以太网: 连接特定的 DNS 后缀 . . . . . . . : 本地链接 IPv6 地址. . . . ...

  2. Nginx 反向代理 (泛域名->泛域名,https,静态文件)

    Nginx 反向代理配置指南 (泛域名 -> 泛域名, HTTPS, 静态文件) 完整版 server { # 监听80端口 listen 80; listen 443 ssl http2;; ...

  3. 【2024】所有人都能看懂的 Win 11 安装/重装教程,跟着我一遍包成功

    无论你因为系统坏掉想重装一下 Windows,或者只是想升级一下 Windows 都可以.虽然标题写的是 Win 11,不过实际上对于任何 Windows 系统都适用,不过现在 Win 11 已经相当 ...

  4. MVC PHP架构 博客论坛实现全过程

    目录 1. MVC的历史 1.1 优点与缺点 1.1.1 优点 1.1.2 缺点 2. 个人博客论坛的MVC实现 2.1 前言 2.2 web代码结构 框架 2.2.1 web应用发展 2.2.2 C ...

  5. 01_GoLand debug时出现Connected并且程序卡住的问题

    01_GoLand debug时出现Connected并且程序卡住的问题 环境:win10.go version go1.19.4 windows/amd64.GoLand 2020.3.5 x64 ...

  6. 工作中的技术总结_JAVA_AA-00001 关于Session的使用 _20210825

    AA-00001 关于Session的使用 _20210825 Session Java 中的Session:javax.servlet.http.HttpSession; 应用: 在我自己的项目中 ...

  7. Nuxt.js 应用中的 imports:sources 事件钩子详解

    title: Nuxt.js 应用中的 imports:sources 事件钩子详解 date: 2024/10/27 updated: 2024/10/27 author: cmdragon exc ...

  8. Java学习十六—掌握注解:让编程更简单

    一.关于注解 1.1 简介 Java 注解(Annotation)是一种特殊的语法结构,可以在代码中嵌入元数据.它们不直接影响代码的运行,但可以通过工具和框架提供额外的信息,帮助在编译.部署或运行时进 ...

  9. Docker-compose 常用命令和模板

    docker-compose logs -f ##查看该容器的启动的日志打印(日志从头打印 docker logs -f container_id ##查看某一容器的启动的日志打印(日志从头打印) d ...

  10. 国密SSL证书,为政务数据安全保驾护航

    随着数字化转型的加速,政务信息化建设已成为提升政府服务效率和质量的关键.近期,国家相关部门发布了<互联网政务应用安全管理规定>,为政务应用的安全管理提供了明确的规范和要求.该规定自2024 ...