Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models 这篇论文提出了一种名为Interpret then Deactivate (ItD) 的框架,旨在文本到图像(T2I)扩散模型中实现精准、可扩展的概念擦除(即移除不想要的概念,如有害内容、特定名人等),同时不影响正常概念的生成。以下从思路、方法原理、数学公式推导三方面详细总结:

一、核心思路

现有概念擦除方法存在两大局限:1)微调模型参数会导致正常概念生成质量下降;2)集成定制模块泛化能力弱且需额外训练。为此,ItD框架通过“解释-停用”两步解决问题:

  1. 解释(Interpret):用稀疏自编码器(SAE)将概念分解为稀疏特征的线性组合,明确概念的特征构成;
  2. 停用(Deactivate):仅停用目标概念特有的特征(排除与正常概念共享的特征),实现精准擦除,同时保留正常概念的生成能力。

此外,SAE被复用为零样本分类器,可判断输入是否包含目标概念,仅在必要时应用擦除,进一步减少对正常概念的影响。

二、方法原理

1. 稀疏自编码器(SAE)的训练

SAE的作用是将文本编码器的语义信息(残差流输出)分解为稀疏特征的组合,为概念“解释”提供基础。

  • 训练对象:文本编码器中transformer块的残差流输出(即token嵌入 \(e_l^h\)),其中 \(l\)为层索引,\(h\)为token索引)。
  • 模型选择:采用K-稀疏自编码器(KSAE),强制每次重构仅保留K个最大激活特征,确保稀疏性。
  • 核心目标:使SAE能将输入的token嵌入 \(e\)重构为稀疏特征的线性组合,即 \(e \approx \sum_{\rho=1}^{d_{hid}} z^\rho f_\rho\)(\(z^\rho\)为特征激活值,\(f_\rho\)为解码器矩阵的列向量,即特征向量)。

2. 特征选择:定位目标概念的“特有特征”

为避免擦除正常概念的特征,需筛选出目标概念特有的特征:

  • 步骤1:收集目标概念的相关特征

    对目标概念的每个token,通过SAE获取特征激活值,取每个特征在所有token中的最大激活值,筛选出前 \(K_{sel}\)个高激活特征,构成目标特征集 \(F_{tar}\)。
  • 步骤2:排除与正常概念共享的特征

    用正常概念集(retain set)的特征集 \(F_{retain}\)与 \(F_{tar}\)对比,移除两者共有的特征,得到目标概念特有特征集 \(\hat{F}_{tar} = F_{tar} \setminus \bigcup F_{retain}\)。
  • 多概念擦除:对多个目标概念,取其特有特征集的并集 \(F_{erase} = \bigcup \hat{F}_{tar}\)。

3. 概念擦除机制

通过调整目标特征的激活值,移除文本嵌入中目标概念的语义信息:

  • 编码与调整:文本嵌入经SAE编码为特征激活 \(s\)后,将 \(F_{erase}\)中的特征激活值缩放(如乘以小系数 \(\tau\)),削弱其影响;
  • 解码重构:调整后的激活经SAE解码器重构为新的文本嵌入,该嵌入不再包含目标概念的信息,从而阻止扩散模型生成相关图像。

4. 零样本分类器:选择性擦除

利用SAE的重构损失判断输入是否包含目标概念,仅在包含时应用擦除,减少对正常概念的干扰:

  • 若输入文本嵌入 \(e\)包含目标概念,其经SAE重构后的误差 \(\|e - \hat{e}\|\)较小(因目标特征被调整);
  • 若为正常概念,重构误差较大。通过阈值 \(\tau\)区分:\(G(e) = 1\)(含目标概念,应用擦除)若 \(\|e - \hat{e}\|^2 < \tau\),否则为0(不擦除)。

三、数学公式原理推导

1. SAE的编码器与解码器

  • 编码器:将输入token嵌入 \(e\)转换为稀疏特征激活 \(z\)

    \[z = \text{TopK}(W_{enc}(e - b_{pre}))
    \]

    其中,\(W_{enc} \in \mathbb{R}^{d_{hid} \times d_{in}}\)为编码器权重,\(b_{pre}\)为偏置,\(\text{TopK}\)保留前K个最大激活值(其余置0),确保稀疏性。

  • 解码器:将特征激活 \(z\)重构为嵌入 \(\hat{e}\)

    \[\hat{e} = W_{dec} z + b_{pre}
    \]

    其中,\(W_{dec} \in \mathbb{R}^{d_{in} \times d_{hid}}\)为解码器权重,每列 \(f_\rho\)为特征向量。

2. SAE的训练损失函数

目标是最小化重构误差并保证特征稀疏性,损失函数为:

\[\mathcal{L}(e) = \|e - \hat{e}\|_2^2 + \alpha \mathcal{L}_{aux}
\]
  • 第一项 \(\|e - \hat{e}\|_2^2\):L2重构损失,确保输入与输出接近;
  • 第二项 \(\alpha \mathcal{L}_{aux}\):辅助损失,防止“死特征”(即极少激活的特征)。\(\mathcal{L}_{aux}\)定义为使用前 \(K_{aux}\)(\(K_{aux} > K\))个特征的重构误差,\(\alpha\)为权重系数。

3. 特征选择公式

  • 目标概念特征集 \(F_{tar}\):

    \[F_{tar} = \{\rho \mid s_C^\rho \in \text{TopK}(s_C^1, ..., s_C^{d_{hid}})\}
    \]

    其中 \(s_C^\rho = \max(s_1^\rho, ..., s_H^\rho)\),\(s_h^\rho\)为第h个token的第\(\rho\)个特征激活值,\(H\)为目标概念的token数。

  • 特有特征集 \(\hat{F}_{tar}\):

    \[\hat{F}_{tar} = F_{tar} \setminus \bigcup_{C_r \in C_{retain}} F_{C_r}
    \]

    其中 \(C_{retain}\)为正常概念集,\(F_{C_r}\)为正常概念的特征集。

    当需要擦除多个目标概念时,总擦除特征集为各目标特有特征集的并集:

\[F_{erase} = \bigcup_{C \in \mathcal{C}_{tar}} \hat{F}_C
\]

其中\(\mathcal{C}_{tar}\)为所有目标概念的集合,该式确保一次擦除多个概念且无需额外训练。

4. 概念擦除的激活调整

对特征激活 \(s\)进行调整,削弱目标特征的影响:

\[\hat{s}^\rho = \begin{cases}
s^\rho \cdot \tau & \text{if } \rho \in F_{erase} \\
s^\rho & \text{otherwise}
\end{cases}
\]

其中 \(\tau\)为缩放系数(如 \(\tau < 1\),削弱激活),调整后通过解码器重构为 \(\hat{e} = W_{dec} \hat{s} + b_{pre}\)。

5. 零样本分类器的判断公式

基于重构损失判断是否包含目标概念:

\[G(e) = \begin{cases}
1 & \text{if } \|e - \hat{e}\|^2 < \tau \\
0 & \text{otherwise}
\end{cases}
\]

其中 \(\tau\)为阈值,\(G(e)=1\)时应用擦除,否则直接输出原嵌入。

四、总结

ItD框架通过SAE将概念分解为稀疏特征,结合对比特征选择和选择性擦除,实现了精准、可扩展的概念擦除。数学公式确保了SAE的稀疏性、特征的特异性及擦除的针对性,解决了现有方法对正常概念生成的干扰问题,同时通过零样本分类器进一步提升了鲁棒性。

文声图防御框架原理笔记:Interpret then Deactivate(ItD)的更多相关文章

  1. 让自己写的电子笔记连文带图全平台兼容(MarkDown图片显示兼容)

    目录 一.工具使用 语言使用:MarkDown 简介 使用原因 使用方法 软件使用:Typora 简介 环境设置搭建 1)搭建图床 2)配置PicGo 3)配置typora 4)测试 图片上传测试 平 ...

  2. Java安全防御学习笔记V1.0

    Java安全防御学习笔记V1.0http://www.docin.com/p-766808938.html

  3. 对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通过文氏图 Venn diagrams 解释了SQL的Join。我觉得清楚易懂,转过来。

     对于SQL的Join,在学习起来可能是比较乱的.我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚.Codi ...

  4. 还需要注册的是我们还有一个是“交差集” cross join, 这种Join没有办法用文式图表示,因为其就是把表A和表B的数据进行一个N*M的组合,即笛卡尔积。表达式如下:

             还需要注册的是我们还有一个是"交差集" cross join, 这种Join没有办法用文式图表示,因为其就是把表A和表B的数据进行一个N*M的组合,即笛卡尔积.表 ...

  5. Typora + picgo + sm.ms 图床设置笔记

    Typora + picgo + sm.ms 图床设置笔记 编辑于2020-03-26 本文部分内容在作者教程的基础上进行了二次编辑,如有重复,纯属必然 在此感谢大佬们的无私付出与分享 之前 用了 g ...

  6. 有道云笔记配合MPic+七牛云 自制MarkDown文档图床(适用Typora)

    注:从有道云笔记v6.5开始,有道云笔记会员可以使用MarkDown有道自带的图床.(但是非会员可以采用下面的七牛云图床+MarkDown方法) 0x00 前言 一直用有道云笔记,粘贴图片,做笔记没问 ...

  7. MFC文档视图结构学习笔记

    文档/视图概述 为了统一和简化数据处理方法,Microsoft公司在MFC中提出了文档/视图结构的概念,其产品Word就是典型的文档/视图结构应用程序 MFC通过其文档类和视图类提供了大量有关数据处理 ...

  8. 《C#并行编程高级教程》第6章 PLINQ:声明式数据并行 笔记

    PLINQ这个话题好多书都写到过,这本也没有什么特别好的地方. 几个有用和有趣的点记录一下.   顺序的不确定性 用PLINQ就一定要记住并行后会导致顺序不确定的问题.解决方案就是AsOrdered或 ...

  9. 文加图, 理解Http请求与响应

    1. http请求和响应步骤 在讲解OkHttp之前, 我们首先来个高清大图, 看下http请求的整个步骤, 有个整体概念.  2. http每一步详细内容 在一次完整的HTTP通信过程中, Web浏 ...

  10. java 图形化界面笔记(1)

    目录 JFrame窗体......................................................................................... ...

随机推荐

  1. 8086汇编(16位汇编)学习笔记05.asm基础语法和串操作

    https://bpsend.net/thread-121-1-2.html asm基础语法 1. 环境配置 xp环境配置 1.拷贝masm615到指定目录 2.将masm615目录添加进环境变量 3 ...

  2. Spring 注解之 @EnableTransactionManagement:Spring Boot 事务配置

    Spring Boot 开启声明式事务支持 所有的数据访问技术都有事务处理机制,这些技术提供了API用来开启事务.提交事务以完成数据操纵,或者在发生错误的时候回滚数据.Spring支持声明式事务,这是 ...

  3. Spring Boot 集成Mybatis和Druid快速入门

    MyBatis 是一个可以自定义SQL.存储过程和高级映射的持久层框架,它摒除了大部分的JDBC代码.手工设置参数和结果集重获,只使用简单的XML 和注解来配置和映射基本数据类型.Map 接口和POJ ...

  4. 如何给Git设置ssh代理

    由于不可描述的原因,在某些情况下Github不可用(git push和git pull都显示远程服务器不可用或无权限),于是就想到上代理. 首先网上搜索一通,发现如下方法: git config -- ...

  5. 【2020.11.20提高组模拟】祖先(ancestor) 题解

    [2020.11.20提高组模拟]祖先(ancestor) 题解 题目描述 对于每个\(i\),它都要往前面拜访它的祖先.对于\(i\)之前的编号为\(j\)的节点,如果要拜访的话需要满足对于\(\f ...

  6. QRSuperResolutionNet:一种结构感知与识别增强的二维码图像超分辨率网络(附代码解析)

    QRSuperResolutionNet:一种结构感知与识别增强的二维码图像超分辨率网络(附代码解析) 趁着 web开发课程 期末考试前夕,写一篇博客.{{{(>_<)}}} 将我最近所做 ...

  7. k8s service访问偶发超时问题

    问题现象 在某个集群节点上的服务访问service服务:端口,会出现偶发timeout的问题,集群有的节点不会出现访问timeout的问题 问题处理 查看bridge-nf-call-iptables ...

  8. MySQL 字符集、排序规则与查询关系详解

    MySQL 查询是否区分大小写及重音敏感,取决于创建时指定的字符集(character set)和排序规则(collation). (1)字符集(Character Set):规定可存储的字符,如 u ...

  9. 简单的sqlHelper类

    public class SQLHelper     {        //连接数据库        static string connStr = ConfigurationManager.Conn ...

  10. Dora-rs:下一代机器人开发框架

    在 AI 与机器人技术深度融合的今天,传统机器人框架的性能瓶颈和开发效率问题日益凸显.dora-rs(Dataflow Oriented Robotics Architecture) 应运而生,成为一 ...