论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications
NDSS
https://arxiv.org/abs/1812.05271
摘要中的创新点确实是对抗攻击中值得考虑的点:
1. effective
2. evasive recognized by human readers
3. efficient
在IMDB数据集上取得100%的成功率。
最后有讨论可能的防御机制,可以重点看下能不能做这相关的工作。
TEXTBUGGER:
白盒:通过雅可比矩阵找到最重要的单词。
https://jingyan.baidu.com/article/cb5d6105c661bc005c2fe024.html (梯度vs Jacobian矩阵vs Hessian矩阵)
(和梯度的方法差不多)
2-5步:计算重要性,对单词排序。
6-14步:生成bugs:考虑视觉和语义的相似性;考虑character-level & word-level
character-level:看起来就像是简单的拼写错误。目的:把未知词汇映射到未知embedding
word-level:最近邻搜索。
作者发现在一些词嵌入模型中(如word2vec),“worst”和“better”等语义相反的词在文本中具有高度的句法相似性,因此“better”被认为是“worst”的最近邻。
以上显然是不合理的,很容易被人察觉。
因此,作者使用了语义保留技术,即,将该单词替换为上下文感知的单词向量空间中的topk近邻。使用斯坦福提供的预先训练好的GloVe模型[30]进行单词嵌入,并设置topk = 5。可以保证邻居在语义上与原来的邻居相似。
根据以往的研究,文本的意义很可能是由读者保留或推断后,几个字符的变化[31]。同时,在语义和句法上相似的词语代替词语,可以保证样本的相似性[1]。
TEXTBUGGER的五种错误生成方法:(1)插入:插入一个空格到单词中。(2)删除:删除除第一个字符和最后一个字符外的任意字符。(3)交换:在单词中随机交换两个相邻的字母,但不改变第一个或最后一个字母。(4) Substitute-C (Sub-C):用视觉上相似的字符(例如,用“0”代替“o”,用“1”代替“1”,用“@”代替“a”)或键盘上相邻的字符(例如,用“n”代替“m”)代替字符。(5)Sub-W:在上下文感知的词向量空间中,用它的最近邻替换一个词。
例子:
基于视觉的替换的防御是不是可以考虑文本的visual embedding
如算法2所示,在生成5个bug后,根据置信度的变化选择bug(选变化最大的)。用最优的bug来替换这个单词,得到一个新的文本e’(第8行)。我们重复上述步骤来替换下一个单词,直到找到解决方案(攻击成功),或者未能找到一个保留语义的对抗样本。
黑盒:先找最重要的句子,然后通过打分函数找到最重要的单词。
三个步骤:(1)找到重要的句子。(2)根据分类结果,使用评分函数来确定每个单词的重要性,并根据得分对单词进行排序。(3)使用bug选择算法改变选择的单词。算法3给出了黑箱对抗文本生成算法。
2-6:找重要的句子。找到对最终预测结果贡献最大的重要句子,对其进行优先操作。
使用spaCy库将每个文档分割成句子,然后过滤出具有不同预测标签的句子。即过滤掉Fl(si)不等于y的。然后根据重要性评分排序。句子si的重要性得分用预测的类Fy的置信度值表示。(选出最可能得到分类y的句子)
8-11:找重要的词。首先要找到对原始预测结果贡献最大的最重要的词,然后通过控制语义相似度对其稍作修改。
评分函数:(删除该词后置信度的变化,变化越高越重要)
12-20:生成bugs。和白盒方法类似。
论文阅读 | TextBugger: Generating Adversarial Text Against Real-world Applications的更多相关文章
- 论文阅读 | HotFlip: White-Box Adversarial Examples for Text Classification
[code] [pdf] 白盒 beam search 基于梯度 字符级
- 【论文阅读】Deep Adversarial Subspace Clustering
导读: 本文为CVPR2018论文<Deep Adversarial Subspace Clustering>的阅读总结.目的是做聚类,方法是DASC=DSC(Deep Subspace ...
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
- 论文阅读:《Bag of Tricks for Efficient Text Classification》
论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954 ...
- [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...
- [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...
- 论文笔记之:Generative Adversarial Text to Image Synthesis
Generative Adversarial Text to Image Synthesis ICML 2016 摘要:本文将文本和图像练习起来,根据文本生成图像,结合 CNN 和 GAN 来有效的 ...
- Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
- YOLO 论文阅读
YOLO(You Only Look Once)是一个流行的目标检测方法,和Faster RCNN等state of the art方法比起来,主打检测速度快.截止到目前为止(2017年2月初),YO ...
随机推荐
- NodeList类数组对象: HTMLCollection , NamedNodeMap,两套API(childNodes , children)
快捷键:leishuzuduixiang(类数组对象) bianlijiedian(遍历节点) jiedian(节点) htmlcollection , namednodemap , nodel ...
- noi 第n小的质数
总时间限制: 1000ms 内存限制: 65536kB 描述 输入一个正整数n,求第n小的质数. 输入 一个不超过10000的正整数n. 输出 第n小的质数. 样例输入 10 样例输出 29 一定 ...
- Eclipse一直building workspace问题解决
今天新导入了一个maven项目,但是总是一直building workspace 解决方案: 去掉图中Maven Project Builder勾选
- javascript数据结构之顺序表
关于线性表的概念这里就不赘述了,可以自行百度和查阅资料,线性表按照存储(物理)结构分为顺序存储和链式存储,每种存储方式的不同决定了它的实现代码是不同的: 顺序存储的特点就是在内存中选一块连续的地址空间 ...
- Vue_(Router路由)-vue-router路由的基本用法
vue-router官网:传送门 vue-router起步:传送门 vue-router路由:Vue.js官网推出的路由管理器,方便的构建单页应用 单页应用:Single Page Applicati ...
- Codeforces Round #371 (Div. 2)
之前做过E题,是一个DP. A题,水题,两线段求交集. B题,set一下判断即可. C题,水题.但是我写麻烦了,直接转化成二进制再做,比用字符串relize()以后再map要好写得多. D题,交互题, ...
- HDU 5974 A Simple Math Problem ——(数论,大连区域赛)
给大一的排位赛中数论的一题.好吧不会做...提供一个题解吧:http://blog.csdn.net/aozil_yang/article/details/53538854. 又学了一个新的公式..如 ...
- [CTS2019]珍珠——二项式反演
[CTS2019]珍珠 考虑实际上,统计多少种染色方案,使得出现次数为奇数的颜色数<=n-2*m 其实看起来很像生成函数了 n很大?感觉生成函数会比较整齐,考虑生成函数能否把n放到数值的位置,而 ...
- openfalcon架构及相关服务配置详解(转)
一:openfalcon组件 1.falcon-agent 数据采集组件 agent内置了一个http接口,会自动采集预先定义的各种采集项,每隔60秒,push到transfer. 2.transfe ...
- golang——写文件和读文件
之前聊过,操作文件——读写文件,直接调用接口即可. 如果是一直写入操作,写入操作一直进行的,免不了会有,有时一大批数据过来,有时没有一条数据. 鉴于此场景,选择用select....channel 的 ...