Leino K., Wang Z. and Fredrikson M. Globally-robust neural networks. In International Conference on Machine Learning (ICML), 2021.

本文是一种可验证的鲁棒方法, 并且提出了一种globally-robust的概念, 但是实际看下来并不觉得有特别出彩的地方.

主要内容

对于网络\(f : \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}\), 其中\(m\)表示共有m个不同的类别. 则prediction可以表示为

\[F(x) = \mathop{\arg \max} \limits_{i} f_i(x).
\]

普通的local robustness采用如下方式定义:

\(F\)被称为在点\(x\)满足\(\epsilon\)-locally-robust, 当对于任意的样本\(x'\)满足

\[\|x'-x\| \Rightarrow F(x) = F(x').
\]

这种定义方式并不恰当, 因为倘若这个性质对于所有的点都成立, 那么所有的样本都会被判定为同一个类别, 从而得到的是一个退化的\(F\).

作者给出的globally-robust的定义是可以对于所有\(x\)有效的.

首先假设一个新的类别\(\perp\), 以及关系

\[c_1 \mathop{=}\limits^{\perp} c_2,
\]

当且仅当

\[c_1 = c_2 | c_1=\perp | c_2 = \perp .
\]

则globally-robust是这么定义的:

\(F\)是\(\epsilon\)-globally-robust的, 如果对于任意的\(x_1, x_2\), 有下列推论成立

\[\|x_1 - x_2\| \le \epsilon \Rightarrow F(x_1) \mathop{=}\limits^{\perp} F(x_2).
\]

换言之, \(F\)关于所有点的预测, 要么其是locally-robust, 要么是属于\(\perp\)的, 故可以将\(\perp\)理解为所有不满足locally-robust的点.

接下来作者给出了这样模型的构造方法:

假设

\[\frac{|f_i(x_1) - f_i(x_2)|}{\|x_1 - x_2\|} \le K_i, i=1,2,\cdots, m,
\]

即\(f_i\)的全局Lipschitz常数为\(K_i\).

\[y_i = f_i(x), j=F(x),
\]

定义

\[y_{\perp} = \max_{i\not= j} \{y_i + (K_i + K_j) \epsilon \}.
\]

背后的直觉是, 根据Lipschitz常数的性质, 有

\[y_i -K_i \epsilon \le f_i (x') \le y_i + K_i \epsilon, \\
y_j -K_j \epsilon \le f_j (x') \le y_j + K_j \epsilon,
\]

所以

\[f_i(x') - f_j(x') \le y_i + (K_i + K_j) \epsilon -y_j = y_{\perp} - y_j.
\]

所以\(y_{\perp}\)反映了最坏的情况, 如果\(y_{\perp} > y_j\), 便有可能存在\(x', \|x'-x\| \le \epsilon\), 但是\(F(x') \not= F(x)\).

当然了, 这个是一个非常宽泛的情况.

进一步定义:

\[\bar{f}_i^{\epsilon} (x) = f_i(x), i =1,2,\cdots, m, \\
\bar{f}_{\perp}^{\epsilon}(x) = y_{\perp},
\]

所以最后的模型是:

\[\bar{F}^{\epsilon}(x) = \mathop{\arg \max} \limits_{i, \perp} \bar{f}_{*}^{\epsilon}(x).
\]

并由如下的性质:

定理1: 如果\(\bar{F}^{\epsilon}(x) \not = \perp\), 则 \(\bar{F}^{\epsilon}(x) = F(x)\), 且\(\bar{F}^{\epsilon}\)在\(x\)处是\(\epsilon\)-locally-robust的.

这是显然的, 因为这说明在\(\epsilon\)的ball内, 找出比上面情况更坏的点.

定理2: \(\bar{F}^{\epsilon / 2}(x)\)是\(\epsilon\)-globally-robust的.

只需证明不可能存在\(x_1, x_2, \|x_1 - x_2\| \le \epsilon\), \(\bar{F}^{\epsilon/2}(x_1)=c_1\not= c_2 =\bar{F}^{\epsilon/2}(x_1)\),

根据上面的定理可知:

\[F(x_1) = c_1 \not = c_2 = F(x_2).
\]

任取

\[x_3 \in B(x_1, \epsilon /2) \cap B(x_2, \epsilon /2),
\]

注: 这里\(B\)是闭球.

则根据定理1有\(F(x_1) = F(x_3) = F(x_2)\), 矛盾.

所以, 我们这么构造的模型就符合作者的定义了, 但是还存在下面的问题:

  1. 全局Lipschitz常数的估计问题: 作者采用简单粗暴的逐层计算并相乘, 放得很宽;
  2. 如果Lipschitz常数过大, 这个模型并不会有效, 显然所有的样本都会被判断为\(\perp\), 作者最后采用的损失函数是TRADES的一个变种:
    \[\mathcal{L}_T(x,y) = \mathcal{L}_{CE}(f(x), y) + \lambda \cdot \mathrm{D}_{KL}(\bar{f}^{\epsilon}(x)\| f(x)).
    \]

代码

原文代码

Globally-Robust Neural Networks的更多相关文章

  1. 【论文阅读】Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

    Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks 参考 1. 人脸关键点: 2. ...

  2. Exploring Architectural Ingredients of Adversarially Robust Deep Neural Networks

    目录 概 主要内容 深度 宽度 代码 Huang H., Wang Y., Erfani S., Gu Q., Bailey J. and Ma X. Exploring architectural ...

  3. [Box] Robust Training and Initialization of Deep Neural Networks: An Adaptive Basis Viewpoint

    目录 概 主要内容 LSGD Box 初始化 Box for Resnet 代码 Cyr E C, Gulian M, Patel R G, et al. Robust Training and In ...

  4. [C4] Andrew Ng - Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization

    About this Course This course will teach you the "magic" of getting deep learning to work ...

  5. 【转】Artificial Neurons and Single-Layer Neural Networks

    原文:written by Sebastian Raschka on March 14, 2015 中文版译文:伯乐在线 - atmanic 翻译,toolate 校稿 This article of ...

  6. 提高神经网络的学习方式Improving the way neural networks learn

    When a golf player is first learning to play golf, they usually spend most of their time developing ...

  7. 课程四(Convolutional Neural Networks),第一周(Foundations of Convolutional Neural Networks) —— 3.Programming assignments:Convolutional Model: application

    Convolutional Neural Networks: Application Welcome to Course 4's second assignment! In this notebook ...

  8. Convolutional Neural Networks: Application

    Andrew Ng deeplearning courese-4:Convolutional Neural Network Convolutional Neural Networks: Step by ...

  9. (转)Understanding, generalisation, and transfer learning in deep neural networks

    Understanding, generalisation, and transfer learning in deep neural networks FEBRUARY 27, 2017   Thi ...

  10. AlexNet论文翻译-ImageNet Classification with Deep Convolutional Neural Networks

    ImageNet Classification with Deep Convolutional Neural Networks 深度卷积神经网络的ImageNet分类 Alex Krizhevsky ...

随机推荐

  1. Azure Key Vault(二)- 入门简介

    一,引言 在介绍 Azure Key Vault 之前,先简单介绍一下 HSM(硬件安全模块). -------------------- 我是分割线 -------------------- 1,什 ...

  2. 日常Java 2021/11/15

    Applet类 每一个Applet都是java.applet Applet类的子类,基础的Applet类提供了供衍生类调用的方法,以此来得到浏览器上下文的信息和服务.这些方法做了如下事情: 得到App ...

  3. E: Unable to fetch some archives, maybe run apt-get update or try with --fix-missing

    解决办法:apt-get update或者apt-get cleanapt-get update 或者 apt-get update --fix-missing问题解析1 source本身的问题 根据 ...

  4. css通配样式初始化(多款,供君自选)

    腾讯官网 body,ol,ul,h1,h2,h3,h4,h5,h6,p,th,td,dl,dd,form,fieldset,legend,input,textarea,select{margin:0; ...

  5. OC-基础数据类型

    七 字符串与基本数据类型转换 获取字符串的每个字符/字符串和其他数据类型转换 八 NSMutableString 基本概念/常用方法 九 NSArray NSArray基本概念/创建方式/注意事项/常 ...

  6. 【Linux】【Web】【Nginx】配置nginx日志到远程syslog服务器

    1. 概述: 主要是用于吧nginx的日志直接传送到远程日志收集的服务器上.远程日志服务器只要能够支持syslog协议都能够收到日志,本文的syslog服务器是IBM的日志收集系统Qradar. 2. ...

  7. Java Bean 与Spring Bean 的区别

    什么是JavaBean: JavaBean是一种JAVA语言写的可重用组件.JavaBean符合一定规范写的Java类,是一种规范.它的方法命名,构造以及行为必须符合特定的要求:     1.所有属性 ...

  8. 使用Spring Data ElasticSearch框架来处理索引

    /**步骤:创建工程,导入相应的包--->配置文件---->创建实体类对象------>创建接口---->测试增删改查的方法 **/ //步骤:创建工程,导入相应的包 < ...

  9. 从orderby引发的SQL注入问题的思考

    背景: 某一天准备上线,合完master之后准备发布了,忽然公司的代码安全监测提示了可能在代码中存在sql注入的风险,遂即检查,发现sql注入问题 既然碰到了这个问题,那就了简单了解下sql注入 基础 ...

  10. numpy基础教程--二维数组的转置

    使用numpy库可以快速将一个二维数组进行转置,方法有三种 1.使用numpy包里面的transpose()可以快速将一个二维数组转置 2.使用.T属性快速转置 3.使用swapaxes(1, 0)方 ...