按softmax交叉熵优化时，针对这个样本而言，会让0.721越来越接近于1，因为这样会减少loss，但是这有可能造成过拟合。可以这样理解，如果0.721已经接近于1了，那么网络会对该样本十分“关注”，也就是过拟合。我们可以通过标签平滑的方式解决。

以下是论文中对此问题的阐述：

返回目录

工作原理

假设有一批数据在神经网络最后一层的输出值和他们的真实标签

out = np.array([[4.0, 5.0, 10.0], [1.0, 5.0, 4.0], [1.0, 15.0, 4.0]])

y = np.array([[0, 0, 1], [0, 1, 0], [0, 1, 0]])

直接计算softmax交叉熵损失：

res = tf.losses.softmax_cross_entropy(onehot_labels=y, logits=out, label_smoothing=0)

print(tf.Session().run(res))

结果为：0.11191821843385696

使用标签平滑后：

res2 = tf.losses.softmax_cross_entropy(onehot_labels=y, logits=out, label_smoothing=0.001)

print(tf.Session().run(res2))

结果为：0.11647378653287888

可以看出，损失比之前增加了，他的标签平滑的原理是对真实标签做了改变，源码里的公式为：

# new_onehot_labels = onehot_labels * (1 - label_smoothing) + label_smoothing / num_classes

new_onehot_labels = y * (1 - 0.001) + 0.001 / 3

print(y)

print(new_onehot_labels)

[[0 0 1]

[0 1 0]

[0 1 0]]

[[3.33333333e-04 3.33333333e-04 9.99333333e-01]

[3.33333333e-04 9.99333333e-01 3.33333333e-04]

[3.33333333e-04 9.99333333e-01 3.33333333e-04]]

然后使用平滑标签计算softmax交叉熵就能得到最终的结果了，我们也可以验证一下：

res3 = tf.losses.softmax_cross_entropy(onehot_labels=new_onehot_labels, logits=out, label_smoothing=0)

print(tf.Session().run(res3))

结果为：0.11647378653287888

完整代码：

import numpy as np

import tensorflow as tf

out = np.array([[4.0, 5.0, 10.0], [1.0, 5.0, 4.0], [1.0, 15.0, 4.0]])

y = np.array([[0, 0, 1], [0, 1, 0], [0, 1, 0]])

res = tf.losses.softmax_cross_entropy(onehot_labels=y, logits=out, label_smoothing=0)

print(tf.Session().run(res))

res2 = tf.losses.softmax_cross_entropy(onehot_labels=y, logits=out, label_smoothing=0.001)

print(tf.Session().run(res2))

# new_onehot_labels = onehot_labels * (1 - label_smoothing)

#                           + label_smoothing / num_classes

new_onehot_labels = y * (1 - 0.001) + 0.001 / 3

print(y)

print(new_onehot_labels)

res3 = tf.losses.softmax_cross_entropy(onehot_labels=new_onehot_labels, logits=out, label_smoothing=0)

print(tf.Session().run(res3))

返回目录

参考资料

Rethinking the Inception Architecture for Computer Vision

标签平滑（Label Smoothing）——分类问题中错误标注的一种解决方法

https://www.datalearner.com/blog/1051561454844661

返回目录

深度学习面试题28：标签平滑(Label smoothing)的更多相关文章

深度学习面试题29：GoogLeNet(Inception V3)
目录使用非对称卷积分解大filters 重新设计pooling层辅助构造器使用标签平滑参考资料在<深度学习面试题20:GoogLeNet(Inception V1)>和<深 ...
深度学习面试题27：非对称卷积(Asymmetric Convolutions)
目录产生背景举例参考资料产生背景之前在深度学习面试题16:小卷积核级联卷积VS大卷积核卷积中介绍过小卷积核的三个优势: ①整合了三个非线性激活层,代替单一非线性激活层,增加了判别能力. ②减 ...
深度学习面试题13：AlexNet(1000类图像分类)
目录网络结构两大创新点参考资料第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet,Alex Krizhevsky其实是Hinton的学生,这个团队领导者是 ...
深度学习面试题26：GoogLeNet(Inception V2)
目录第一层卷积换为分离卷积一些层的卷积核的个数发生了变化多个小卷积核代替大卷积核一些最大值池化换为了平均值池化完整代码参考资料第一层卷积换为分离卷积 net = slim.separab ...
深度学习面试题17：VGGNet(1000类图像分类)
目录 VGGNet网络结构论文中还讨论了其他结构参考资料 2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的 ...
深度学习面试题16：小卷积核级联卷积VS大卷积核卷积
目录感受野多个小卷积核连续卷积和单个大卷积核卷积的作用相同小卷积核的优势参考资料感受野在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(fe ...
深度学习面试题14：Dropout(随机失活)
目录卷积层的dropout 全连接层的dropout Dropout的反向传播 Dropout的反向传播举例参考资料在训练过程中,Dropout会让输出中的每个值以概率keep_prob变为原来 ...
深度学习面试题12：LeNet(手写数字识别)
目录神经网络的卷积.池化.拉伸 LeNet网络结构 LeNet在MNIST数据集上应用参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务.自那时起 ...
深度学习面试题07：sigmod交叉熵、softmax交叉熵
目录 sigmod交叉熵 Softmax转换 Softmax交叉熵参考资料 sigmod交叉熵 Sigmod交叉熵实际就是我们所说的对数损失,它是针对二分类任务的损失函数,在神经网络中,一般输出层只 ...

随机推荐

javascript 四舍五入; js 四舍五入
方法 Math.round round() 方法可把一个数字舍入为最接近的整数. 对于 0.5,该方法将进行上舍入. 例如,3.5 将舍入为 4,而 -3.5 将舍入为 -3. Math.round( ...
keepalived,tomcat,memcache
1.Nginx+Keepalived实现站点高可用 linux cluster类型 LB:nginx负载,varnish(director module)haproxy,lvs HA:keepaliv ...
dll与exe
文章:dll与exe的区别地址:https://blog.csdn.net/qq_26591517/article/details/80389846
visual studio故障修复
如果没有安装程序,直接在控制面板——>程序和功能,在列表中找到您安装的vs,右键选择更改,然后程序会启动,做一些准备.然后又三个选项,可以选择修复.
矩阵迹 tr(AB)=tr(BA)的证明
其实更为直观的理解是:AB与BA具有相同的对角线元素,因此tr(AB)=tr(BA)必然成立 ref:https://blog.csdn.net/silence1214/article/details ...
渗透之路基础 -- XXE注入漏洞
XXE漏洞 XXE漏洞全称XML External Entity Injection即xml外部实体注入漏洞,XXE漏洞发生在应用程序解析XML输入时,没有禁止外部实体的加载,导致可加载恶意外部文件, ...
后台将数据传回前台的三种绑定的方式(Model,Map.ModelAndView)
//方式1:通过model 将数据绑定 @RequestMapping(value = "findByIdModel", method = RequestMethod.GET) p ...
《3+1团队》第九次团队作业：Beta冲刺与验收准备
1.团队项目github仓库地址链接 https://github.com/HaiYou667/3-1Growingfruits 2.Scrum meeting导航: [Beta]Scrum meet ...
CentOS7添加/删除用户和用户组
1.新建用户 adduser testuser //新建testuser 用户 passwd testuser //给testuser 用户设置密码 2.建工作组 groupadd testgroup ...
The 2018 ACM-ICPC CCPC 宁夏 A-Maximum Element In A Stack
题意对一个栈有入栈和出栈两种操作,求每次操作后栈的最大值的异或. 题目链接分析类似于单调栈,但是还没有那么复杂. 只需保持栈顶为最大值,如果入栈元素小于栈顶元素,则重复一次栈顶元素入栈:否则,直 ...

深度学习面试题28：标签平滑(Label smoothing)

目录

产生背景

工作原理

参考资料

深度学习面试题28：标签平滑(Label smoothing)的更多相关文章

随机推荐

热门专题

　　产生背景

　　工作原理

　　参考资料