softmax、cross entropy和softmax loss学习笔记

之前做手写数字识别时，接触到softmax网络，知道其是全连接层，但没有搞清楚它的实现方式，今天学习Alexnet网络，又接触到了softmax，果断仔细研究研究，有了softmax，损失函数自然不可少。一起学习记录一下。

主要参考的博文：http://blog.csdn.net/u014380165/article/details/77284921

侵删！

先讲softmax。

softmax是一个全连接层，功能是将卷积神经网络计算后的多个神经元输出，映射到（0，1）区间，给出每种分类的概率情况。下面主要记录全连接层到损失层是如何计算的。

图的等号左边为全连接，w为权值，x是全连接层的输入（卷积运算激活池化后的特征向量，不一定为N*1,可以为S*P，这里只不过为了便于理解计算，把向量拉直为SP*1，即N*1，N=SP）假设全连接层前面连接的是一个卷积层，这个卷积层的输出是100个特征（也就是我们常说的feature map的channel为100），每个特征的大小是4*4，那么在将这些特征输入给全连接层之前会将这些特征flat成N*1的向量（这个时候N就是100*4*4=1600）。再看W，W是T*N的矩阵，其中N是由输入决定的，T是有网络输出的类别决定的，比如输出为10个类，则T=10.W和x运算后得到一个T*1的向量，向量大小没有限制。下一步就是softmax，softmax作用是将T个输入映射为概率，刚才打比方说有10个类别，则每个输出值就是每种类别的概率，显然概率之和为。分母为所有情况之和，分子为各种单一情况运算。

终于转化为概率了，那接下来为了衡量好坏，当然是选择误差函数了，因为是概率输入，当然理所当然使用交叉熵了，

Cross entropy

首先理一下熵的概念，现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：

如果使用错误分布q来表示来自真实分布p的平均编码长度，则应该是：

其中第一个期望为信息熵，反应的是香农信息量的期望，第二个为交叉熵。信息熵代表的是随机变量或整个系统的不确定性，熵越大，随机变量或系统的不确定性就越大

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

交叉熵越低，这个策略就越好，最低的交叉熵也就是使用了真实分布所计算出来的信息熵，因为此时 $p_k = q_k$ ，交叉熵 = 信息熵。这也是为什么在机器学习中的分类算法中，我们总是最小化交叉熵，因为交叉熵越低，就证明由算法所产生的策略最接近最优策略，也间接证明我们算法所算出的非真实分布越接近真实分布。

链接：https://www.zhihu.com/question/41252833/answer/195901726

链接：https://www.zhihu.com/question/41252833/answer/108777563

softmax的损失函数叫做softmax loss，其定义为：

首先L是损失。Sj是softmax的输出向量S的第j个值，前面已经介绍过了，表示的是这个样本属于第j个类别的概率。yj前面有个求和符号，j的范围也是1到类别数T，因此y是一个1*T的向量，里面的T个值，而且只有1个值是1，其他T-1个值都是0。那么哪个位置的值是1呢？答案是真实标签对应的位置的那个值是1，其他都是0。所以结果为：

j指向当前样本的真是标签。假设一个5分类问题，然后一个样本I的标签y=[0,0,0,1,0]，也就是说样本I的真实标签是4，假设模型预测的结果概率（softmax的输出）p=[0.2,0.3,0.4,0.6,0.5]，可以看出这个预测是对的，那么对应的损失L=-log(0.6)，也就是当这个样本经过这样的网络参数产生这样的预测p时，它的损失是-log(0.6)。那么假设p=[0.2,0.3,0.4,0.1,0.5]，这个预测结果就很离谱了，因为真实标签是4，而你觉得这个样本是4的概率只有0.1（远不如其他概率高，如果是在测试阶段，那么模型就会预测该样本属于类别5），对应损失L=-log(0.1)。那么假设p=[0.2,0.3,0.4,0.3,0.5]，这个预测结果虽然也错了，但是没有前面那个那么离谱，对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数，而且log函数是递增函数，所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大，预测错得离谱比预测错得轻微的损失要大。

这个过程也说明了softmax和max的区别。如我有两个数a和b，max选取ab中概率最大的那个数，没有第二种可能，但是对于b不公平啊，a的可能性比b大，但是不代表b不可能取不到，所以我想根据概率选取，概率大的多去，概率小的少取，这就是softmax。

与

可见其实是一样的。感谢以上博主和知乎作者分享，理清了我的思路，谢谢。纪录下，由新发现再补充，有错请指教，谢谢

softmax、cross entropy和softmax loss学习笔记的更多相关文章

softmax，softmax loss和cross entropy的区别
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u014380165/article/details/77284921 我们知道卷积神经网络(CNN ...
softmax，softmax loss和cross entropy的讲解
1 softmax 我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.这一篇主要介绍全连接层和损失层的内容, ...
keras 学习笔记：从头开始构建网络处理 mnist
全文参考 < 基于 python 的深度学习实战> import numpy as np from keras.datasets import mnist from keras.model ...
Stanford CS20学习笔记
Lecture Note 2 Tensorboard P3 Data Structures P4 Math Operations P6 Data Types P7 tf native &&am ...
【转】TensorFlow四种Cross Entropy算法实现和应用
http://www.jianshu.com/p/75f7e60dae95 作者:陈迪豪来源:CSDNhttp://dataunion.org/26447.html 交叉熵介绍交叉熵(Cross ...
卷积神经网络系列之softmax，softmax loss和cross entropy的讲解
我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等.虽然现在已经开源了很多深度学习框架(比如MxNet,Caf ...
Softmax学习笔记
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类! 他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚 ...
ufldl学习笔记和编程作业：Softmax Regression（softmax回报）
ufldl学习笔记与编程作业:Softmax Regression(softmax回归) ufldl出了新教程.感觉比之前的好,从基础讲起.系统清晰,又有编程实践. 在deep learning高质量 ...
ufldl学习笔记与编程作业：Softmax Regression(vectorization加速)
ufldl学习笔记与编程作业:Softmax Regression(vectorization加速) ufldl出了新教程,感觉比之前的好.从基础讲起.系统清晰,又有编程实践. 在deep learn ...

随机推荐

docker中mongdb常用操作
一.进入 --使用本地命令行查看 docker exec -it mongos bash
TensorFlow从0到1之TensorFlow实现多元线性回归（16）
在 TensorFlow 实现简单线性回归的基础上,可通过在权重和占位符的声明中稍作修改来对相同的数据进行多元线性回归. 在多元线性回归的情况下,由于每个特征具有不同的值范围,归一化变得至关重要.这里 ...
LR脚本信息函数-lr_get_vuser_ip
lr_get_vuser_ip 返回Vuser的IP地址. char * lr_get_vuser_ip(); lr_get_vuser_ip函数返回Vuser的IP地址. 当执行IP欺骗时,每个Vu ...
Mybatis一对多或多对多只能查出一条数据解决策略
原文:https://blog.csdn.net/ren814/article/details/81742242 <resultMap id="menuModelMap" t ...
Day10-微信小程序实战-交友小程序-自定义callPhone 和copyText组件
---为了方便用户可以拨打电话和复制微信号(下面就要实现这样的两个功能) 注意:在小程序中是没办法直接的添加用户的微信的,所以就只能是复制微信号 (这种东西的话可以直接去做,也可以做成组件,做出组件的 ...
Meteva——让预报检验不再重复造轮子
更多精彩,请点击上方蓝字关注我们! 检验是什么?****预报准确率的客观表达说到天气预报,你最先会想到什么? 早上听了预报,带了一天伞却没下一滴雨的调侃? 还是 "蓝天白云晴空万里突然暴风 ...
android屏幕适配的全攻略--支持不同的屏幕尺寸适配平板和手机
一. 核心概念与单位详解 1. 什么是屏幕尺寸.屏幕分辨率.屏幕像素密度? 屏幕分辨率越大,手机越清晰 dpi就是dot per inch dot意思是点,就是每英寸上面的像素点数 android原始 ...
用Python进行实时计算——PyFlink快速入门
Flink 1.9.0及更高版本支持Python,也就是PyFlink. 在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和 ...
Jmeter系列（30）- 详解 JDBC Request
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html 前言 JDBC Request 主要是 ...
Navicat15安装激活版教程
navicat15安装一键式安装,安装包如下链接:https://pan.baidu.com/s/1VTJmJ7ulUySWoWBu-fugiw 提取码:fz5u 先安装软件包点击安装,一直下一步 ...

softmax、cross entropy和softmax loss学习笔记

softmax、cross entropy和softmax loss学习笔记的更多相关文章

随机推荐

热门专题