softmax 杂谈

在多分类问题中，我们可以使用 softmax 函数，对输出的值归一化为概率值。下面举个例子：

import sys

sys.path.append("E:/zlab/")

from plotnet import plot_net, DynamicShow

num_node_list = [10, 7, 5]

figsize = (15, 6)

plot_net(num_node_list, figsize, 'net')

Press `c` to save figure to "net.svg", `Ctrl+d` to break >>

> c:\programdata\anaconda3\lib\site-packages\viznet\context.py(45)__exit__()

-> plt.savefig(self.filename, dpi=300)

(Pdb) c

上图转换为表达式：

\[\begin{aligned}
&a^{(0)} = (a_0^{(0)}, a_1^{(0)}, \cdots, a_9^{(0)})^T\\
&a^{(1)} = (a_0^{(1)}, a_1^{(1)}, \cdots, a_6^{(1)})^T\\
&a^{(2)} = (a_0^{(2)}, a_1^{(2)}, \cdots, a_4^{(2)})^T\\
\end{aligned}
\]

对于任意的 \(0 \leq i \leq 2\), 有前向传播的表达式：

\[\begin{aligned}
&z^{(i+1)} = W^{(i)}a^{(i)} + b^{(i)}\\
&a^{(i+1)} = f^{(i+1)}(z^{(i+1)})
\end{aligned}
\]

其中，\(f^{(j)}\) 表示激活函数，除了输出层外，一般使用 ReLU 函数；\(W^{(i)}, b^{(i)}\) 为模型参数。

如若我们有 \(m\) 个样本 \(\{x^{(j)}\}_{j=1}^m\) 组成的数据集 \(D\), 称 \(X = (x^{(1)}, x^{(2)}, \cdots, x^{(m)})^T\) 为数据集 \(D\) 的设计矩阵。

这样，前向传播可以改写为：

\[\begin{cases}
Z^{(1+i)} = Z^{(i)}W^{(0)} + (b^{(i)})^T\\
A^{(1+i)} = f^{(1+i)}(Z^{(1+i)})
\end{cases}
\]

\(Z^{(i)} = (z_1^{(i)}, z_2^{(i)}, \cdots, z_m^{(i)})^T\), 这里对 \(z^{(i)}\) 添加下标以区别不同的样本;
这里对列向量 \(b^{(i)}\) 进行了 broadcast 操作;
且 \(Z^{(0)} = X\).

对于多分类问题，一般输出层对应的激活函数的 softmax 函数：

求解 \(A^{(2)}\):

计算 \(exp = \exp(Z^{(1)})\);
对 \(exp\) 按列做归一化, 便可得到 \(\text{softmax}(A^{(1)})\).

import numpy as np

def softmax(X):

    X_exp = np.exp(X)

    partition = X_exp.sum(axis=1, keepdims=True)

    return X_exp / partition  # 这里应用了广播机制。

softmax([[2, 3,4], [3, 5, 7]])

array([[0.09003057, 0.24472847, 0.66524096],

       [0.01587624, 0.11731043, 0.86681333]])

但如果输入值较大或较小时，会出现内存溢出的现象：

softmax([1000, 1000, 100])

C:\ProgramData\Anaconda3\lib\site-packages\ipykernel\__main__.py:5: RuntimeWarning: overflow encountered in exp

C:\ProgramData\Anaconda3\lib\site-packages\ipykernel\__main__.py:7: RuntimeWarning: invalid value encountered in true_divide

array([nan, nan,  0.])

softmax([-10000, -1020, 100, -70220])

array([0., 0., 1., 0.])

一种简单有效避免该问题的方法就是让 \(\exp(z_j)\) 中的 \(z_j\) 替换为 \(z_j - \max_{i} \{z_i\}\), 由于 \(\max_{i}\) 是个固定的常数，所以 \(\exp(z_j)\) 的值没有改变。但是，此时避免了溢出现象的出现。

def softmax(X):

    X = np.asanyarray(X)

    X -= X.max(axis=-1, keepdims=True)

    X_exp = np.exp(X)

    print(X_exp)

    partition = X_exp.sum(axis=-1, keepdims=True)

    return X_exp / partition  # 这里应用了广播机制。

softmax([1000, 1000, 100])

[1. 1. 0.]

array([0.5, 0.5, 0. ])

softmax([-10000, -1020, 100, -7220])

[0. 0. 1. 0.]

array([0., 0., 1., 0.])

softmax([-10000, -1020, 100, -70220])

[0. 0. 1. 0.]

array([0., 0., 1., 0.])

当然这种做法也不是最完美的，因为 softmax 函数不可能产生 0 值，但这总比出现 nan 的结果好，并且真实的结果也是非常接近 \(0\) 的。

除此之外，还有一个问题：如果我们计算 \(\log \text{softmax} (z_j)\) 时，先计算 \(\text{softmax}\) 再将其传递给 \(\log\)，会错误的得到 \(-\infty\)

np.log(softmax([-10000, -1020, 100, -70220]))

[0. 0. 1. 0.]

C:\ProgramData\Anaconda3\lib\site-packages\ipykernel\__main__.py:1: RuntimeWarning: divide by zero encountered in log

  if __name__ == '__main__':

array([-inf, -inf,   0., -inf])

最简单的处理方式是直接加一个很小的常数：

np.log(softmax([-10000, -1020, 100, -70220])+ 1e-7)

[0. 0. 1. 0.]

array([-1.61180957e+01, -1.61180957e+01,  9.99999951e-08, -1.61180957e+01])

为了解决此数值计算的不稳定，MXNet 提供了：

from mxnet.gluon import loss as gloss

loss = gloss.SoftmaxCrossEntropyLoss()

解决计算交叉熵时出现的数值不稳定的问题。

更多数据挖掘内容见：datamining

softmax 杂谈的更多相关文章

基于Caffe的Large Margin Softmax Loss的实现（中）
小喵的唠叨话:前一篇博客,我们做完了L-Softmax的准备工作.而这一章,我们开始进行前馈的研究. 小喵博客: http://miaoerduo.com 博客原文: http://www.miao ...
基于Caffe的Large Margin Softmax Loss的实现（上）
小喵的唠叨话:在写完上一次的博客之后,已经过去了2个月的时间,小喵在此期间,做了大量的实验工作,最终在使用的DeepID2的方法之后,取得了很不错的结果.这次呢,主要讲述一个比较新的论文中的方法,L- ...
[Machine Learning] logistic函数和softmax函数
简单总结一下机器学习最常见的两个函数,一个是logistic函数,另一个是softmax函数,若有不足之处,希望大家可以帮忙指正.本文首先分别介绍logistic函数和softmax函数的定义和应用, ...
前馈网络求导概论(一)·Softmax篇
Softmax是啥? Hopfield网络的能量观点 1982年的Hopfiled网络首次将统计物理学的能量观点引入到神经网络中, 将神经网络的全局最小值求解,近似认为是求解热力学系统的能量最低点(最 ...
【转】PHP 杂谈《重构-改善既有代码的设计》之一重新组织你的函数
原文地址: PHP 杂谈<重构-改善既有代码的设计>之一重新组织你的函数思维导图点击下图,可以看大图. 介绍我把我比较喜欢的和比较关注的地方写下来和大家分享.上次我写 ...
Derivative of the softmax loss function
Back-propagation in a nerual network with a Softmax classifier, which uses the Softmax function: \[\ ...
Softmax回归
Reference: http://ufldl.stanford.edu/wiki/index.php/Softmax_regression http://deeplearning.net/tutor ...
softmax分类器+cross entropy损失函数的求导
softmax是logisitic regression在多酚类问题上的推广,\(W=[w_1,w_2,...,w_c]\)为各个类的权重因子,\(b\)为各类的门槛值.不要想象成超平面,否则很难理解 ...
【管理心得之三十二】PMP杂谈---------爱情必胜术
这次一反常态,没有场景设计,我想借此文普及一下PMP是什么? 但我不知道这样枯燥的话题能否能引起你的兴趣,我不得不套用“标题党”<爱情必胜术>来博你眼球. 我真没有说谎,此文是献给那些孤身 ...

随机推荐

15个超级实用的jQuery插件
jQuery是一个可订制的.轻量级的前端开发框架,它会让你的前端开发拥有无限的可能性.它会在敏捷Web开发中帮你做很多事情,比如简化HTML文档的解析.事件处理.动画效果和Ajax交互.实践上jQue ...
mysql关于“异步复制”“同步复制”“半同步复制”“无损复制”的概念与区别
异步复制:主把事务写到binlog日志并不管从是否接收或者什么时候接收,commit之后,不会与从发生ack之类的交互. 同步复制:当主提交一个事务,在主向前端返回一个commit成功的指令前,必须保 ...
Web 前端开发规范文档
通用规范: TAB键用两个空格代替(WINDOWS下TAB键占四个空格,LINUX下TAB键占八个空格). CSS样式属性或者JAVASCRIPT代码后加“;”方便压缩工具“断句”. 文件内容编码均统 ...
关于java线程锁synchronized修饰普通方法与静态方法的区别
最近研究线程方面问题,关于这个synchronized锁修饰的问题,先是修饰普通方法,然后通过两个线程,各自执行自己对象的锁,发现方法执行互不影响,代码如下: private static int n ...
GDB调试基础
GDB调试基础 https://lesca.me/archives/gdb-basic-knowledge.html GDB笔记(二):条件断点.命令列表.监视点 https://lesca.me/a ...
p,br,hn,b,i,u,s,sup,sub标签
注释 <p></p>段落标签 <br />换行标签 <h1></h1> 字体标签最大 <h6> ...
Web测试技术要领
基于Web的系统测试与传统的软件测试既有相同之处,也有不同的地方,对软件测试提出了新的挑战.基于Web的系统测试不但需要检查和验证是否按照设计的要求运行,而且还要评价系统在不同用户的浏览器端的显示是否 ...
linux bash shell之declare
一. #Set the right GC options based on the what we are runningdeclare -a server_cmds=("master&qu ...
Animate.css 前端动画开发教程
1.首先下载animate.css文件: 2.打开动画预览地址选择想要的动画,地址:https://daneden.github.io/animate.css/ ,选择好后记住动画的名字在你下载的a ...
UE简单配置
1 头上显示文件位置和名称,视图->视图列表——>打开文件标签,在右面点放大 2 函数列表,视图->视图列表——>打开文件标签

softmax 杂谈

softmax 杂谈的更多相关文章

随机推荐

热门专题