Deep Learning 学习随记（三）Softmax regression

讲义中的第四章，讲的是Softmax 回归。softmax回归是logistic回归的泛化版，先来回顾下logistic回归。

logistic回归：

训练集为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，其中m为样本数，x⁽ⁱ⁾为特征。

logistic回归是针对二分类问题的，因此类标y⁽ⁱ⁾∈{0,1}，。其估值函数（hypothesis ）如下：

代价函数：

softmax 回归：

softmax回归解决的是多分类问题，即y⁽ⁱ⁾∈{1,2,...,k}。（这里softmax回归一般从类别1开始，而不是从0）。

其估值函数形式如下：

为了方便起见，我们同样使用符号θ来表示全部的模型参数。在实现softmax回归时，你通常会发现，将θ用一个k×(n+1)的矩阵来表示会十分便利，该矩阵是将θ_1,θ_2,...,θ_k按行罗列起来得到的，如下所示：

下面是softmax回归的代价函数：

可以看出softmax是logistic的一个泛化版。logistic是k=2情况下的softmax回归。

为了求解J(θ)，通常借助于梯度下降法或L-BFGS算法等迭代优化算法。经过求导，我们可以得到梯度公式为：

有了上面的偏导数公式以后，我们就可以将它带入到梯度下降法等算法中，来使J(θ)最小化。例如，在梯度下降法标准实现的每一次迭代中，我们需要进行如下更新：

（对每个j=1,2,...k）

有一点需要注意的是，按上述方法用softmax求得的参数并不是唯一的，因为，对每一个参数来说，若都减去一个相同的值，依然是上述的代价函数的值。证明如下：

这表明了softmax回归中的参数是“冗余”的。更正式一点来说，我们的softmax模型被过度参数化了，这意味着对于任何我们用来与数据相拟合的估计值，都会存在多组参数集，它们能够生成完全相同的估值函数hθ将输入x映射到预测值。因此使J(θ)最小化的解不是唯一的。而Hessian矩阵是奇异的/不可逆的，这会直接导致Softmax的牛顿法实现版本出现数值计算的问题。

为了解决这个问题，加入一个权重衰减项到代价函数中：

有了这个权重衰减项以后(对于任意的λ>0)，代价函数就变成了严格的凸函数而且hession矩阵就不会不可逆了。

此时的偏导数：

softmax 练习：

这里讲义同样给出了练习题，打算自己写写看，暂时先写到这，接下来有时间把自己写好的代码贴上来。

Deep Learning 学习随记（三）Softmax regression的更多相关文章

Deep Learning 学习随记（三）续 Softmax regression练习
上一篇讲的Softmax regression,当时时间不够,没把练习做完.这几天学车有点累,又特别想动动手自己写写matlab代码所以等到了现在,这篇文章就当做上一篇的续吧. 回顾: 上一篇最后给 ...
Deep Learning 学习随记（四）自学习和非监督特征学习
接着看讲义,接下来这章应该是Self-Taught Learning and Unsupervised Feature Learning. 含义: 从字面上不难理解其意思.这里的self-taught ...
Deep Learning学习随记（一）稀疏自编码器
最近开始看Deep Learning,随手记点,方便以后查看. 主要参考资料是Stanford 教授 Andrew Ng 的 Deep Learning 教程讲义:http://deeplearnin ...
Deep Learning 学习随记（七）Convolution and Pooling --卷积和池化
图像大小与参数个数: 前面几章都是针对小图像块处理的,这一章则是针对大图像进行处理的.两者在这的区别还是很明显的,小图像(如8*8,MINIST的28*28)可以采用全连接的方式(即输入层和隐含层直接 ...
Deep Learning 学习随记（五）深度网络--续
前面记到了深度网络这一章.当时觉得练习应该挺简单的,用不了多少时间,结果训练时间真够长的...途中debug的时候还手贱的clear了一下,又得从头开始运行.不过最终还是调试成功了,sigh~ 前一篇 ...
Deep Learning 学习随记（五）Deep network 深度网络
这一个多周忙别的事去了,忙完了,接着看讲义~ 这章讲的是深度网络(Deep Network).前面讲了自学习网络,通过稀疏自编码和一个logistic回归或者softmax回归连接,显然是3层的.而这 ...
Deep Learning学习随记（二）Vectorized、PCA和Whitening
接着上次的记,前面看了稀疏自编码.按照讲义,接下来是Vectorized, 翻译成向量化?暂且这么认为吧. Vectorized: 这节是老师教我们编程技巧了,这个向量化的意思说白了就是利用已经被优化 ...
Deep Learning 学习随记（八）CNN（Convolutional neural network）理解
前面Andrew Ng的讲义基本看完了.Andrew讲的真是通俗易懂,只是不过瘾啊,讲的太少了.趁着看完那章convolution and pooling, 自己又去翻了翻CNN的相关东西. 当时看讲 ...
Deep Learning 学习随记（六）Linear Decoder 线性解码
线性解码器(Linear Decoder) 前面第一章提到稀疏自编码器(http://www.cnblogs.com/bzjia-blog/p/SparseAutoencoder.html)的三层网络 ...

随机推荐

正则表达式（来源http://deerchao.net/tutorials/regex/regex.htm）
目录跳过目录本文目标如何使用本教程正则表达式到底是什么东西? 入门测试正则表达式元字符字符转义重复字符类分枝条件反义分组后向引用零宽断言负向零宽断言注释贪婪与懒惰处 ...
SVN记住用户名和密码后如何修改
今天遇到一个SVN检出代码用户验证问题.由于自己最近参与了好几个项目,一时间忙不过来.所以希望跟着自己的试用期的同事帮我测试一下刚修改完成的新功能是否有问题.但是该同事没有项目中权限,正好今天恰逢星期 ...
[NOIP2011]瑞士轮
noip2011普及组第3题. 题目背景在双人对决的竞技性比赛,如乒乓球.羽毛球.国际象棋中,最常见的赛制是淘汰赛和循环赛.前者的特点是比赛场数少,每场都紧张刺激,但偶然性较高.后者的特点是较为公平 ...
[CODEVS1037]取数游戏
N(2 <=N<=200,且为偶数)个正整数的序列放在一个游戏平台上,A.B两人轮流从序列的两端取数,取数后该数字被去掉并累加到本玩家的得分中,当数取尽时,游戏结束.以最终得分多者为胜(A ...
【CSS】Intermediate2:Grouping and Nesting
1.Grouping 2.Nesting If the CSS is structured well, there shouldn’t be a need to use many class or I ...
使用Windows Azure创建Linux系统虚拟机-上
创建虚拟机来运行Linux 当您在Azure管理门户中使用映像图库时,创建运行Linux的虚拟机很容易.本指南告诉您如何做到这一点,假设你没有使用过Azure. 注意: 即使你不需要使用过Azure虚 ...
ACM编程技巧--代码片段
验证n是否是完全平方数 #include<math.h> double m=sqrt(n); if(floor(m+0.5)==m) printf("%d是完全平方数.\n&qu ...
【原创】一个复制本地文件到Hadoop文件系统的实例
import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net ...
suse安装软件命令
zypper se xxxxx 是搜索软件包 zypper in xxxxx 跟apt-get install xxxx等价 zypper rm xxxx 删除 zypper up xxxx 更新软件
(Step by Step)How to setup IP Phone Server(VoIP Server) for free.
You must have heard about IP Phone and SIP (Software IP Phone).Nowadays standard PSTN phone are bein ...

Deep Learning 学习随记（三）Softmax regression

Deep Learning 学习随记（三）Softmax regression的更多相关文章

随机推荐

热门专题