本文转载自：https://blog.csdn.net/u014595019/article/details/52554582

这个系列主要记录我在学习各个深度学习算法时候的笔记，因为之前已经学过大概的概念，所以这轮学习比较着重于公式推导和具体实现，而对概念上的描述不多，因此比较适合对此有一定基础的同学。

在正式开始写深度学习的知识之前，会有两节传统神经网络的内容，因为深度学习中大量运用了以往神经网络的知识。搞懂传统的神经网络如何工作是很有必要的，有助于对之后的学习打下坚实的基础。

1. logistic分类

几乎所有的教材都是从logistic分类开始的，因为logistic分类实在太经典，而且是神经网络的基本组成部分，每个神经元(cell)都可以看做是进行了一次logistic分类。

所谓logistic分类，顾名思义，逻辑分类，是一种二分类法，能将数据分成0和1两类。

logistic分类的流程比较简单，主要有线性求和，sigmoid函数激活，计算误差，修正参数这4个步骤。前两部用于判断，后两步用于修正。本文分为3部分，前2部分讲普通logistic分类的流程，第三部分则稍作扩展。

1.1 线性求和以及sigmoid函数

第1,2步是用于根据输入来判断分类的，所以放在一起说。假设有一个n维的输入列向量 xx，也有一个n维的参数列向量hh，还有一个偏置量b，那么就可以线性求和得到z.

z=hTx+bz=hTx+b

此时因为z的值域是[−∞,+∞][−∞,+∞] ，是无法根据z来判断xx 到底是属于0还是1的。因此我们需要一个函数，来将z的值映射到[0,1]之间，这就是激活函数。激活函数有很多种，这里的激活函数是sigmoid函数。

σ(x)=11+e−xσ′(x)=σ(x)(1−σ(x))σ(x)=11+e−xσ′(x)=σ(x)(1−σ(x))

其形状为

图1 sigmoid函数

可以看到x越大，σ(x)σ(x)越接近1，反之，则越接近0. 那么在判断的时候，我们首先对之前得到的z代入sigmoid函数

a=σ(z)=σ(hTx+b)a=σ(z)=σ(hTx+b)

当 a 大于0.5的时候，我们判定x应属于1类，如果小于0.5，则属于0类。这样，就完成了判断的工作

1.2 误差计算以及参数修正

上面完成的判断过程中用到了参数向量h和偏置量b。可以说，h和b的值直接关系到logistic判断的准确性。那么这两组参数是如何获得的呢？这就涉及到了参数的修正。在最开始的时候，h中的值是随机的，而b的值是0. 我们通过不断的训练来使得h和b能够尽可能的达到一个较优的值。

那么如何训练呢？假设我们期望输入x的判定是y，而实际得到的判定值是a，那么我们定义一个损失函数C(a,y)，通过修正h和b的值来使得C最小化，这是一个优化问题。在凸优化问题中，可以通过

∂C∂h=0,∂C∂b=0∂C∂h=0,∂C∂b=0

来直接算得h和b的最优解。然而在某些情况下，例如数据规模很大，或者非凸优化问题中，则不能这么做，而是用迭代的方法来得到局部最优解。

h:=h−η∂C∂hb:=b−η∂C∂bh:=h−η∂C∂hb:=b−η∂C∂b

其中 ηη 表示学习率。在这里，我们把损失函数定为平方损失函数，即C=12(a−y)2C=12(a−y)2 那么可以得到

∂C∂h====C′∂a∂h(a−y)∂σ(z)∂h(a−y)σ′x(a−y)a(1−a)x∂C∂h=C′∂a∂h=(a−y)∂σ(z)∂h=(a−y)σ′x=(a−y)a(1−a)x

∂C∂b=(a−y)a(1−a)∂C∂b=(a−y)a(1−a)

这样，就能够得到每次迭代的参数更新公式为

h:=h−η(a−y)a(1−a))xb:=b−η(a−y)a(1−a))h:=h−η(a−y)a(1−a))xb:=b−η(a−y)a(1−a))

1.3 将logistic扩展到多分类

从之前可以看出，普通的logistic只能进行二分类，即只能够分为0或者1。那么如果这些样本属于多个类该怎么办呢？人们想了很多办法，例如一对多法，依次把某个类别的样本归为一类,其他剩余的样本归为另一类，这样k个类需要构建k个分类器。还有一对一法，在任意两类样本之间设计一个分类器，k个类需要k(k-1)/2个分类器。

在这里，我们将输出由一个值更改为一个向量。例如有3个类，那么输出就是一个长度为3 的列向量，对应项的值为1，其他为0.即

⎡⎣⎢⎢100⎤⎦⎥⎥⎡⎣⎢⎢010⎤⎦⎥⎥⎡⎣⎢⎢001⎤⎦⎥⎥[100][010][001]

分别表示第0,1,2个类。也可以看成是原来若干个logistic分类器组合在一起。对应的某个分类器只对该类输出1，其他情况都输出0.从这一点上来讲，这个做法有点类似于一对多法。此时，由于输出从一个数成为一个向量，之前的公式都要加以修改。首先，原来的y,a,z,b变成了列向量，向量hh变成了矩阵W。这样，判断部分的公式变为

z=Wx+ba=σ(z)z=Wx+ba=σ(z)

此时的σσ函数表示对向量中的每一个元素单独做运算。即

σ(x)=⎡⎣⎢⎢⎢⎢σ(x1)σ(x2)⋮σ(xn)⎤⎦⎥⎥⎥⎥σ(x)=[σ(x1)σ(x2)⋮σ(xn)]

得到的a向量中，其最大值所在的位置索引即为判断出的分类。
参数修正部分的公式也是类似的，

∂C∂W=(a−y).×a.×(1−a)×xT∂C∂b=(a−y).×a.×(1−a)∂C∂W=(a−y).×a.×(1−a)×xT∂C∂b=(a−y).×a.×(1−a)

注意有些向量之间是进行点乘的。

深度学习笔记(一)：logistic分类【转】的更多相关文章

UFLDL深度学习笔记（四）用于分类的深度网络
UFLDL深度学习笔记 (四)用于分类的深度网络 1. 主要思路本文要讨论的"UFLDL 建立分类用深度网络"基本原理基于前2节的softmax回归和无监督特征学习,区别在于使 ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
Google TensorFlow深度学习笔记
Google Deep Learning Notes Google 深度学习笔记由于谷歌机器学习教程更新太慢,所以一边学习Deep Learning教程,经常总结是个好习惯,笔记目录奉上. Gith ...
UFLDL深度学习笔记（二）SoftMax 回归(矩阵化推导)
UFLDL深度学习笔记 (二)Softmax 回归本文为学习"UFLDL Softmax回归"的笔记与代码实现,文中略过了对代价函数求偏导的过程,本篇笔记主要补充求偏导步骤的详细 ...
UFLDL深度学习笔记（六）卷积神经网络
UFLDL深度学习笔记 (六)卷积神经网络 1. 主要思路 "UFLDL 卷积神经网络"主要讲解了对大尺寸图像应用前面所讨论神经网络学习的方法,其中的变化有两条,第一,对大尺寸图像 ...
UFLDL深度学习笔记（五）自编码线性解码器
UFLDL深度学习笔记 (五)自编码线性解码器 1. 基本问题在第一篇 UFLDL深度学习笔记 (一)基本知识与稀疏自编码中讨论了激活函数为\(sigmoid\)函数的系数自编码网络,本文要讨论&q ...
UFLDL深度学习笔记（三）无监督特征学习
UFLDL深度学习笔记 (三)无监督特征学习 1. 主题思路 "UFLDL 无监督特征学习"本节全称为自我学习与无监督特征学习,和前一节softmax回归很类似,所以本篇笔记会比较 ...
UFLDL深度学习笔记（一）反向传播与稀疏自编码
UFLDL深度学习笔记 (一)基本知识与稀疏自编码前言近来正在系统研究一下深度学习,作为新入门者,为了更好地理解.交流,准备把学习过程总结记录下来.最开始的规划是先学习理论推导:然后学习一两种开源 ...
UFLDL深度学习笔记（七）拓扑稀疏编码与矩阵化
UFLDL深度学习笔记 (七)拓扑稀疏编码与矩阵化主要思路前面几篇所讲的都是围绕神经网络展开的,一个标志就是激活函数非线性:在前人的研究中,也存在线性激活函数的稀疏编码,该方法试图直接学习数据的特 ...

随机推荐

启动phpstyle Apache的80端口被win7的System PID=4的进程占用的解决方法以及如何在phpStyle里发布程序
学习前端是,用到Ajax,php语言,操作mysql数据库,浏览器无法解析php代码(把源码输出):原因,我之前用的是tomcat服务器写jsp,servlet,php用的是apache服务器,没有配 ...
SAS9.4安装
安装教程请查看博客https://blog.csdn.net/qq_38960682/article/details/80567686 启动SAS时就报下面的错了:WARNING: 连接逻辑库“SAS ...
swift 下storyboard的页面跳转和传值
------------------1. 最简单的方法拖拽, 这个就不用多解释了吧. 直接拖拽到另一个视图控制器, 选择 show, 就行了. 2. 利用 Segue 方法 (这里主要是方法1 的 ...
mysql导出成execl
方法一:查询语句直接输出语法格式: Example: select * into outfile '/data/var-3307/catid.xls' from help_cat where 1 or ...
Intellij idea中maven加载jar包很慢的解决方案.
默认加载的都是国外的源,我们可以配置国内的源. 右键项目-->maven-->Open ''setting.xml'' 复制下面的代码进去.保存. 我这里使用的版本是 ideaIU-14. ...
Xception
Xception(Deep Learning with Depth-wise Separable convolutions)——google Inception-V3 Xception 并不是真正意义 ...
一条SQL引起的雪崩
1.问题描述 MySQL服务器卡死,CPU飚到300%多,命令执行缓慢. 2.问题定位踩了狗屎运,直接找到了问题缘由发现了一条SQL写的模糊匹配,将%写在了关键字的前面,这样会造成查询不使用索引, ...
python学习笔记——字符串
类方法string.upper(str)需要引入string模块,实例方法str.upper()不需要引入string模块无与伦比的列表解析功能 # coding=utf-8 # 列表解析 prin ...
django views.py视图获取用户请求相关信息以及请求头
请求的其他信息用户发来请求时候,不仅发来数据,也把请求头也发过来在views.py 怎么找请求数据? request是一个对象,这个对象封装很多信息,可以先查这个对象的类 print(type(r ...
图书源代码下载: Modern Differential Geometry of CURVES and SURFACES with Mathematica
http://alpha01.dm.unito.it/personalpages/abbena/gray/ Contents 1. Curves in the Plane | 2. Famou ...