机器学习实战 - 读书笔记(05)

解释

Logistic回归用于寻找最优化算法。

最优化算法可以解决最XX问题，比如如何在最短时间内从A点到达B点？如何投入最少工作量却获得最大的效益？如何设计发动机使得油耗最少而功率最大？
我们可以看到最XX问题，有寻找最小（最短时间）和最大等。
- 解决最小类问题会使用梯度下降法。可以想象为在一个山坡上寻找最陡的下坡路径。
- 同理，解决最大类问题会使用梯度上升法。可以想象为在一个山坡上寻找最陡的上坡路径。
寻找最优化算法，可以通过试图找到一个阶跃函数(step function)，由于阶跃函数只返回0或者1.因此这个阶跃函数可以作为分类器。
一个方案是利用Sigmoid函数做出一个阶跃函数。
$\sigma(z) = \frac{1}{1 + e^{-z}}$
在人工神经网络中，Sigmoid函数是一种常见的激励函数（activation function）。
通过Sigmoid函数的曲线可以看出，其返回值在0到1之间，大部分值都贴近0或者1.只有z在0附近时，形成一个上升曲线，z=0是，返回值是0.5.
因此当Sigmoid函数返回值大于0.5,这个阶跃函数返回1，否则返回0.
这时，问题变成如何算z。
$z = w_0x_0 + w_1x_1 + ... + w_nx_n$
如果采用向量的写法，上述公式可以写成
$ z = w^Tx$
它表示将这两个数值向量的对应元素相乘然后全部加起来即得到z值。其中的向量x是分类器的输入数据，向量w也就是我们要找到的最佳参数（系数），从而使得分类尽可能地精确.
这是一个线性函数。（为什么一定是线性函数？线性方程可以想象为一条直线（2维情况下），或者一个平面（3维情况下），第一：线性函数是递增或者递减的，复合sigmoid函数的要求，第二：比较好解。）
或者说这是一个多元一次方程，我们要根据训练数据算出最佳的$w_0, ... w_n$.
- 技巧1: 加入不变量。
  比如在一元一次方程中$z=w_0x_0$，由于没有常数项，就限制求出最佳解。因此可以变成$z=w_0x_0 + w_1x_1$，其中$x_0 = 1$。这就是为什么书中的代码中加入1.0列的原因。
如果求解w? 如果是求最大类问题，我们使用梯度上升算法的迭代公式。
$w:= w + \alpha \nabla_wf(w)$
其中，$\alpha$为步长。步长太大会导致震荡，找到的w不精确。步长太小会影响运算效率。步长可以在迭代的过程中改变。
- 技巧2：步长是一个重要的计算参数。正确的计算一个步长很关键。书中使用了动态步长，在计算中步长逐渐缩短。
  从微积分的角度来说，这个公式就是在现在的w上加上激励函数的导数乘以步长。
梯度上升法
所以梯度上升算法的迭代公式为：
$w:= w + \alpha \nabla_wf(w)$
书中的计算： weights = weights + alpha * (label - sigmoid(sum(dataMatrix[index] * weights)) * dataMatrix[index]
书中实际的计算公式为：
$w:= w + \alpha (c - f(x)) x $
其中：
$w$是向量。
$\alpha$是步长。
$c$是期望值， x的实际分类，值为0或1。
$f(x)$是sigmoid函数。可以是算总和，或者是向量。
$(c - f(x))$有两个作用：一个是提供偏移方向，是增加还是减少。另外一个作用是偏移量的一个因子。如果f(x)是一个阶跃函数，则值为-1,0,1，这种情况下只有第一个作用。对于sigmoid函数,其值的范围[-1, 1]。
$x$是向量。书中似乎认为x越大，偏移量应该越大。
这个似乎有问题。一个问题是如果所有的x都很大，而且集中在一个区域里，则偏移量似乎过大。
第二，下面的例子：
测试数据1：
[
[[0, 1], [0]],
[[0, 2], [0]],
[[0, 4], [1]],
[[0, 5], [1]]]
测试数据2：
[
[[10000, 1], [0]],
[[10000, 2], [0]],
[[10000, 4], [1]],
[[10000, 5], [1]]]
这两个测试数据测分割线都是: $0 = -3 + x_2$，和x无关。
这个情况下，书中的计算公式明显不正确。
这也说明这个迭代公式需要根据实际情况调整。
- 技巧3：需要大量的迭代才能算出最优的w。书中对测试数据进行了150迭代。

其它说明

梯度上升算法的迭代公式
梯度上升算法用来求函数的最大值。
$w:= w + \alpha \nabla_wf(w)$
其中，$\alpha$为步长。步长太大会导致震荡，找到的w不精确。步长太小会影响运算效率。书中的步长是数据size的1/10。步长可以在迭代的过程中改变。
梯度下降算法的迭代公式
梯度下降算法用来求函数的最小值。
$w:= w - \alpha \nabla_wf(w)$
Sigmoid函数的导数
$f'(x) = f(x) [1-f(x)]$
梯度上升法，计算梯度
如果梯度记为$\nabla$，则函数f(x,y)的梯度由下式表示：
$\nabla f(x, y) = \binom{\frac{\nabla f(x, y)}{\nabla x}} {{\frac{\nabla f(x, y)}{\nabla y}}}$
这个梯度意味着要沿x的方向移动 $\frac{\nabla f(x, y)}{\nabla x}$，要沿y的方向移动 $\frac{\nabla f(x, y)}{\nabla y}$。

参考

Machine Learning in Action by Peter Harrington
激活函数实现--2 Sigmoid函数实现

机器学习实战 - 读书笔记(05) - Logistic回归的更多相关文章

机器学习实战读书笔记(五)Logistic回归
Logistic回归的一般过程 1.收集数据:采用任意方法收集 2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型.另外,结构化数据格式则最佳 3.分析数据:采用任意方法对数据进行分析 4. ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
<机器学习实战>读书笔记--logistic回归
1. 利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 2.sigmoid函数的分类 Sigmoid函数公式定义 3.梯度上升法基本思想:要找 ...
机器学习实战 - 读书笔记(06) – SVM支持向量机
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第6章:SVM 支持向量机. 支持向量机不是很好被理解,主要是因为里面涉及到了许多数学知 ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...

随机推荐

详细介绍windows下使用python pylot进行网站压力测试
windows下使用python进行网站压力测试,有两个必不可少的程序需要安装,一个是python,另一个是pylot.python是一个安装软件,用来运行python程序,而pylot则是pytho ...
jdbc无法连接数据解析
1.网络原因 2.账户权限问题账户是否赋予以下的权限: grant connect, resource to ADM_BI; grant read, write on directory BACKU ...
ROS vpn (pptp) 配置及端口绑定配置
网络搜集一. 按VPN的协议分类 VPN的隧道协议主要有三种,PPTP,L2TP和IPSec,其中PPTP和L2TP协议工作在OSI模型的第二层,又称为二层隧道协议:IPSec是第三层隧道协议,是最 ...
Java Web 工作技巧总结 16.10
摘要: 原创出处:www.bysocket.com 泥瓦匠BYSocket 希望转载,保留摘要,谢谢! 在你成为领导者以前,成功只同自己的成长有关.当你成为领导者以后,成功都同别人的成长有关. 1.聊 ...
mongodb存储过程
MongoDB支持存储过程的使用,它的存储过程是用javascript实现的,被存在于system.js表中,可以接收和输出参数,返回执行存储过程的状态值,也可以嵌套调用. 所以我理解的Mon ...
【学】SoapExtension 学习
http://msdn.microsoft.com/zh-cn/library/System.Web.Services.Protocols.SoapExtension_methods(v=vs.80) ...
delphi7的新生,参与分布式应用开发,调用RESTful API,Json的应用
前言: 1.公司delphi7开发的传统软件还活得好好的,但是大家都知道delphi早已经日落西山了,现在成了后进.追随者.细细算了已经6.7不用了.新的delphixe7呢,没有时间成本去适应和研究 ...
SharePoint 2013中修改windows 活动目录(AD)域用户密码的WebPart（免费下载）
前段时间工作很忙,好久没更新博客了,趁国庆休假期间,整理了两个之前积累很实用的企业集成组件,并在真正的大型项目中经受住了考验:.Net版SAP RFC适配器组件和SharePoint 2013修改AD ...
windbg入门
1.下载安装windbg Windows 10 调试工具 (WinDbg) 如果你仅需要 Windows 10 调试工具,而不需要 WDK 10 或 Visual Studio 2015,你可以将调试 ...
优化LibreOffice如此简单
对于开源软件的支持者和粉丝来说,LibreOffice 无疑是 Microsoft Office 的最佳替代品,而且它已在过去的许多版本迭代中迎来了许多巨大改进.然而,通过用户的手动配置,我们还是有办 ...

机器学习实战 - 读书笔记(05) - Logistic回归

解释

其它说明

参考

机器学习实战 - 读书笔记(05) - Logistic回归的更多相关文章

随机推荐

热门专题