机器学习笔记—Logistic回归

本文申明：本系列笔记全部为原创内容，如有转载请申明原地址出处。谢谢

序言：what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻]数理逻辑;符号逻辑;[军]后勤学， “回归”是由英国著名生物学家兼统计学家高尔顿在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。但是，高尔顿对试验数据进行了深入的分析，发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时，他们的儿子身高比他更高的概率要小于比他更矮的概率；父亲矮于平均身高时，他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律，即这两种身高父亲的儿子的身高，有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力，使人类身高的分布相对稳定而不产生两极分化，这就是所谓的回归效应。这种方法就被称为回归。

那么logistic回归是不是就是用逻辑进行回归分析，然后做出分类？且听下文慢慢道来。

为了简化分析，我们首先把它定义为一个二分问题，例如：

if x>0.5

print 1

else

print 0

对于现实问题，0.5这个地方一定是一个大的跳跃，那我们该如何定义这个函数呢。

那我们就得从我们伟大的前辈那取经了，我们找到一个叫做Sigmoid的东西，这个函数图像如下：

大家看这个函数6不6.

现在我们为了实现logistic回归分类器，我们把数据的特征都乘以一个回归系数（这个回归系数是通过数据学习到的），把这些值加起来，带进我们的sigmoid函数：

，进而得到一个范围在0~1之间的数值，任何大于0.5的数据被分入1类，小于0.5的都被分到0类。所以，logistic回归也可是说是一种概率估计。

既然模型已经建立了，那我们接下来要干嘛呢？那是不是变成了确定那个回归系数，那么我们的分类模型是不是就建立了，但是这个最佳模型系数（回归系数）怎么确定呢？

下面我给出是两种方法，大家看看哪种方法比较好：

方法一：梯度上升算法

梯度上升算法的思想是：函数J(A)在某点A_K的梯度G[J(A_K)]是一个向量，它的方向与过点A_K 的等量面J(A_K)=C的法线方向重合，指向J(A_K)增加的一方，是这个函数变化率最大的方向。相反，负方向就是减少的最快方向，所以求这个函数的最大值或者最小值时，分别沿着正梯度和负梯度方向搜索有可能最快地找到最小值。

梯度算法实现：以梯度上升算法为例，先任意选择一个初始的权向量A₁(一般为0)然后计算A₁上的梯度G[J(A₁)]，从A₁出发在最陡的方向上移动一个距离d（自己设置）到达A₂.那么可以采用下面公式从A_K推到A_K+1.

A_K+1=A_K-d G[J(A_K)]

我们来补充一下什么叫准则函数 （criterion function）：

用具体函数评价系统所采取策略优劣的准则时,称为准则函数。根据实际问题的类型和...准则函数的取值取决于决策者所采取的策略。如果采取某种策略能使准则函数达到最优值时，称这种策略为这种准则的最优策略。

logistic准则函数的定义是：

为什么是这个呢，就是假如我本来属于男性，你非要让我成为女性，是不是分类错误？那么就是负数，我如果是女性你给我分类成男性，是不是也不妥？我们把这些错误的相加，·值越小越好。这样不就可以判别我们的分类器正确率了吗

因为J(A_K)的第j个梯度分量是。。根据准则函数可以看出：

把这个式子带入到A_K+1=A_K-d G[J(A_K)]可得：

梯度上升算法示意图：

你看那个p一步一个脚印似魔鬼的步伐。这样迭代下去就会趋于稳定。

方法二：固定增量算法

梯度算法缺点：

靠近极值时收敛速度减慢。

直线搜索时可能会产生一些问题。

可能会“之字形”地变化。

那么我们提出固定增量算法：

1全部的样本看成一个序列，每当前一步迭代的权向量把某个样本错误分类是，就对这个权向量作一次修正，而不是等当前向量对全部样本计算后在找出错分类的样本集进行修改。

2每次迭代d保持不变。

设现在有两个分类C和B，我们现在要用一个固定算法决定一个超平面A^TY=0，是它能够正确的划分开C和B。开始我们可以任意假定A和B属于决策界面的哪一边。然后依次把A和B中的曾广模式Y取出，计算A与Y的内积A^TY。根据内积，权向量A用以下规则调整;

(1) 如果Y∈C,而A^TY≤0，则用A+Y代替A;

(2) 如果Y∈B,而A^TY≥0，则用A-Y代替A;

(3) 如果Y∈C,而A^TY>0，则A保持不变。

(4) 如果Y∈B,而A^TY<0，则A保持不变。

迭代终止条件：

如果在一次迭代中权向量A已经保持不变，则权向量A即解权向量A^,所以在程序收敛之后就不需要也没必要进行进一步的迭代了。

机器学习笔记—Logistic回归的更多相关文章

机器学习笔记—Logistic 回归
前面我们介绍了线性回归,为捕获训练集中隐藏的线性模型,提高预测准确率,我们寻找最佳参数 θ,使得预测值与真实值误差尽量小,也就是使均方误差最小.而经过验证,最小均方误差是符合最大似然估计理论的. 在 ...
[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习5—logistic回归学习笔记
机器学习实战之logistic回归 test5.py #-*- coding:utf-8 import sys sys.path.append("logRegres.py") fr ...
<机器学习实战>读书笔记--logistic回归
1. 利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 2.sigmoid函数的分类 Sigmoid函数公式定义 3.梯度上升法基本思想:要找 ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
Python机器学习笔记 Logistic Regression
Logistic回归公式推导和代码实现 1,引言 logistic回归是机器学习中最常用最经典的分类方法之一,有人称之为逻辑回归或者逻辑斯蒂回归.虽然他称为回归模型,但是却处理的是分类问题,这主要是因 ...
机器学习基础-Logistic回归1
利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 训练分类器时的做法就是寻找最佳拟合参数,使用的时最优化算法. 优点:计算代价不高,利于理解和实现. ...
吴裕雄--天生自然python机器学习：Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类 ...

随机推荐

综合使用spring cloud技术实现微服务应用
在之前的章节,我们已经实现了配置服务器.注册服务器.微服务服务端,实现了服务注册与发现.这一章将实现微服务的客户端,以及联调.实现整个spring cloud框架核心应用. 本文属于<7天学会s ...
流量工程 traffic engineering (TE)
什么是流量工程流量工程是指根据各种数据业务流量的特性选取传输路径的处理过程.流量工程用于平衡网络中的不同交换机.路由器以及链路之间的负载. [编辑] 流量工程的内容流量工程在复杂的网络环境中,控制 ...
关于图像文章垂直无缝连接滚动——JS实现
<html xmlns="http: ...
软件工程(QLGY2015)第三次作业点评（含成绩）
相关博文目录: 第一次作业点评第二次作业点评第三次作业点评团队信息本页点评团队1-22,其他组见:http://www.cnblogs.com/xiaozhi_5638/p/4490764.h ...
《精通CSS网页布局》读书报告 ----2016-12-5补充
第一章:CSS布局基础 1.CSS的精髓是布局,而不是样式哦! (定要好好的研究布局哦,尤其配合html5) 2. html标签的语义性,要好好的看看哦! 3.DTD:文档类型定义. 4.内联--& ...
oracle递归查询树的SQL语句
来自互联网 SELECT * FROM a_ParkingLot AWHERE A.REGIONID IN( SELECT r.ID FROM a_region r START WITH ...
MySQL中的insert ignore into, replace into等的一些用法总结
在MySQL中进行条件插入数据时,可能会用到以下语句,现小结一下.我们先建一个简单的表来作为测试: CREATE TABLE `books` ( `id` INT(11) NOT NULL AUTO_ ...
python之旅【第一篇】
python简介 python的起源追溯Python语言的起源,是从20世纪90年代初由Guido van Rossum,在阿姆斯特丹,开发一个新的脚本解释程序.不知道Guido当初有没有想到,Py ...
页面打开自动触发onlick事件
<script type="text/javascript"> // 两秒后模拟点击 setTimeout(function() { // IE if(document ...
thinkphp全站静态页实现方法
1:在根目录下的全局index.php中加下面这行: define('HTML_PATH', './htm');//生成静态页面的文件位置 2:在项目的配置文件config.php中加下面这行: 'H ...

机器学习笔记—Logistic回归

机器学习笔记—Logistic回归的更多相关文章

随机推荐

热门专题