机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归

关键字:Logistic回归、python、源码解析、测试
作者:米仓山下
时间:2018-10-26
机器学习实战(Machine Learning in Action,@author: Peter Harrington)
源码下载地址:https://www.manning.com/books/machine-learning-in-action
git@github.com:pbharrin/machinelearninginaction.git

*************************************************************
一、Logistic回归

Sigmoid函数输入为z,z=w0x0+w1x1+w2x2+…wnxn,又写成z=WTX
Sigmoid函数为σ(z)=1/(1+exp(-z))

#Logistic回归分类的原理:训练得到系数矩阵W,将位置特征向量带入Sigmoid,计算得到一个位于0~1之间的数,大于0.5则属于1类,小于0.5则属于0类。

梯度上升法:要找到某个函数的最大值,最好的方法就是沿着该函数梯度的方向探寻。如果梯度记为▽,则函数f(x,y)的梯度表示为:

梯度上升算法到达每个点后都会重新估计移动的方向。从P0开始,计算该点的梯度,函数就根据梯度移动到下一个点P1。在P1点,梯度再次被重新计算,并沿新的梯度方向移动到P2。如此迭代,直到满足停止条件。迭代的过程中,梯度算子总是保证我们能够取到最佳的移动方向。

梯度的方向就是导数最大值的方向,即函数变化率最快的方向。梯度可以通过对函数求导得到。向梯度相反方向移动保证每一次迭代都在减少下降局部全局最小值

用向量来表示的话,梯度算法的迭代公式为:w:=w+α▽wf(w)公式一直迭代下去,直到某个指定值或算法达到某个可以允许的误差范围。
这本书中用的是梯度上升,平时听到比较多的是梯度下降法,其实是一样的,只是移动的方向不同:梯度上升用来求解最大值,梯度下降用来求解最小值。接触过深度学习就知道,梯度下降在求解参数矩阵时非常重要。

主要看两个函数:

#Logistic函数σ(z)=1/(1+exp(-z))
def sigmoid(inX):
return 1.0/(1+exp(-inX)) #Logistic回归梯度上升优化算法
def gradAscent(dataMatIn, classLabels):
dataMatrix = mat(dataMatIn) #convert to NumPy matrix
labelMat = mat(classLabels).transpose() #convert to NumPy matrix
m,n = shape(dataMatrix)
alpha = 0.001 #移动步长
maxCycles = 500 #迭代次数
weights = ones((n,1)) #初始化系数向量
for k in range(maxCycles): #heavy on matrix operations
h = sigmoid(dataMatrix*weights) #matrix mult
error = (labelMat - h) #[注].vector subtraction
weights = weights + alpha * dataMatrix.transpose()* error #[注].matrix mult
return weights

[注]书中省略了梯度的推导过程。构造的损失函数为P(y|x;θ)=(hθ(x))^y * (1-hθ(x))^(1-y),其中h即Logistic函数σ,取其似然函数和最大似然函数,求最大似然估计,然后求导就可以得到上面的结果。参考网址************或则书*******
--------------------------------------------------------------
测试:

>>> import logRegres
>>> data,lable=logRegres.loadDataSet()
>>> w=logRegres.gradAscent(data,lable)
>>> w
matrix([[ 4.12414349],
[ 0.48007329],
[-0.6168482 ]])
>>>
#画出决策边界
>>> logRegres.plotBestFit(w.getA())
>>>


(图-画出决策边界)
--------------------------------------------------------------
方法优化1:随机梯度上升————每次迭代仅用一个样本点来更新回归系数。
对应logRegres.stocGradAscent0方法,迭代次数为数据的条数

方法优化2:改进的随机梯度上升————每次迭代时,调整alpha大小,alpha = 4/(1.0+j+i)+0.0001
alpha随着迭代次数增加不断减小,但又不等于零

--------------------------------------------------------------
#分类函数,在求得参数weights后将其和测试数据inX(向量)带入如下公式,就可以完成二类判别

def classifyVector(inX, weights):
prob = sigmoid(sum(inX*weights))
if prob > 0.5: return 1.0
else: return 0.0

*************************************************************
二、示例:从疝气病症预测马的死亡率

处理数据中的缺失值的方法:
#使用可用特征的均值来填补缺失值;
#使用特殊值来填补缺失值,如-1;
#忽略有缺失值的样本;
使用相似样本均值补缺缺失值;
使用另外的机器学习算法预测缺失值

这个例子中用了0来补缺失值,数据包含28个特征和1列标签(分类两类),horseColicTraining.txt为训练数据,horseColicTest.txt为测试数据。
使用改进的随机梯度上升stocGradAscent1算法,对数据进行测试

>>> logRegres.colicTest()#colicTest()为循环训练1000次再进行测试的效果
logRegres.py:: RuntimeWarning: overflow encountered in exp
return 1.0/(+exp(-inX))
the error rate of this test is: 0.373134
0.373134328358209
>>>
>>> logRegres.multiTest()#colicTest()执行10次的平均错误率
the error rate of this test is: 0.343284
the error rate of this test is: 0.358209
the error rate of this test is: 0.343284
the error rate of this test is: 0.343284
the error rate of this test is: 0.268657
the error rate of this test is: 0.253731
the error rate of this test is: 0.343284
the error rate of this test is: 0.268657
the error rate of this test is: 0.447761
the error rate of this test is: 0.283582
after iterations the average error rate is: 0.325373
>>>

其他代码:

sigmoidPlot.py  #s = 1/(1 + exp(-t))函数在[-5,5]和[-60,60]上的形态对比
plotSDerror.py  #stocGradAscent1算法,在迭代过程中,三个参数的变化趋势
plotGD.py       #梯度下降示意图
plot2D.py       #stocGradAscent0进行梯度下降,决策边界

机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归的更多相关文章

  1. 学习笔记之机器学习实战 (Machine Learning in Action)

    机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...

  2. K近邻 Python实现 机器学习实战(Machine Learning in Action)

    算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...

  3. 机器学习实战 [Machine learning in action]

    内容简介 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存.谋发展的决定性手段,这使得这一过去为分析师和数学家所专属 ...

  4. 机器学习实战 - 读书笔记(05) - Logistic回归

    解释 Logistic回归用于寻找最优化算法. 最优化算法可以解决最XX问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设计发动机使得油耗最少而功率最大? 我们可以看 ...

  5. Coursera 机器学习 第6章(下) Machine Learning System Design 学习笔记

    Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Buil ...

  6. 【python与机器学习实战】感知机和支持向量机学习笔记(一)

    对<Python与机器学习实战>一书阅读的记录,对于一些难以理解的地方查阅了资料辅以理解并补充和记录,重新梳理一下感知机和SVM的算法原理,加深记忆. 1.感知机 感知机的基本概念 感知机 ...

  7. Machine Learning(Andrew Ng)学习笔记

    1.监督学习(supervised learning)&非监督学习(unsupervised learning) 监督学习:处理具有若干属性且返回值不同的对象.分为回归型和分类型:回归型的返回 ...

  8. Machine Learning With Spark学习笔记(在10万电影数据上训练、使用推荐模型)

    我们如今開始训练模型,还输入參数例如以下: rank:ALS中因子的个数.通常来说越大越好,可是对内存占用率有直接影响,通常rank在10到200之间. iterations:迭代次数,每次迭代都会降 ...

  9. Machine Learning With Spark学习笔记(提取10万电影数据特征)

    注:原文中的代码是在spark-shell中编写运行的,本人的是在eclipse中编写运行,所以结果输出形式可能会与这本书中的不太一样. 首先将用户数据u.data读入SparkContext中.然后 ...

随机推荐

  1. tensorflow进阶篇-5(反向传播1)

    这里将讲解tensorflow是如何通过计算图来更新变量和最小化损失函数来反向传播误差的:这步将通过声明优化函数来实现.一旦声明好优化函数,tensorflow将通过它在所有的计算图中解决反向传播的项 ...

  2. 磁盘分区(20G升50G)

      不多说,直接上干货! 本博文的主要内容有 .磁盘分区的概述 .常用的磁盘管理工具    ./下分5G,给/home扩容    .系统自带的fdisk和parted这两款工具 .磁盘空间管理 前言 ...

  3. mycat ER 分片表

    <table name="order" dataNode="dn$1-32" rule="mod-long"> <chil ...

  4. Java-Reflection反射-获取包括父类在内的所有字段

    前言 今天Android移动端要加个新功能,所以回归Android程序员的身份.开发的过程中,发现了之前的代码写的有很多问题,真的应该把时间抽出来重构一下了. 其中有反射的一个坑,工具类某方法反射获取 ...

  5. Solidity字符串和函数

    字符串:需要使用双引号""或者单引号''括起来,例如:定义一个字符串变量:string name="jake":string字符串不能通过length方法获得长 ...

  6. 【转】Java中堆和栈的区别

    Java的堆是一个运行时数据区,类的对象从中分配空间.这些对象通过new.newarray.anewarray和multianewarray等 指令建立,它们不需要程序代码来显式的释放.堆是由垃圾回收 ...

  7. JSONPath使用说明

    # JSONPath - XPath for JSON A frequently emphasized advantage of XML is the availability of plenty t ...

  8. 【Leetcode】338. Bit位计数

    每次刷leetcode都有一种发现新大陆的感觉. 题目链接:https://leetcode-cn.com/problems/counting-bits/description/ 给定一个非负整数 n ...

  9. Netty 高性能之道 - Recycler 对象池的复用

    前言 我们知道,Java 创建一个实例的消耗是不小的,如果没有使用栈上分配和 TLAB,那么就需要使用 CAS 在堆中创建对象.所以现在很多框架都使用对象池.Netty 也不例外,通过重用对象,能够避 ...

  10. 设计模式学习--面向对象的5条设计原则之开放封闭原则--OCP

    一.OCP简介(OCP--Open-Closed Principle):Software entities(classes,modules,functions,etc.) should be open ...