机器学习实战笔记5(logistic回归)

1：简单概念描写叙述

如果如今有一些数据点，我们用一条直线对这些点进行拟合(改线称为最佳拟合直线)，这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合參数，使用的是最优化算法。

基于sigmoid函数分类：logistic回归想要的函数可以接受全部的输入然后预測出类别。这个函数就是sigmoid函数，它也像一个阶跃函数。其公式例如以下：

当中： z = w₀x₀+w₁x₁+….+w_nx_n,w为參数， x为特征

为了实现logistic回归分类器，我们能够在每一个特征上乘以一个回归系数，然后把全部的结果值相加，将这个总和结果代入sigmoid函数中，进而得到一个范围在0~1之间的数值。不论什么大于0.5的数据被分入1类，小于0.5的数据被归入0类。所以，logistic回归也能够被看成是一种概率预计。

梯度上升法：基于的思想是要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。

该公式将一直被迭代运行，直到达到某个停止条件为止，比方迭代次数达到某个指定值或者算法达到某个能够同意的误差范围。

2:python代码的实现

(1) 使用梯度上升找到最佳參数

from numpy import *

#载入数据

def loadDataSet():

    dataMat = []; labelMat = []

    fr = open('testSet.txt')

    for line in fr.readlines():

        lineArr = line.strip().split()

        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

        labelMat.append(int(lineArr[2]))

    return dataMat, labelMat

#计算sigmoid函数

def sigmoid(inX):

    return 1.0/(1+exp(-inX))

#梯度上升算法-计算回归系数

def gradAscent(dataMatIn, classLabels):

    dataMatrix = mat(dataMatIn)          #转换为numpy数据类型

    labelMat = mat(classLabels).transpose()

    m,n = shape(dataMatrix)

    alpha = 0.001

    maxCycles = 500

    weights = ones((n,1))

    for k in range(maxCycles):

        h = sigmoid(dataMatrix*weights)

        error = (labelMat - h)

        weights = weights + alpha * dataMatrix.transpose() * error

    return weights

(2) 画出决策边界

#画出决策边界

def plotBestFit(wei):

    import matplotlib.pyplot as plt

    weights = wei.getA()

    dataMat, labelMat = loadDataSet()

    dataArr = array(dataMat)

    n = shape(dataArr)[0]

    xcord1 = []; ycord1 = []

    xcord2 = []; ycord2 = []

    for i in range(n):

        if int(labelMat[i]) == 1:

            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])

        else: xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker='s')

    ax.scatter(xcord2, ycord2, s = 30, c = 'green')

    x = arange(-3.0, 3.0, 0.1)

    y = (-weights[0]- weights[1]*x)/weights[2]

    ax.plot(x, y)

    plt.xlabel('X1');

    plt.ylabel('X2');

    plt.show()

(3) 随机梯度上升算法

梯度上升算法在处理100个左右的数据集时尚可，但假设有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。改进方法为随机梯度上升算法，该方法一次仅用一个样本点来更新回归系数。它占用更少的计算资源，是一种在线算法，能够在数据到来时就完毕參数的更新，而不须要又一次读取整个数据集来进行批处理运算。一次处理全部的数据被称为批处理。

#随机梯度上升算法

def stocGradAscent0(dataMatrix, classLabels):

    dataMatrix = array(dataMatrix)

    m,n = shape(dataMatrix)

    alpha = 0.1

    weights = ones(n)

    for i in range(m):

        h = sigmoid(sum(dataMatrix[i] * weights))

        error = classLabels[i] - h

        weights = weights + alpha * error * dataMatrix[i]

    return weights

(4) 改进的随机梯度上升算法

#改进的随机梯度上升算法

def stocGradAscent1(dataMatrix, classLabels, numInter = 150):

    dataMatrix = array(dataMatrix)

    m,n = shape(dataMatrix)

    weights = ones(n)

    for j in range(numInter):

        dataIndex = range(m)

        for i in range(m):

            alpha = 4 / (1.0+j+i) + 0.01    #alpha值每次迭代时都进行调整

            randIndex = int(random.uniform(0, len(dataIndex)))            #随机选取更新

            h = sigmoid(sum(dataMatrix[randIndex] * weights))

            error = classLabels[randIndex] - h

            weights = weights + alpha * error * dataMatrix[randIndex]

            del[dataIndex[randIndex]]

    return weights

注意：主要做了三个方面的改进：<1>alpha在每次迭代的时候都会调整，这会缓解数据波动或者高频波动。<2>通过随机选取样本来更新回归系数，这样能够降低周期性波动<3>添加了一个迭代參数

3:案例—从疝气病症预測病马的死亡率

(1) 处理数据中缺失值方法：

可是对于类别标签丢失的数据，我们仅仅能採用将该数据丢弃。

(2) 案例代码

#案例-从疝气病症预測病马的死亡率

def classifyVector(inX, weights):

    prob = sigmoid(sum(inX*weights))

    if prob > 0.5: return 1.0

    else: return 0.0

def colicTest():

    frTrain = open('horseColicTraining.txt')

    frTest = open('horseColicTest.txt')

    trainingSet = []; trainingLabels = []

    for line in frTrain.readlines():

        currLine = line.strip().split('\t')

        lineArr =[]

        for i in range(21):

            lineArr.append(float(currLine[i]))

        trainingSet.append(lineArr)

        trainingLabels.append(float(currLine[21]))

    trainWeights = stocGradAscent1(trainingSet, trainingLabels, 500)

    errorCount = 0; numTestVec = 0.0

    for line in frTest.readlines():

        numTestVec += 1.0

        currLine = line.strip().split('\t')

        lineArr = []

        for i in range(21):

            lineArr.append(float(currLine[i]))

        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):

            errorCount += 1

    errorRate = (float(errorCount)/numTestVec)

    print 'the error rate of this test is: %f' % errorRate

    return errorRate

def multiTest():

    numTests = 10;errorSum = 0.0

    for k in range(numTests):

        errorSum += colicTest()

    print 'after %d iterations the average error rate is: %f' %(numTests, errorSum/float(numTests))

4:总结

Logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合參数，求解过程能够由最优化算法来完毕。在最优化算法中，最经常使用的就是梯度上升算法，而梯度上升算法又能够简化为随机梯度上升算法。

随机梯度上升算法和梯度上升算法的效果相当，但占用更少的计算资源。此外，随机梯度是一种在线算法，能够在数据到来时就完毕參数的更新，而不须要又一次读取整个数据集来进行批处理运算。

注明：1：本笔记来源于书籍<机器学习实战>

2：logRegres.py文件及笔记所用数据在这下载(http://download.csdn.net/detail/lu597203933/7735821).

作者：小村长  出处：http://blog.csdn.net/lu597203933 欢迎转载或分享，但请务必声明文章出处。 （新浪微博：小村长zack, 欢迎交流！）

机器学习实战笔记5(logistic回归)的更多相关文章

《机器学习实战》-逻辑(Logistic)回归
目录 Logistic 回归本章内容回归算法 Logistic 回归的一般过程 Logistic的优缺点基于 Logistic 回归和 Sigmoid 函数的分类 Sigmoid 函数 Logi ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战笔记-k-近邻算法
机器学习实战笔记-k-近邻算法目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结本章介绍了<机器学习实战>这本书中的 ...
机器学习实战 - 读书笔记(05) - Logistic回归
解释 Logistic回归用于寻找最优化算法. 最优化算法可以解决最XX问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设计发动机使得油耗最少而功率最大? 我们可以看 ...
机器学习实战读书笔记(五)Logistic回归
Logistic回归的一般过程 1.收集数据:采用任意方法收集 2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型.另外,结构化数据格式则最佳 3.分析数据:采用任意方法对数据进行分析 4. ...
机器学习实战笔记(Python实现)-04-Logistic回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-08-线性回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-09-树回归
---------------------------------------------------------------------------------------- 本系列文章为<机 ...
机器学习实战笔记-5-Logistic回归
Logistic回归优缺点适用范围优点:计算代价不高,易于理解和实现. 缺点:容易欠拟合,分类精度可能不高. 适用于:数值型和标称型数据. 仅用于二分类原理: 每个特征都乘以一个回归系数> ...

随机推荐

jquery之提示信息
//生成优惠券并分发 function saveCouponAssign(){ //发行券种 var couponTypeId = $("#couponTypeId").combo ...
Curl命令使用方法
Curl是Linux下一个很强大的http命令行工具,其功能十分强大.1) 读取网页$ curl http://www.linuxidc.com2) 保存网页$ curl http://www.lin ...
p标签里面不要放div标签（块元素）
最好不要在p标签里面嵌套块级元素(如div Ul): <p>我来测试下<div>块元素</div>放在p标签的情况</p> <p>我来测试下 ...
用web技术开发出原生的App应用的体会（1）
本人是是个前端小白,学前端已经有半年的时间了,前几天开了个博客,希望记录自己学习历程的点滴. 今天要写的是关于用html,css,javascript等web技术开发原生的app应用. 总所周知,we ...
单例模式（Singleton）详解——转载
单例模式(Singleton) 首先来明确一个问题,那就是在某些情况下,有些对象,我们只需要一个就可以了, 比如,一台计算机上可以连好几个打印机,但是这个计算机上的打印程序只能有一个, 这里就可以通过 ...
［转载］iOS开发：获取设备信息
开发iOS平台的应用的时候,可以获取iOS设备的设备信息,包括设备的名称,设备的机型,设备的iOS版本等等.设备信息主要来自 UIDevice 类. UIDevice *currentDevice = ...
String类的使用说明
(1)Length()取一个字符串的长度:public int length(); public calss StringLength1{ public static void main(String ...
JDBC中PreparedStatement和Statement的区别
共同点: PreparedStatement和Statement都是用来执行SQL查询语句的API之一. 不同点: 在PreparedStatement中,当我们经常需要反复执行一条结构相似的sql语 ...
HTML5画布（圆形）
案例1: <!DOCTYPE html><html><head lang="en"> <meta charset="UTF-8& ...
CoreData学习-最好的一片文章
CoreData学习-最好的一片文章分类: IOS重新上路2014-05-25 18:00 1937人阅读评论(0) 收藏举报目录(?)[+] 写的很好的一篇教程,我什么时候能写出这么 ...

机器学习实战笔记5(logistic回归)

机器学习实战笔记5(logistic回归)的更多相关文章

随机推荐

热门专题