机器学习实战之logistic回归分类

利用logistic回归进行分类的主要思想：根据现有数据对分类边界建立回归公式，并以此进行分类。

logistic优缺点：

优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。 .
适用数据类型：数值型和标称型数据。

sigmoid函数：

梯度上升法：

梯度：

该公式将一直被迭代执行，直至达到某个停止条件为止，比如迭代次数达到某个指定值或算
法达到某个可以允许的误差范围。

随机梯度上升法：

梯度上升算法在每次更新回归系数时都需要遍历整个数据集, 该方法在处理100个左右的数
据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。一种
改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法。由于可以在新
样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。与 “ 在线学
习”相对应，一次处理所有数据被称作是“批处理” 。

梯度下降法：

你最经常听到的应该是梯度下降算法，它与这里的梯度上升算法是一样的，只是公式中的
加法需要变成减法。因此，对应的公式可以写成:

梯度上升算法用来求函数的最大值，而梯度下降算法用来求函数的最小值。

logistic预测疝气病预测病马的死亡率代码：

%matplotlib inline

import matplotlib.pyplot as plt

import numpy as np

import random

# 加载数据集

def loadDataSet():

    dataMat = []

    labelMat = []

    fr = open('./testSet.txt')

    for line in fr.readlines():

        lineData = line.strip().split()

        dataMat.append([1.0, float(lineData[0]), float(lineData[1])])

        labelMat.append(int(lineData[2]))

    return dataMat, labelMat

# sigmoid 函数

def sigmoid(inX):

    return 1.0 / (1 + np.exp(-inX))

# 梯度上升

def gradAscent(dataMatIn, classLabels, maxCycles):

    dataMatrix = np.mat(dataMatIn)

    labelsMatrix = np.mat(classLabels).transpose() # 转置，将行向量转置为列向量

    m, n = np.shape(dataMatrix)

    alpha = 0.001

    W = np.ones((n, 1))

    for i in range(maxCycles):

        h = sigmoid(dataMatrix * W) # (100, 1)

        error = labelsMatrix - h # (100, 1)

        W = W + alpha * dataMatrix.transpose() * error # (3, 100) * (100, 1)

    return W 

#改进版随机梯度上升

def stocGradAscent1(dataMatrixIn, classLabels, numIter=150):

    dataMatrix = np.array(dataMatrixIn)

    m,n = np.shape(dataMatrix)

    weights = np.ones(n)   #initialize to all ones

    for j in range(numIter):

        dataIndex = list(range(m))

        for i in range(m):

            alpha = 4.0/(1.0+j+i)+0.01    #apha decreases with iteration, does not

            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant

            h = sigmoid(sum(dataMatrix[randIndex]*weights))

            error = classLabels[randIndex] - h

            weights = weights + alpha * error * dataMatrix[randIndex]

            del(dataIndex[randIndex])

    return np.mat(weights.reshape(n, 1))

def plotBestFit(weights, dataMat, labelMat):

    dataArr = np.array(dataMat)

    n = np.shape(dataArr)[0]

    xcord1 = []; ycord1 = []

    xcord2 = []; ycord2 = []

    for i in range(n):

        if labelMat[i] == 1:

            xcord1.append(dataArr[i, 1]); ycord1.append(dataArr[i, 2])

        else:

            xcord2.append(dataArr[i, 1]); ycord2.append(dataArr[i, 2])

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker = 's')

    ax.scatter(xcord2, ycord2, s = 30, c = 'green')

    x = np.arange(-4.0, 4.0, 0.1)

    y = ((np.array((-weights[0] - weights[1] * x) / weights[2]))[0]).transpose()

    ax.plot(x, y)

    plt.xlabel('X1')

    plt.ylabel('X2')

    plt.show()

# 预测

def classifyVector(inX, weights):

    prob = sigmoid(sum(inX * weights))

    if prob > 0.5:

        return 1.0

    else:

        return 0.0

# 对训练集进行训练，并且对测试集进行测试

def colicTest():

    trainFile = open('horseColicTraining.txt')

    testFile = open('horseColicTest.txt')

    trainingSet = []; trainingLabels = []

    for line in trainFile.readlines():

        currLine = line.strip().split('\t')

        lineArr = []

        for i in range(21):

            lineArr.append(float(currLine[i]))

        trainingSet.append(lineArr)

        trainingLabels.append(float(currLine[21]))

    # 开始训练

    weights = stocGradAscent1(trainingSet, trainingLabels, 400)

    errorCount = 0.0

    numTestVec = 0.0

    for line in testFile.readlines():

        numTestVec += 1.0

        currLine = line.strip().split('\t')

        lineArr = []

        for i in range(21):

            lineArr.append(float(currLine[i]))

        if int(classifyVector(np.array(lineArr), weights)) != int(currLine[21]):

            errorCount += 1.0

    errorRate = errorCount / float(numTestVec)

    print("the error rate is:%f" % errorRate)

    return errorRate

# 多次测试求平均值

def multiTest():

    testTimes = 10

    errorRateSum = 0.0

    for i in range(testTimes):

        errorRateSum += colicTest()

    print("the average error rate is:%f" % (errorRateSum / float(testTimes)))

multiTest()

机器学习实战之logistic回归分类的更多相关文章

机器学习实战之Logistic回归
Logistic回归一.概述 1. Logistic Regression 1.1 线性回归 1.2 Sigmoid函数 1.3 逻辑回归 1.4 LR 与线性回归的区别 2. LR的损失函数 3. ...
05机器学习实战之Logistic 回归
Logistic 回归概述 Logistic 回归或者叫逻辑回归虽然名字有回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式, ...
《机器学习实战》Logistic回归
注释:Ng的视频有完整的推到步骤,不过理论和实践还是有很大差别的,代码实现还得完成 1.Logistic回归理论 http://www.cnblogs.com/wjy-lulu/p/7759515.h ...
05机器学习实战之Logistic 回归scikit-learn实现
https://blog.csdn.net/zengxiantao1994/article/details/72787849似然函数原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概 ...
Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
机器学习(4)之Logistic回归
机器学习(4)之Logistic回归 1. 算法推导与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题.回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一 ...
第七篇：Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
机器学习实战-logistic回归分类
基于LR的回归分类实例概念前提理解: 机器学习的三个步骤:模型,损失函数(即样本误差),优化求解(通过损失函数,使得模型的样本误差最小或小于阈值,求出满足条件的参数,优化求解包括:最小二乘法,梯度 ...
机器学习实践之Logistic回归
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2017年12月17日 19:18:31所撰写内容(http://blog.cs ...

随机推荐

gradle环境搭建
最近我在尝试了解跨平台技术的发展,首先则是想到了cordova.环境配置过程中有依赖gradle,下面简单记录了在windos10系统下搭建gradle环境的过程. 什么是gradle Gradle是 ...
C#构造方法(构造函数)
构造方法特点: 一 ,与类同名 public class Product { public int ID { get; set; } public String NAME { get; set; } ...
C#面向对象-多态
面向对象的三大特性(封装,继承,多态)大多少人都应该知道.前两个的话比较容易理解.本文主要说一下面向对象中的多态. 什么是多态?不同的对象对同一操作,产生不同的执行结果.这就是多态.那么多态又包含了: ...
mysql 查询存在A表中而不存在B表中的数据
有两张表,学生信息表infolist: 学生姓名表namelist: 现要查询出,存在infolist中,而不存在namelist中的学生,语句如下: select * from infolist w ...
Vue+ElementUI的后台管理框架
新开发的一个后台管理系统.在框架上,领导要用AdminLTE这套模板.这个其实很简单,把该引入的样式和js文件引入就可以了.这里就不多赘述了.有兴趣的可以参考:https://www.jianshu. ...
《2019年小米春季上海 PHP 实习生招聘面试题》部分答案解析
1 丶 Nginx 怎么实现负载均衡这个还是比较简单 1.轮询这种是默认的策略,把每个请求按顺序逐一分配到不同的 server,如果 server 挂掉,能自动剔除. 2.最少连接把请求分配到连 ...
用二进制写程序，提升装 X 境界
用二进制来写程序这么反人类的事情,的确是很装的事情,但是它不但是一件很装的事情,也是掌握底层知识的基础能力之一.听我慢慢道来. 程序设计语言有高级语言和低级语言之分,尤其是现在各种编程语言的不断发展, ...
javascript中的定时器入门
JavaScript提供定时器(timer)的功能,可以延期执行或重复执行函数或代码段. window对象提供了三个方法来实现定时器的效果,分别是setTimeout().setInternal()和 ...
解决root无法登陆
今天重装了一下虚拟机,用filezilla往Linux扔文件需要用root的超级权限,但是却不能建立连接,使用账号密码也无法登录root账户鼓捣好一阵才知道,因为root权限太高了,可以针对root ...
#w29 2019年大前端技术周刊
本周是2019年第29周移动端移动开发十周年总结相对于持续几百年工业革命,移动互联网的发展是短暂的.在这十几年的发展中,为了满足开源和节流的涌现出很多技术.接下来我们将会以开发方式的演进.基建与 ...

机器学习实战之logistic回归分类

机器学习实战之logistic回归分类的更多相关文章

随机推荐

热门专题