Logistic回归python实现

2017-08-12

Logistic 回归，作为分类器：

分别用了梯度上升，牛顿法来最优化损失函数：

 # -*- coding: utf-8 -*-

 '''

 function: 实现Logistic回归，拟合直线，对数据进行分类；

             利用梯度上升，随机梯度上升，改进的随机梯度上升，牛顿法分别对损失函数优化；

             这里没有给出最后测试分类的函数；

 date: 2017.8.12

 '''

 from numpy import *

 #从文件加载处理数据

 def loadDataSet():

     dataMat = []

     labelMat = []

     fr = open('testSet.txt')

     for line in fr.readlines():

         lineArr = line.strip().split()

         dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

         labelMat.append(int(lineArr[2]))

     return dataMat, labelMat

 #sigmoid function X: w1*x1+w2*x2+...+wn*xn

 def sigmoid(x):

     return 1 / (1 + exp(-x))

 #梯度上升求函数的最大值时取得的权重

 def gradAscent(dataMatIn, classLabels):

     dataMatrix = mat(dataMatIn)

     labelMat = mat(classLabels).transpose()   #将m维行向量转制为m维列向量

     m,n = shape(dataMatrix)

     alpha = 0.001 #设置梯度上升的步长

     maxCycles = 500 #最大迭代次数

     weights = ones((n,1))  #weights就是theta，n维列向量,二维数组

     for i in range(maxCycles):

         h = sigmoid(dataMatrix*weights)  #计算所有数据的分类概率，h是m维向量,这里实际上进行了300次乘法运算

         error = labelMat - h #计算(y-h(x))：误差

         weights = weights + alpha * dataMatrix.transpose()*error #对所有weights同时更新

     print('shape of weights', shape(weights))

     return weights

 #随机上升上升

 def stocGradAscent0(dataMatrix, classLabels):

     m,n = shape(dataMatrix)

     alpha = 0.01

     weights = ones(n, float) #n 维行向量

     for i in range(m):

         h = sigmoid(sum(dataMatrix[i] * weights))

         error = classLabels[i] - h

         weights = weights + alpha * error * dataMatrix[int(i)]

     return weights

 #改进的随机上升上升

 def stocGradAscent1(dataMatrix, classLabels, numIter = 550):

     m,n = shape(dataMatrix)

     weights = ones(n)

     dataIndex = []

     for j in range(numIter):

         for k in range(m):

             dataIndex.append(k)

         for i in range(m):

             alpha = 4 / (i + j + 1.0) + 0.01 #aloha随着迭代次数增多不断减小但是不为0，为了解决局部波动

             randIndex = int(random.uniform(0, len(dataIndex))) #随机选取一个数据进行更新参数

             h = sigmoid(dataMatrix[randIndex] * weights)

             error = classLabels[randIndex] - h

             weights = weights + alpha * error * dataMatrix[randIndex]

             del(dataIndex[randIndex]) #这里会不会对本来的dataMatrix有影响,不会，因为没有操作矩阵

     return weights

 '''

 functuion: 牛顿法更新theta,计算海森矩阵

 note: 这里一定要对 XT*X 结果求逆，不然分类效果无法直视

 '''

 def computeHessianMatrix(dataMatrix):

     hessianMatrix = mat(dataMatrix).transpose().dot(mat(dataMatrix))

     return hessianMatrix.I #矩阵求逆

 '''

 function: 牛顿法更新theta

 '''

 def newtonMethod(dataMat, labelMat, numIter = 10):

     m,n = shape(dataMat)

     dataMatrix = mat(dataMat)

     labelMat = mat(labelMat).transpose()

     weights = ones((n,1)) #参数向量

     hessianMatrix = computeHessianMatrix(dataMatrix)

     print('shape of hessian', shape(hessianMatrix))

     for k in range(numIter):

         h = sigmoid(dataMatrix * weights)

         error = (labelMat - h)

         weights = weights - (dataMatrix*hessianMatrix).transpose() * error

     return weights

 #画出决策边界

 def plotBestFit(weights):

     import matplotlib.pyplot as plt

     dataMat, labelMat = loadDataSet() #或取数据和标签

     dataArr = array(dataMat) #将二维列表转换为数组

     n = shape(dataArr)[0] #行数，代表数据的个数

     xcord1 = []; ycord1 = []

     xcord2 = []; ycord2 = []

     for i in range(n):

         if int(labelMat[i]) == 1:

             xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])

         else:

             xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])

     fig = plt.figure()

     ax = fig.add_subplot(111)

     ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker = 's')

     ax.scatter(xcord2, ycord2, s = 30, c = 'green')

     x = arange(-3.0, 3.0, 0.1)

     print(len(x))

     print(len(weights))

     print(shape(weights))

     y = (-weights[0] -  weights[1]*x) / weights[2] #把x2堪称y,x0=1,所以就是x1,x2之间的函数

     print(len(y))

     ax.plot(x,y)

     plt.xlabel('X1'); plt.ylabel('X2')

     plt.show() #显示图像

 '''

 function: 对测试数据进行测试

 input: testDate 是一个向量，或者多个向量

 '''

 def logisticTest(weights, testData):

     m,n = shape(testData)

     typeLabel = []

     for i in range(m):

         result = sigmoid(sum(testData[i] * weights)) #得到一个册数数据的概率

         if result > 0.5:

             typeLabel.append(1)

         else:

             typeLabel.append(0)

     return typeLabel

 '''

 function: 计算分类的正确率

 input: calssLables 是测试数据的类别向量

 '''

 def getCorrectRate(classLabels, testLabel):

     correctRate = 0.0

     numOfRight = 0

     for i in range(len(testLabel)):

         if classLabels[i] == testLabel[i]:

             numOfRight += 1

     correctRate = numOfRight / float(len(testLabel))

     return correctRate

 #测试算法

 dataMat, labelMat = loadDataSet()

 print('shape of datamet, ', shape(dataMat))

 weights1 = gradAscent(dataMat, labelMat)

 weights2 = stocGradAscent0(array(dataMat), labelMat)

 weights3 = stocGradAscent1(dataMat, labelMat)

 weights4 = newtonMethod(dataMat, labelMat, 2000) #牛顿法

 #测试正确率

 typeLabel = logisticTest(weights4, [[1,1,0],[1,1,1]])

 print(typeLabel)

 correctRate = getCorrectRate([1,0],typeLabel)

 print('正确率： ' ,str(correctRate))

 #画图

 #plotBestFit(array(weights1)) #这里因为普通梯度上升返回的是一个矩阵，所以要转换为向量

 #plotBestFit(weights2)

 #plotBestFit(weights3)

 plotBestFit(array(weights4))

# -*- coding: utf-8 -*-
'''function: 实现Logistic回归，拟合直线，对数据进行分类；利用梯度上升，随机梯度上升，改进的随机梯度上升，牛顿法分别对损失函数优化；这里没有给出最后测试分类的函数；date: 2017.8.12'''
from numpy import *
#从文件加载处理数据def loadDataSet():dataMat = []labelMat = []fr = open('testSet.txt')for line in fr.readlines():lineArr = line.strip().split()dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])labelMat.append(int(lineArr[2]))return dataMat, labelMat
#sigmoid function X: w1*x1+w2*x2+...+wn*xndef sigmoid(x):return 1 / (1 + exp(-x))
#梯度上升求函数的最大值时取得的权重def gradAscent(dataMatIn, classLabels):dataMatrix = mat(dataMatIn)labelMat = mat(classLabels).transpose() #将m维行向量转制为m维列向量m,n = shape(dataMatrix)alpha = 0.001 #设置梯度上升的步长maxCycles = 500 #最大迭代次数 weights = ones((n,1)) #weights就是theta，n维列向量,二维数组for i in range(maxCycles):h = sigmoid(dataMatrix*weights) #计算所有数据的分类概率，h是m维向量,这里实际上进行了300次乘法运算error = labelMat - h #计算(y-h(x))：误差weights = weights + alpha * dataMatrix.transpose()*error #对所有weights同时更新print('shape of weights', shape(weights))return weights
#随机上升上升def stocGradAscent0(dataMatrix, classLabels):m,n = shape(dataMatrix)alpha = 0.01weights = ones(n, float) #n 维行向量for i in range(m):h = sigmoid(sum(dataMatrix[i] * weights))error = classLabels[i] - hweights = weights + alpha * error * dataMatrix[int(i)]return weights
#改进的随机上升上升def stocGradAscent1(dataMatrix, classLabels, numIter = 550):m,n = shape(dataMatrix)weights = ones(n)dataIndex = []for j in range(numIter):for k in range(m):dataIndex.append(k)for i in range(m):alpha = 4 / (i + j + 1.0) + 0.01 #aloha随着迭代次数增多不断减小但是不为0，为了解决局部波动randIndex = int(random.uniform(0, len(dataIndex))) #随机选取一个数据进行更新参数h = sigmoid(dataMatrix[randIndex] * weights)error = classLabels[randIndex] - hweights = weights + alpha * error * dataMatrix[randIndex]del(dataIndex[randIndex]) #这里会不会对本来的dataMatrix有影响,不会，因为没有操作矩阵return weights
'''functuion: 牛顿法更新theta,计算海森矩阵note: 这里一定要对 XT*X 结果求逆，不然分类效果无法直视'''def computeHessianMatrix(dataMatrix):hessianMatrix = mat(dataMatrix).transpose().dot(mat(dataMatrix))return hessianMatrix.I #矩阵求逆
'''function: 牛顿法更新theta'''def newtonMethod(dataMat, labelMat, numIter = 10):m,n = shape(dataMat)dataMatrix = mat(dataMat)labelMat = mat(labelMat).transpose()weights = ones((n,1)) #参数向量hessianMatrix = computeHessianMatrix(dataMatrix)print('shape of hessian', shape(hessianMatrix))for k in range(numIter):h = sigmoid(dataMatrix * weights)error = (labelMat - h)weights = weights - (dataMatrix*hessianMatrix).transpose() * error return weights
#画出决策边界def plotBestFit(weights):import matplotlib.pyplot as pltdataMat, labelMat = loadDataSet() #或取数据和标签dataArr = array(dataMat) #将二维列表转换为数组n = shape(dataArr)[0] #行数，代表数据的个数
xcord1 = []; ycord1 = []xcord2 = []; ycord2 = []for i in range(n):if int(labelMat[i]) == 1:xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])else:xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
fig = plt.figure()ax = fig.add_subplot(111)ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker = 's')ax.scatter(xcord2, ycord2, s = 30, c = 'green')x = arange(-3.0, 3.0, 0.1)print(len(x))print(len(weights))print(shape(weights))y = (-weights[0] - weights[1]*x) / weights[2] #把x2堪称y,x0=1,所以就是x1,x2之间的函数print(len(y))ax.plot(x,y) plt.xlabel('X1'); plt.ylabel('X2')plt.show() #显示图像
'''function: 对测试数据进行测试input: testDate 是一个向量，或者多个向量'''def logisticTest(weights, testData):m,n = shape(testData)typeLabel = []for i in range(m): result = sigmoid(sum(testData[i] * weights)) #得到一个册数数据的概率if result > 0.5:typeLabel.append(1)else:typeLabel.append(0)return typeLabel
'''function: 计算分类的正确率input: calssLables 是测试数据的类别向量'''def getCorrectRate(classLabels, testLabel):correctRate = 0.0numOfRight = 0for i in range(len(testLabel)):if classLabels[i] == testLabel[i]:numOfRight += 1correctRate = numOfRight / float(len(testLabel))return correctRate
#测试算法dataMat, labelMat = loadDataSet()print('shape of datamet, ', shape(dataMat))weights1 = gradAscent(dataMat, labelMat)weights2 = stocGradAscent0(array(dataMat), labelMat)weights3 = stocGradAscent1(dataMat, labelMat)
weights4 = newtonMethod(dataMat, labelMat, 2000) #牛顿法

#测试正确率typeLabel = logisticTest(weights4, [[1,1,0],[1,1,1]])print(typeLabel)correctRate = getCorrectRate([1,0],typeLabel)print('正确率： ' ,str(correctRate))
#画图#plotBestFit(array(weights1)) #这里因为普通梯度上升返回的是一个矩阵，所以要转换为向量#plotBestFit(weights2)#plotBestFit(weights3)plotBestFit(array(weights4))

Logistic回归python实现的更多相关文章

Logistic回归 python实现
Logistic回归算法优缺点: 1.计算代价不高,易于理解和实现2.容易欠拟合,分类精度可能不高3.适用数据类型:数值型和标称型算法思想: 其实就我的理解来说,logistic回归实际上就是加了 ...
Logistic回归python实现小样例
假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类.Lo ...
机器学习实战 logistic回归 python代码
# -*- coding: utf-8 -*- """ Created on Sun Aug 06 15:57:18 2017 @author: mdz "&q ...
logistic回归 python代码实现
本代码参考自:https://github.com/lawlite19/MachineLearning_Python/blob/master/LogisticRegression/LogisticRe ...
Logistic回归模型和Python实现
回归分析是研究变量之间定量关系的一种统计学方法,具有广泛的应用. Logistic回归模型线性回归先从线性回归模型开始,线性回归是最基本的回归模型,它使用线性函数描述两个变量之间的关系,将连续或离 ...
【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）
目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理详见博文:http://www.cnblogs.com/itmorn/p/7890468 ...
【机器学习速成宝典】模型篇03逻辑斯谛回归【Logistic回归】（Python版）
目录一元线性回归.多元线性回归.Logistic回归.广义线性回归.非线性回归的关系什么是极大似然估计逻辑斯谛回归(Logistic回归) 多类分类Logistic回归 Python代码(skl ...
吴裕雄--天生自然python机器学习：使用Logistic回归从疝气病症预测病马的死亡率
,除了部分指标主观和难以测量外,该数据还存在一个问题,数据集中有 30%的值是缺失的.下面将首先介绍如何处理数据集中的数据缺失问题,然后再利用 Logistic回归和随机梯度上升算法来预测 ...
吴裕雄--天生自然python机器学习：Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类 ...

随机推荐

PMP杂谈--项目组织，矩阵组织，职能型组织，复合型组织
(1)项目组织的优缺点:优:项目经理权力大:缺:解散时焦虑.没有提拔权力,不利于专业技术积累,设备反复.难以保证资源的充分利用. (2)矩阵组织的优缺点:优:资源利用率高,横向信息沟通.项目经理权力提 ...
Handler classes should be static or leaks might occur
http://droidyue.com/blog/2014/12/28/in-android-handler-classes-should-be-static-or-leaks-might-occur ...
TP数据查询
[数据查询] select()是数据模型的一个指定方法,可以获得数据表的数据信息返回一个二维数组信息,当前数据表的全部数据信息 $obj = D(); 创建对象 $obj -> select ...
sql duplicate key
本文来自:高爽,转载请注明. 向数据库插入记录时,有时会有这种需求,当符合某种条件的数据存在时,去修改它,不存在时,则新增,也就是saveOrUpdate操作.这种控制可以放在业务层,也可以放在数据库 ...
MVC action 执行两次 background url()
大年初七第一天上班就来解决问题,我也是醉了. 其实是历史遗留问题,今天看到后不能忍了,赶紧解决一下. 旧系统中以一个微信版本的列表页面没有问题,在新系统中重新开发一边后发现列表页面的action总是请 ...
NPOI操作Excel常用函数
最近因项目接触了NPOI,感觉还是蛮不错的,网络上的教程普遍版本较老,本篇记录所常用操作,采用NPOI 2.0版本. 推荐: NPOI官方网站 NPOI 1.2.4/1.2.5 官方教程新建Exce ...
第七课 nodejs请求响应
1 server.js 接收请求接收请求参数和接收完成需要对request增加两个监听事件 var http = require('http');var url = require('url');f ...
在使用NavigationController情况下的布局的Y轴的起始位置
在有的时候,当一个ViewController被push进一个NavigationController的时候,view上会有一个高度为64的NavigationBar(除非主动隐藏了Navigatio ...
检测当前的语言环境是否使用了 UTF-8 编码（三篇文章：先用setlocale()设置编码，再用nl_langinfo()进行检测。locale对象可以使用langLocale.name() == "zh_CN"判断）
C/C++程序中,locale(即系统区域设置,即国家或地区设置)将决定程序所使用的当前语言编码.日期格式.数字格式及其它与区域有关的设置,locale设置的正确与否将影响到程序中字符串处理(wcha ...
R语言（一）
向量运算 R的强大功能之一就是把整个数据向量作为一个单一对象来处理.一个数据向量仅是数字的排列,一个向量可以通过如下方式构造 weight<-c(,,,) weight [] 结构c(--)用来 ...

Logistic回归python实现

Logistic回归python实现的更多相关文章

随机推荐

热门专题