机器学习算法的Python实现 (1)：logistics回归与线性判别分析（LDA）

先收藏。。。。。。。。。。。。

本文为笔者在学习周志华老师的机器学习教材后，写的课后习题的的编程题。之前放在答案的博文中，现在重新进行整理，将需要实现代码的部分单独拿出来，慢慢积累。希望能写一个机器学习算法实现的系列。

本文主要包括：

1、logistics回归

2、python库：

numpy
matplotlib
pandas

使用的数据集：机器学习教材上的西瓜数据集3.0α

Idx	density	ratio_sugar	label
1	0.697	0.46	1
2	0.774	0.376	1
3	0.634	0.264	1
4	0.608	0.318	1
5	0.556	0.215	1
6	0.403	0.237	1
7	0.481	0.149	1
8	0.437	0.211	1
9	0.666	0.091	0
10	0.243	0.0267	0
11	0.245	0.057	0
12	0.343	0.099	0
13	0.639	0.161	0
14	0.657	0.198	0
15	0.36	0.37	0
16	0.593	0.042	0
17	0.719	0.103	0

logistic回归：

参考《机器学习实战》的内容。本题分别写了梯度上升方法以及随机梯度上升方法。对书本上的程序做了一点点改动

# -*- coding: cp936 -*-

from numpy import *

import pandas as pd

import matplotlib.pyplot as plt  

#读入csv文件数据

df=pd.read_csv('watermelon_3a.csv')

m,n=shape(dataMat)

df['norm']=ones((m,1))

dataMat=array(df[['norm','density','ratio_sugar']].values[:,:])

labelMat=mat(df['label'].values[:]).transpose()  

#sigmoid函数

def sigmoid(inX):

    return 1.0/(1+exp(-inX))  

#梯度上升算法

def gradAscent(dataMat,labelMat):

    m,n=shape(df.values)

    alpha=0.1

    maxCycles=500

    weights=array(ones((n,1)))  

    for k in range(maxCycles):

        a=dot(dataMat,weights)

        h=sigmoid(a)

        error=(labelMat-h)

        weights=weights+alpha*dot(dataMat.transpose(),error)

    return weights  

#随机梯度上升

def randomgradAscent(dataMat,label,numIter=50):

    m,n=shape(dataMat)

    weights=ones(n)

    for j in range(numIter):

        dataIndex=range(m)

        for i in range(m):

            alpha=40/(1.0+j+i)+0.2  

            randIndex_Index=int(random.uniform(0,len(dataIndex)))

            randIndex=dataIndex[randIndex_Index]

            h=sigmoid(sum(dot(dataMat[randIndex],weights)))

            error=(label[randIndex]-h)

            weights=weights+alpha*error[0,0]*(dataMat[randIndex].transpose())

            del(dataIndex[randIndex_Index])

    return weights  

#画图

def plotBestFit(weights):

    m=shape(dataMat)[0]

    xcord1=[]

    ycord1=[]

    xcord2=[]

    ycord2=[]

    for i in range(m):

        if labelMat[i]==1:

            xcord1.append(dataMat[i,1])

            ycord1.append(dataMat[i,2])

        else:

            xcord2.append(dataMat[i,1])

            ycord2.append(dataMat[i,2])

    plt.figure(1)

    ax=plt.subplot(111)

    ax.scatter(xcord1,ycord1,s=30,c='red',marker='s')

    ax.scatter(xcord2,ycord2,s=30,c='green')

    x=arange(0.2,0.8,0.1)

    y=array((-weights[0]-weights[1]*x)/weights[2])

    print shape(x)

    print shape(y)

    plt.sca(ax)

    plt.plot(x,y)      #ramdomgradAscent

    #plt.plot(x,y[0])   #gradAscent

    plt.xlabel('density')

    plt.ylabel('ratio_sugar')

    #plt.title('gradAscent logistic regression')

    plt.title('ramdom gradAscent logistic regression')

    plt.show()  

#weights=gradAscent(dataMat,labelMat)

weights=randomgradAscent(dataMat,labelMat)

plotBestFit(weights)

梯度上升法得到的结果如下：

随机梯度上升法得到的结果如下：

可以看出，两种方法的效果基本差不多。但是随机梯度上升方法所需要的迭代次数要少很多

LDA的编程主要参考书上P62的3.39 以及P61的3.33这两个式子。由于用公式可以直接算出，因此比较简单

公式如下：

代码如下：

# -*- coding: cp936 -*-

from numpy import *

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt  

df=pd.read_csv('watermelon_3a.csv')  

def calulate_w():

    df1=df[df.label==1]

    df2=df[df.label==0]

    X1=df1.values[:,1:3]

    X0=df2.values[:,1:3]

    mean1=array([mean(X1[:,0]),mean(X1[:,1])])

    mean0=array([mean(X0[:,0]),mean(X0[:,1])])

    m1=shape(X1)[0]

    sw=zeros(shape=(2,2))

    for i in range(m1):

        xsmean=mat(X1[i,:]-mean1)

        sw+=xsmean.transpose()*xsmean

    m0=shape(X0)[0]

    for i in range(m0):

        xsmean=mat(X0[i,:]-mean0)

        sw+=xsmean.transpose()*xsmean

    w=(mean0-mean1)*(mat(sw).I)

    return w  

def plot(w):

    dataMat=array(df[['density','ratio_sugar']].values[:,:])

    labelMat=mat(df['label'].values[:]).transpose()

    m=shape(dataMat)[0]

    xcord1=[]

    ycord1=[]

    xcord2=[]

    ycord2=[]

    for i in range(m):

        if labelMat[i]==1:

            xcord1.append(dataMat[i,0])

            ycord1.append(dataMat[i,1])

        else:

            xcord2.append(dataMat[i,0])

            ycord2.append(dataMat[i,1])

    plt.figure(1)

    ax=plt.subplot(111)

    ax.scatter(xcord1,ycord1,s=30,c='red',marker='s')

    ax.scatter(xcord2,ycord2,s=30,c='green')

    x=arange(-0.2,0.8,0.1)

    y=array((-w[0,0]*x)/w[0,1])

    print shape(x)

    print shape(y)

    plt.sca(ax)

    #plt.plot(x,y)      #ramdomgradAscent

    plt.plot(x,y)   #gradAscent

    plt.xlabel('density')

    plt.ylabel('ratio_sugar')

    plt.title('LDA')

    plt.show()  

w=calulate_w()

plot(w)

结果如下：

对应的w值为：

[ -6.62487509e-04, -9.36728168e-01]

由于数据分布的关系，所以LDA的效果不太明显。所以我改了几个label=0的样例的数值，重新运行程序得到结果如下：

效果比较明显，对应的w值为：

[-0.60311161, -0.67601433]

转自：http://cache.baiducontent.com/c?m=9d78d513d9d430db4f9be0697b14c0101f4381132ba6d70209d6843890732f43506793ac57270772d7d20d1016db4d4bea81743971597deb8f8fc814d2e1d46e6d9f26476d01d61f4f860eafbc1764977c875a9ef34ea1a7b57accef8c959a49008a155e2bdea7960c57529934ae552ce4a59b49105a10bd&p=ce6fc64ad4d807f449bd9b7d0d1796&newp=c26ada15d9c041ae17a6c7710f0a88231610db2151dcd101298ffe0cc4241a1a1a3aecbf21261b01d4c67a6606a94c5de1f53373310434f1f689df08d2ecce7e60c3&user=baidu&fm=sc&query=%CF%DF%D0%D4%C5%D0%B1%F0%B7%D6%CE%F6+python&qid=ccbe92e80000a2cb&p1=1

机器学习算法的Python实现 (1)：logistics回归与线性判别分析（LDA）的更多相关文章

机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
机器学习算法与Python实践之（四）支持向量机（SVM）实现
机器学习算法与Python实践之(四)支持向量机(SVM)实现机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（二）支持向量机（SVM）初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习 —— 基础整理（四）特征提取之线性方法：主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
机器学习理论基础学习3.2--- Linear classification 线性分类之线性判别分析(LDA)
在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题 ...
机器学习中的数学-线性判别分析(LDA)
前言在之前的一篇博客机器学习中的数学(7)——PCA的数学原理中深入讲解了,PCA的数学原理.谈到PCA就不得不谈LDA,他们就像是一对孪生兄弟,总是被人们放在一起学习,比较.这这篇博客中我们就来谈谈 ...

随机推荐

Tree Traversals Again(根据前序，中序，确定后序顺序）
题目的大意是:进行一系列的操作push,pop.来确定后序遍历的顺序 An inorder binary tree traversal can be implemented in a non-recu ...
[转]C#学习笔记15——C#多线程编程
一.基本概念进程:当一个程序开始运行时,它就是一个进程,进程包括运行中的程序和程序所使用到的内存和系统资源.而一个进程又是由多个线程所组成的.线程:线程是程序中的一个执行流,每个线程都有自己的专有寄存 ...
选题博客：北航iCourse课程信息平台
1. 用户调查在选题的时候,我们面向北航所有本科在读本科生,发布了<北航信息平台用户调查>.此次问卷调查共回收有效问卷95份. 1.1 功能需求调查调查其中一项是让同学们对平台功能进行 ...
大数据-storm学习资料视频
storm学习资料视频 https://pan.baidu.com/s/18iQPoVFNHF1NCRBhXsMcWQ
王者荣耀交流协会第一次Scrum立会
工作照片: scrum master:高远博时间跨度;2017/10/13 6:04-6:34 地点:一食堂二楼两张桌子旁立会内容; 昨天的成绩;昨天商议了今天的开会的时间.地点今天的计划;讨论 ...
Saver 保存与读取
tensorflow 框架下的Saver 功能,用以保存和读取运算数据 Saver 保存数据代码 import tensorflow as tf # Save to file #remember t ...
关于双系统下Ubuntu不能访问Windows中某个盘的问题
1.问题描述在Ubuntu系统下访问Windows系统中磁盘时出现无法访问的情况,具体如下显示: 该问题为磁盘挂载错误,需要进行修复. 2.解决办法 (1)打开终端:如果没有安装ntfs ...
lintcode-382-三角形计数
382-三角形计数给定一个整数数组,在该数组中,寻找三个数,分别代表三角形三条边的长度,问,可以寻找到多少组这样的三个数来组成三角形? 样例例如,给定数组 S = {3,4,6,7},返回 3 其 ...
week1：个人博客作业
1.软件工程课程的希望和目标老师步置的任务完整的做完,每一步都是自己做的,明白自己做的每一步,和为什么这样做. 期末考试最后为95分以上,最好是100. 每周学习这门课时间每周2节课(90分钟)+ ...
iptables 工具的使用
试验建议:关闭CentOS 7 或 CentOS 6的防火墙 (systemctl stop firewalld ; systemctl disable firewalld 或 service ipt ...

机器学习算法的Python实现 (1)：logistics回归 与 线性判别分析（LDA）

机器学习算法的Python实现 (1)：logistics回归 与 线性判别分析（LDA）的更多相关文章

随机推荐

热门专题

机器学习算法的Python实现 (1)：logistics回归与线性判别分析（LDA）

机器学习算法的Python实现 (1)：logistics回归与线性判别分析（LDA）的更多相关文章