Python实现机器学习算法：决策树算法

'''

数据集：Mnist

训练集数量：60000

测试集数量：10000

------------------------------

运行结果：ID3(未剪枝)

    正确率：85.9%

    运行时长：356s

'''

import time

import numpy as np

def loadData(fileName):

    '''

    加载文件

    :param fileName:要加载的文件路径

    :return: 数据集和标签集

    '''

    # 存放数据及标记

    dataArr = [];

    labelArr = []

    # 读取文件

    fr = open(fileName)

    # 遍历文件中的每一行

    for line in fr.readlines():

        # 获取当前行，并按“，”切割成字段放入列表中

        # strip：去掉每行字符串首尾指定的字符（默认空格或换行符）

        # split：按照指定的字符将字符串切割成每个字段，返回列表形式

        curLine = line.strip().split(',')

        # 将每行中除标记外的数据放入数据集中（curLine[0]为标记信息）

        # 在放入的同时将原先字符串形式的数据转换为整型

        # 此外将数据进行了二值化处理，大于128的转换成1，小于的转换成0，方便后续计算

        dataArr.append([int(int(num) > 128) for num in curLine[1:]])

        # 将标记信息放入标记集中

        # 放入的同时将标记转换为整型

        labelArr.append(int(curLine[0]))

    # 返回数据集和标记

    return dataArr, labelArr

def majorClass(labelArr):

    '''

    找到当前标签集中占数目最大的标签

    :param labelArr: 标签集

    :return: 最大的标签

    '''

    # 建立字典，用于不同类别的标签技术

    classDict = {}

    # 遍历所有标签

    for i in range(len(labelArr)):

        # 当第一次遇到A标签时，字典内还没有A标签，这时候直接幅值加1是错误的，

        # 所以需要判断字典中是否有该键，没有则创建，有就直接自增

        if labelArr[i] in classDict.keys():

            # 若在字典中存在该标签，则直接加1

            classDict[labelArr[i]] += 1

        else:

            # 若无该标签，设初值为1，表示出现了1次了

            classDict[labelArr[i]] = 1

    # 对字典依据值进行降序排序

    classSort = sorted(classDict.items(), key=lambda x: x[1], reverse=True)

    # 返回最大一项的标签，即占数目最多的标签

    return classSort[0][0]

def calc_H_D(trainLabelArr):

    '''

    计算数据集D的经验熵，参考公式5.7 经验熵的计算

    :param trainLabelArr:当前数据集的标签集

    :return: 经验熵

    '''

    # 初始化为0

    H_D = 0

    # 将当前所有标签放入集合中，这样只要有的标签都会在集合中出现，且出现一次。

    # 遍历该集合就可以遍历所有出现过的标记并计算其Ck

    # 这么做有一个很重要的原因：首先假设一个背景，当前标签集中有一些标记已经没有了，比如说标签集中

    # 没有0（这是很正常的，说明当前分支不存在这个标签）。 式5.7中有一项Ck，那按照式中的针对不同标签k

    # 计算Cl和D并求和时，由于没有0，那么C0=0，此时C0/D0=0,log2(C0/D0) = log2(0)，事实上0并不在log的

    # 定义区间内，出现了问题

    # 所以使用集合的方式先知道当前标签中都出现了那些标签，随后对每个标签进行计算，如果没出现的标签那一项就

    # 不在经验熵中出现（未参与，对经验熵无影响），保证log的计算能一直有定义

    trainLabelSet = set([label for label in trainLabelArr])

    # 遍历每一个出现过的标签

    for i in trainLabelSet:

        # 计算|Ck|/|D|

        # trainLabelArr == i：当前标签集中为该标签的的位置

        # 例如a = [1, 0, 0, 1], c = (a == 1): c == [True, false, false, True]

        # trainLabelArr[trainLabelArr == i]：获得为指定标签的样本

        # trainLabelArr[trainLabelArr == i].size：获得为指定标签的样本的大小，即标签为i的样本

        # 数量，就是|Ck|

        # trainLabelArr.size：整个标签集的数量（也就是样本集的数量），即|D|

        p = trainLabelArr[trainLabelArr == i].size / trainLabelArr.size

        # 对经验熵的每一项累加求和

        H_D += -1 * p * np.log2(p)

    # 返回经验熵

    return H_D

def calcH_D_A(trainDataArr_DevFeature, trainLabelArr):

    '''

    计算经验条件熵

    :param trainDataArr_DevFeature:切割后只有feature那列数据的数组

    :param trainLabelArr: 标签集数组

    :return: 经验条件熵

    '''

    # 初始为0

    H_D_A = 0

    # 在featue那列放入集合中，是为了根据集合中的数目知道该feature目前可取值数目是多少

    trainDataSet = set([label for label in trainDataArr_DevFeature])

    # 对于每一个特征取值遍历计算条件经验熵的每一项

    for i in trainDataSet:

        # 计算H(D|A)

        # trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size:|Di| / |D|

        # calc_H_D(trainLabelArr[trainDataArr_DevFeature == i]):H(Di)

        H_D_A += trainDataArr_DevFeature[trainDataArr_DevFeature == i].size / trainDataArr_DevFeature.size \

                 * calc_H_D(trainLabelArr[trainDataArr_DevFeature == i])

    # 返回得出的条件经验熵

    return H_D_A

def calcBestFeature(trainDataList, trainLabelList):

    '''

    计算信息增益最大的特征

    :param trainDataList: 当前数据集

    :param trainLabelList: 当前标签集

    :return: 信息增益最大的特征及最大信息增益值

    '''

    # 将数据集和标签集转换为数组形式

    # trainLabelArr转换后需要转置，这样在取数时方便

    # 例如a = np.array([1, 2, 3]); b = np.array([1, 2, 3]).T

    # 若不转置，a[0] = [1, 2, 3]，转置后b[0] = 1, b[1] = 2

    # 对于标签集来说，能够很方便地取到每一位是很重要的

    trainDataArr = np.array(trainDataList)

    trainLabelArr = np.array(trainLabelList).T

    # 获取当前特征数目，也就是数据集的横轴大小

    featureNum = trainDataArr.shape[1]

    # 初始化最大信息增益

    maxG_D_A = -1

    # 初始化最大信息增益的特征

    maxFeature = -1

    # 对每一个特征进行遍历计算

    for feature in range(featureNum):

        # “5.2.2 信息增益”中“算法5.1（信息增益的算法）”第一步：

        # 1.计算数据集D的经验熵H(D)

        H_D = calc_H_D(trainLabelArr)

        # 2.计算条件经验熵H(D|A)

        # 由于条件经验熵的计算过程中只涉及到标签以及当前特征，为了提高运算速度（全部样本

        # 做成的矩阵运算速度太慢，需要剔除不需要的部分），将数据集矩阵进行切割

        # 数据集在初始时刻是一个Arr = 60000*784的矩阵，针对当前要计算的feature，在训练集中切割下

        # Arr[:, feature]这么一条来，因为后续计算中数据集中只用到这个（没明白的跟着算一遍例5.2）

        # trainDataArr[:, feature]:在数据集中切割下这么一条

        # trainDataArr[:, feature].flat：将这么一条转换成竖着的列表

        # np.array(trainDataArr[:, feature].flat)：再转换成一条竖着的矩阵，大小为60000*1（只是初始是

        # 这么大，运行过程中是依据当前数据集大小动态变的）

        trainDataArr_DevideByFeature = np.array(trainDataArr[:, feature].flat)

        # 3.计算信息增益G(D|A)    G(D|A) = H(D) - H(D | A)

        G_D_A = H_D - calcH_D_A(trainDataArr_DevideByFeature, trainLabelArr)

        # 不断更新最大的信息增益以及对应的feature

        if G_D_A > maxG_D_A:

            maxG_D_A = G_D_A

            maxFeature = feature

    return maxFeature, maxG_D_A

def getSubDataArr(trainDataArr, trainLabelArr, A, a):

    '''

    更新数据集和标签集

    :param trainDataArr:要更新的数据集

    :param trainLabelArr: 要更新的标签集

    :param A: 要去除的特征索引

    :param a: 当data[A]== a时，说明该行样本时要保留的

    :return: 新的数据集和标签集

    '''

    # 返回的数据集

    retDataArr = []

    # 返回的标签集

    retLabelArr = []

    # 对当前数据的每一个样本进行遍历

    for i in range(len(trainDataArr)):

        # 如果当前样本的特征为指定特征值a

        if trainDataArr[i][A] == a:

            # 那么将该样本的第A个特征切割掉，放入返回的数据集中

            retDataArr.append(trainDataArr[i][0:A] + trainDataArr[i][A + 1:])

            # 将该样本的标签放入返回标签集中

            retLabelArr.append(trainLabelArr[i])

    # 返回新的数据集和标签集

    return retDataArr, retLabelArr

def createTree(*dataSet):

    '''

    递归创建决策树

    :param dataSet:(trainDataList， trainLabelList) <<-- 元祖形式

    :return:新的子节点或该叶子节点的值

    '''

    # 设置Epsilon，“5.3.1 ID3算法”第4步提到需要将信息增益与阈值Epsilon比较，若小于则直接处理后返回T

    Epsilon = 0.1

    # 从参数中获取trainDataList和trainLabelList

    trainDataList = dataSet[0][0]

    trainLabelList = dataSet[0][1]

    # 打印信息：开始一个子节点创建，打印当前特征向量数目及当前剩余样本数目

    print('start a node', len(trainDataList[0]), len(trainLabelList))

    # 将标签放入一个字典中，当前样本有多少类，在字典中就会有多少项

    # 也相当于去重，多次出现的标签就留一次。举个例子，假如处理结束后字典的长度为1，那说明所有的样本

    # 都是同一个标签，那就可以直接返回该标签了，不需要再生成子节点了。

    classDict = {i for i in trainLabelList}

    # 如果D中所有实例属于同一类Ck，则置T为单节点数，并将Ck作为该节点的类，返回T

    # 即若所有样本的标签一致，也就不需要再分化，返回标记作为该节点的值，返回后这就是一个叶子节点

    if len(classDict) == 1:

        # 因为所有样本都是一致的，在标签集中随便拿一个标签返回都行，这里用的第0个（因为你并不知道

        # 当前标签集的长度是多少，但运行中所有标签只要有长度都会有第0位。

        return trainLabelList[0]

    # 如果A为空集，则置T为单节点数，并将D中实例数最大的类Ck作为该节点的类，返回T

    # 即如果已经没有特征可以用来再分化了，就返回占大多数的类别

    if len(trainDataList[0]) == 0:

        # 返回当前标签集中占数目最大的标签

        return majorClass(trainLabelList)

    # 否则，按式5.10计算A中个特征值的信息增益，选择信息增益最大的特征Ag

    Ag, EpsilonGet = calcBestFeature(trainDataList, trainLabelList)

    # 如果Ag的信息增益比小于阈值Epsilon，则置T为单节点树，并将D中实例数最大的类Ck

    # 作为该节点的类，返回T

    if EpsilonGet < Epsilon:

        return majorClass(trainLabelList)

    # 否则，对Ag的每一可能值ai，依Ag=ai将D分割为若干非空子集Di，将Di中实例数最大的

    # 类作为标记，构建子节点，由节点及其子节点构成树T，返回T

    treeDict = {Ag: {}}

    # 特征值为0时，进入0分支

    # getSubDataArr(trainDataList, trainLabelList, Ag, 0)：在当前数据集中切割当前feature，返回新的数据集和标签集

    treeDict[Ag][0] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 0))

    treeDict[Ag][1] = createTree(getSubDataArr(trainDataList, trainLabelList, Ag, 1))

    return treeDict

def predict(testDataList, tree):

    '''

    预测标签

    :param testDataList:样本

    :param tree: 决策树

    :return: 预测结果

    '''

    # treeDict = copy.deepcopy(tree)

    # 死循环，直到找到一个有效地分类

    while True:

        # 因为有时候当前字典只有一个节点

        # 例如{73: {0: {74:6}}}看起来节点很多，但是对于字典的最顶层来说，只有73一个key，其余都是value

        # 若还是采用for来读取的话不太合适，所以使用下行这种方式读取key和value

        (key, value), = tree.items()

        # 如果当前的value是字典，说明还需要遍历下去

        if type(tree[key]).__name__ == 'dict':

            # 获取目前所在节点的feature值，需要在样本中删除该feature

            # 因为在创建树的过程中，feature的索引值永远是对于当时剩余的feature来设置的

            # 所以需要不断地删除已经用掉的特征，保证索引相对位置的一致性

            dataVal = testDataList[key]

            del testDataList[key]

            # 将tree更新为其子节点的字典

            tree = value[dataVal]

            # 如果当前节点的子节点的值是int，就直接返回该int值

            # 例如{403: {0: 7, 1: {297:7}}，dataVal=0

            # 此时上一行tree = value[dataVal]，将tree定位到了7，而7不再是一个字典了，

            # 这里就可以直接返回7了，如果tree = value[1]，那就是一个新的子节点，需要继续遍历下去

            if type(tree).__name__ == 'int':

                # 返回该节点值，也就是分类值

                return tree

        else:

            # 如果当前value不是字典，那就返回分类值

            return value

def accuracy(testDataList, testLabelList, tree):

    '''

    测试准确率

    :param testDataList:待测试数据集

    :param testLabelList: 待测试标签集

    :param tree: 训练集生成的树

    :return: 准确率

    '''

    # 错误次数计数

    errorCnt = 0

    # 遍历测试集中每一个测试样本

    for i in range(len(testDataList)):

        # 判断预测与标签中结果是否一致

        if testLabelList[i] != predict(testDataList[i], tree):

            errorCnt += 1

    # 返回准确率

    return 1 - errorCnt / len(testDataList)

if __name__ == '__main__':

    # 开始时间

    start = time.time()

    # 获取训练集

    trainDataList, trainLabelList = loadData('../Mnist/mnist_train.csv')

    # 获取测试集

    testDataList, testLabelList = loadData('../Mnist/mnist_test.csv')

    # 创建决策树

    print('start create tree')

    tree = createTree((trainDataList, trainLabelList))

    print('tree is:', tree)

    # 测试准确率

    print('start test')

    accur = accuracy(testDataList, testLabelList, tree)

    print('the accur is:', accur)

    # 结束时间

    end = time.time()

    print('time span:', end - start)

Python实现机器学习算法：决策树算法的更多相关文章

吴裕雄--天生自然python机器学习：决策树算法
我们经常使用决策树处理分类问题’近来的调查表明决策树也是最经常使用的数据挖掘算法. 它之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的. K-近邻算法可 ...
就是要你明白机器学习系列--决策树算法之悲观剪枝算法(PEP)
前言在机器学习经典算法中,决策树算法的重要性想必大家都是知道的.不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确 ...
机器学习-ID3决策树算法（附matlab/octave代码）
ID3决策树算法是基于信息增益来构建的,信息增益可以由训练集的信息熵算得,这里举一个简单的例子 data=[心情好天气好出门心情好天气不好出门心情不好天气好出门心情不好天气不好 ...
Python实现机器学习算法：AdaBoost算法
Python程序 ''' 数据集:Mnist 训练集数量:60000(实际使用:10000) 测试集数量:10000(实际使用:1000) 层数:40 ------------------------ ...
Python实现机器学习算法：K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
Python实现机器学习算法：感知机
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000 ------------------------------ 运行结果: 正确率:81.72%(二分类) ''' impor ...
Python实现机器学习算法：EM算法
''' 数据集:伪造数据集(两个高斯分布混合) 数据集长度:1000 ------------------------------ 运行结果: ---------------------------- ...
Python实现机器学习算法：朴素贝叶斯算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000 ''' import numpy as np import time def loadData(fileName): ''' ...
Python实现机器学习算法：逻辑回归
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import ma ...

随机推荐

前端上传 base64 编码图片到七牛云存储
参考文档如何上传base64编码图片到七牛云调试过程文档中分别有 java 和 html 的 demo,可以根据文档示例调试. 下面是我调试的过程,可以作为参考,特别注意的是,如果需要给文件起名 ...
个人小爱好：Operating System:three easy pieces---第6章第4节_担心并发问题？
担心并发问题? 微妙,上下文切换大约6微妙.而,现在的系统有着级数级别的提升,在2-3GHz的处理起中消耗只有亚微妙级. 但应该注意到,不是所有的系统性能都跟着CPU性能的提升而提升,根据Ouster ...
linux--python虚拟环境篇
python的虚拟环境首先我们得知道为什么要要用虚拟环境? 在使用python开发过程中,各种业务需求多了,导致工程任务多了,难免会碰到不同的工程依赖不同版本库的问题,;或者是在开发的时候不想让物理 ...
[No000018D]Vim快速注释/取消注释多行的几种方法-Vim使用技巧(2)
在使用Vim进行编程时,经常遇到需要快速注释或取消注释多行代码的场景,Vim教程网根据已有的教程介绍,总结了三种快速注释/取消注释多行代码的方法. 一.使用Vim可视化模式快速注释/取消注释多行在V ...
jquery网页倒计时效果，秒杀
function FreshTime(){ var endtime=new Date('2019-4-12 18:00:00');//结束时间 var nowtime = new Date();//当 ...
15.1-uC/OS-III资源管理（锁调度器）
1.大部分独占资源的方法都是创建临界段:1) 关中断方式2) 锁调度器方式3) 信号量方式4) mutex方式 2.独占共享资源的最快和最简单方法是关中断然而,关/开中断是和CPU相关的操作,其相关 ...
opencart3如何安装模板
opencart 3模板采用twig模式,安装模板也有点不大一样,随ytkah一起来看看opencart3如何安装模板吧1.下载模板文件,用ftp上传到对应的位置,一般有几个文件夹,比如:admin. ...
mysql的一些指令
说起来mysql,mysql其实是特别简单操作的数据库.它有一下几方面的特点,亦或者是说优点,1,支持多语言:2.移植性比较好:3,我觉得最重要的一点就是它是开源的,因为开源,所以使用广泛,4.效率比 ...
lua语言中的假
[1]测试及结论 (1)代码 local var_false = false local var_nil = nil if var_zero then print('var_zero : true') ...
hashlib、hmac
#hashlib import hashlib#md5m = hashlib.md5()m.update(b"Hello")print(m.hexdigest()) #hexdig ...

Python实现机器学习算法：决策树算法

Python实现机器学习算法：决策树算法的更多相关文章

随机推荐

热门专题