参考：机器学习&深度学习算法及代码实现

传统机器学习算法

决策树、K邻近算法、支持向量机、朴素贝叶斯、神经网络、Logistic回归算法，聚类等。

决策树学习笔记（Decision Tree）

引自：Python3《机器学习实战》学习笔记（二）：决策树基础篇之让我们从相亲说起

github:https://github.com/Jack-Cherish/Machine-Learning/tree/master/Decision%20Tree

决策树(decision tree)是一种基本的分类与回归方法。

决策树算法的核心在于决策树的构建，每次选择让整体数据香农熵（描述数据的混乱程度）减小最多的特征，使用其特征值对数据进行划分，每次消耗一个特征，不断迭代分类，直到所有特征消耗完（选择剩下数据中出现次数最多的类别作为这堆数据的类别），或剩下的数据全为同一类别，不必继续划分，至此决策树构建完成，之后我们依照这颗决策树对新进数据进行分类。

一个相亲的例子：

结点和模块的概念：

一个决策树，长方形代表判断模块(decision block)，椭圆形成代表终止模块(terminating block)，表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作为分支(branch)，它可以达到另一个判断模块或者终止模块。我们还可以这样理解，分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。如图所示的决策树，长方形和椭圆形都是结点。长方形的结点属于内部结点，椭圆形的结点属于叶结点，从结点引出的左右箭头就是有向边。而最上面的结点就是决策树的根结点(root node)。

使用决策树做预测需要以下过程：

收集数据：可以使用任何方法。比如想构建一个相亲系统，我们可以从媒婆那里，或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果，就可以得到一些供我们利用的数据了。
准备数据：收集完的数据，我们要进行整理，将这些所有收集的信息按照一定规则整理出来，并排版，方便我们进行后续处理。
分析数据：可以使用任何方法，决策树构造完成之后，我们可以检查决策树图形是否符合预期。
训练算法：这个过程也就是构造决策树，同样也可以说是决策树学习，就是构造一个决策树的数据结构。
测试算法：使用经验树计算错误率。当错误率达到了可接收范围，这个决策树就可以投放使用了。
使用算法：此步骤可以使用适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

决策树构建的准备工作

3个步骤：特征选择、决策树的生成和决策树的修剪。

1 特征选择

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率，如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的标准是信息增益(information gain)或信息增益比，为了简单，本文章使用信息增益作为选择特征的标准。那么，什么是信息增益？在讲解信息增益之前，让我们看一组实例，贷款申请样本数据表。

ID	年龄	有工作	有自己的房子	信贷情况	类别(是否个给贷款)
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

特征选择就是决定用哪个特征来划分特征空间。比如，我们通过上述数据表得到两个可能的决策树，分别由两个不同特征的根结点构成。

图(a)所示的根结点的特征是年龄，有3个取值，对应于不同的取值有不同的子结点。图(b)所示的根节点的特征是工作，有2个取值，对应于不同的取值有不同的子结点。两个决策树都可以从此延续下去。

问题是：究竟选择哪个特征更好些？这就要求确定选择特征的准则。直观上，如果一个特征具有更好的分类能力，或者说，按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就更应该选择这个特征。信息增益就能够很好地表示这一直观的准则。

什么是信息增益呢？在划分数据集之前之后信息发生的变化成为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。

香农熵

如何计算信息增益。集合信息的度量方式成为香农熵或者简称为熵(entropy)，

熵定义为信息的期望值。在信息论与概率统计中，熵是表示随机变量不确定性的度量。如果待分类的事务可能划分在多个分类之中，则符号xi的信息定义为

其中p(xi)是选择该分类的概率。

通过上式，我们可以得到所有类别的信息。为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值(数学期望)，通过下面的公式得到：

期中n是分类的数目。熵越大，随机变量的不确定性就越大。

当熵中的概率由数据估计(特别是最大似然估计)得到时，所对应的熵称为经验熵(empirical entropy)。什么叫由数据估计？比如有10个数据，一共有两个类别，A类和B类。其中有7个数据属于A类，则该A类的概率即为十分之七。其中有3个数据属于B类，则该B类的概率即为十分之三。浅显的解释就是，这概率是我们根据数据数出来的。我们定义贷款申请样本数据表中的数据为训练数据集D，则训练数据集D的经验熵为H(D)，|D|表示其样本容量，及样本个数。设有K个类Ck，k = 1,2,3,···,K，|Ck|为属于类Ck的样本个数，这经验熵公式可以写为

根据此公式计算经验熵H(D)，分析贷款申请样本数据表中的数据。最终分类结果只有两类，即放贷和不放贷。根据表中的数据统计可知，在15个数据中，9个数据的结果为放贷，6个数据的结果为不放贷。所以数据集D的经验熵H(D)为：

经过计算可知，数据集D的经验熵H(D)的值为0.971。

3.1.2 编写代码计算经验熵

在编写代码之前，我们先对数据集进行属性标注。

年龄：0代表青年，1代表中年，2代表老年；
有工作：0代表否，1代表是；
有自己的房子：0代表否，1代表是；
信贷情况：0代表一般，1代表好，2代表非常好；
类别(是否给贷款)：no代表否，yes代表是。

确定这些之后，我们就可以创建数据集，并计算经验熵了，代码编写如下：

# -*- coding: UTF- -*-

from math import log

"""

函数说明:创建测试数据集

Parameters:

    无

Returns:

    dataSet - 数据集

    labels - 分类属性

Author:

    Jack Cui

Modify:

    --

"""

def createDataSet():

    dataSet = [[, , , , 'no'],         #数据集

            [, , , , 'no'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'no'],

            [, , , , 'no'],

            [, , , , 'no'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'no']]

    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']        #分类属性

    return dataSet, labels                #返回数据集和分类属性

"""

函数说明:计算给定数据集的经验熵(香农熵)

Parameters:

    dataSet - 数据集

Returns:

    shannonEnt - 经验熵(香农熵)

"""

def calcShannonEnt(dataSet):

    numEntires = len(dataSet)                        #返回数据集的行数

    labelCounts = {}                                #保存每个标签(Label)出现次数的字典

    for featVec in dataSet:                            #对每组特征向量进行统计

        currentLabel = featVec[-]                    #提取标签(Label)信息

        if currentLabel not in labelCounts.keys():    #如果标签(Label)没有放入统计次数的字典,添加进去

            labelCounts[currentLabel] =

        labelCounts[currentLabel] +=                 #Label计数

    shannonEnt = 0.0                                #经验熵(香农熵)

    for key in labelCounts:                            #计算香农熵

        prob = float(labelCounts[key]) / numEntires    #选择该标签(Label)的概率

        shannonEnt -= prob * log(prob, )            #利用公式计算

    return shannonEnt                                #返回经验熵(香农熵)

if __name__ == '__main__':

    dataSet, features = createDataSet()

    print(dataSet)

    print(calcShannonEnt(dataSet))

信息增益

在上面，我们已经说过，如何选择特征，需要看信息增益。也就是说，信息增益是相对于特征而言的，信息增益越大，特征对最终的分类结果影响也就越大，我们就应该选择对最终分类结果影响最大的那个特征作为我们的分类特征。

，信息增益是相对于特征而言的。所以，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即

编写代码计算信息增益

# -*- coding: UTF- -*-

from math import log

"""

函数说明:计算给定数据集的经验熵(香农熵)

Parameters:

    dataSet - 数据集

Returns:

    shannonEnt - 经验熵(香农熵)

Author:

    Jack Cui

Modify:

    --

"""

def calcShannonEnt(dataSet):

    numEntires = len(dataSet)                        #返回数据集的行数

    labelCounts = {}                                #保存每个标签(Label)出现次数的字典

    for featVec in dataSet:                            #对每组特征向量进行统计

        currentLabel = featVec[-]                    #提取标签(Label)信息

        if currentLabel not in labelCounts.keys():    #如果标签(Label)没有放入统计次数的字典,添加进去

            labelCounts[currentLabel] =

        labelCounts[currentLabel] +=                 #Label计数

    shannonEnt = 0.0                                #经验熵(香农熵)

    for key in labelCounts:                            #计算香农熵

        prob = float(labelCounts[key]) / numEntires    #选择该标签(Label)的概率

        shannonEnt -= prob * log(prob, )            #利用公式计算

    return shannonEnt                                #返回经验熵(香农熵)

"""

函数说明:创建测试数据集

Parameters:

    无

Returns:

    dataSet - 数据集

    labels - 分类属性

Author:

    Jack Cui

Modify:

    --

"""

def createDataSet():

    dataSet = [[, , , , 'no'],                        #数据集

            [, , , , 'no'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'no'],

            [, , , , 'no'],

            [, , , , 'no'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'yes'],

            [, , , , 'no']]

    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']        #分类属性

    return dataSet, labels                             #返回数据集和分类属性

"""

函数说明:按照给定特征划分数据集

Parameters:

    dataSet - 待划分的数据集

    axis - 划分数据集的特征

    value - 需要返回的特征的值

Returns:

    无

Author:

    Jack Cui

Modify:

    --

"""

def splitDataSet(dataSet, axis, value):

    retDataSet = []                                        #创建返回的数据集列表

    for featVec in dataSet:                             #遍历数据集

        if featVec[axis] == value:

            reducedFeatVec = featVec[:axis]                #去掉axis特征

            reducedFeatVec.extend(featVec[axis+:])     #将符合条件的添加到返回的数据集

            retDataSet.append(reducedFeatVec)

    return retDataSet                                      #返回划分后的数据集

"""

函数说明:选择最优特征

Parameters:

    dataSet - 数据集

Returns:

    bestFeature - 信息增益最大的(最优)特征的索引值

"""

def chooseBestFeatureToSplit(dataSet):

    numFeatures = len(dataSet[]) -                     #特征数量

    baseEntropy = calcShannonEnt(dataSet)                 #计算数据集的香农熵

    bestInfoGain = 0.0                                  #信息增益

    bestFeature = -                                    #最优特征的索引值

    for i in range(numFeatures):                         #遍历所有特征

        #获取dataSet的第i个所有特征

        featList = [example[i] for example in dataSet]

        uniqueVals = set(featList)                         #创建set集合{},元素不可重复

        newEntropy = 0.0                                  #经验条件熵

        for value in uniqueVals:                         #计算信息增益

            subDataSet = splitDataSet(dataSet, i, value)         #subDataSet划分后的子集

            prob = len(subDataSet) / float(len(dataSet))           #计算子集的概率

            newEntropy += prob * calcShannonEnt(subDataSet)     #根据公式计算经验条件熵

        infoGain = baseEntropy - newEntropy                     #信息增益

        print("第%d个特征的增益为%.3f" % (i, infoGain))            #打印每个特征的信息增益

        if (infoGain > bestInfoGain):                             #计算信息增益

            bestInfoGain = infoGain                             #更新信息增益，找到最大的信息增益

            bestFeature = i                                     #记录信息增益最大的特征的索引值

    return bestFeature                                             #返回信息增益最大的特征的索引值

if __name__ == '__main__':

    dataSet, features = createDataSet()

    print("最优特征索引值:" + str(chooseBestFeatureToSplit(dataSet)))

机器学习&深度学习基础（机器学习基础的算法概述及代码）的更多相关文章

机器学习&深度学习基础（tensorflow版本实现的算法概述0）
tensorflow集成和实现了各种机器学习基础的算法,可以直接调用. 代码集:https://github.com/ageron/handson-ml 监督学习 1)决策树(Decision Tre ...
机器学习&深度学习基础（目录）
从业这么久了,做了很多项目,一直对机器学习的基础课程鄙视已久,现在回头看来,系统的基础知识整理对我现在思路的整理很有利,写完这个基础篇,开始把AI+cv的也总结完,然后把这么多年做的项目再写好总结. ...
深度学习 vs 机器学习 vs 模式识别
http://www.csdn.net/article/2015-03-24/2824301 [编者按]本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisie ...
机器学习&深度学习经典资料汇总,data.gov.uk大量公开数据
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...
近200篇机器学习&深度学习资料分享（含各种文档，视频，源码等）(1)
原文:http://developer.51cto.com/art/201501/464174.htm 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定 ...
近200篇机器学习&深度学习资料分享【转载】
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Le ...
机器学习&深度学习资料分享
感谢:https://github.com/ty4z2008/Qix/blob/master/dl.md <Brief History of Machine Learning> 介绍:这是 ...
[转载]机器学习&深度学习经典资料汇总，全到让人震惊
自学成才秘籍!机器学习&深度学习经典资料汇总转自:中国大数据: http://www.thebigdata.cn/JiShuBoKe/13299.html [日期:2015-01-27] 来 ...
深度学习vs机器学习 | 这些本质区别你知道多少？
目录: 数据相关性硬件依赖性特征工程解决问题方法执行时间可解释性一.数据相关性深度学习与传统机器学习最重要的区别是,随着数据量的增加,其性能也随之提高.当数据很小的时候,深度学习算法并不 ...

随机推荐

潭州课堂25班：Ph201805201 django 项目第三十八课后台文章发布，FastDFS安装配置（课堂笔记）
, .安装FastDFS # 从docker hub中拉取fastdfs镜像docker pull youkou1/fastdfs # 查看镜像是否拉取成功docker images # 安装trac ...
Spring AOP 配置通知方法的时候如何处理方法重载
如何在method属性里指定重载方法中的某一个?
生命短暂，意识到开始使用python的重要性，python3.5.3安装和使用篇
原创文章,未经允许不得转载! 之前都是使用C++和R语言做事情.一直觉得c++挺好,好是好,就是有挺多车轱辘得自己造.细想下C++可以调用python,python也可以调用c++.那何不学学pyth ...
Flask-WTF表单的使用
使用flask的WTF表单 #! /usr/bin/env python # *-* coding: utf-8 *-* from flask import Flask, render_templat ...
sencha cmd 创建项目
一.软件支持 1.下载并解压Sencha Touch(浏览器支持Chrome.Safari.Internet Explorer 10或11.) 2.Sencha Cmd(Sencha Touch 2. ...
JAVA自学笔记04
JAVA自学笔记04 1.switch语句 1)格式:switch(表达式){ case 值1: 语句体1; break; case 值2: 语句体2; break; - default: 语句体n+ ...
8、jsのBOM对象与DOM对象
javascript的Bom和Dom对象使我们学习的重点,这篇随笔可以重点阅读本篇导航: BOM对象 DOM对象 DOM Event(事件) 实例练习一.BOM对象 1.window对象所有浏览 ...
oracle 在已有表新增列内批量加数据
创建每列随机值的语句 create table TEST_ZHAA01A_03 as select rownum as id, to_char(sysdate + rownum/24/3600, 'y ...
多线程处理N维度topk问题demo--[c++]
问题 -对多维度特征进行topk排序,使用c++ 优先队列模拟最大堆. /* ---------------------------------- Version : ?? File Name : d ...
Debug 路漫漫-07
201811—201903??? 1)关于训练参数是复数的问题 ——q_k ^theta q_k(是item的特征矩阵)中有可能是负数,而指数 theta 如果是含小数点的话,就会产生复 ...

机器学习&深度学习基础（机器学习基础的算法概述及代码）