决策树分类算法是一种监督学习算法，它的基本原理是将数据集通过一系列的问题进行拆分，这些问题被视为决策树的叶子节点和内部节点。
决策树的每个分支代表一个可能的决策结果，而每个叶子节点代表一个最终的分类结果。

决策树分类算法的历史可以追溯到1980年代初，当时研究者开始探索用机器学习来解决分类问题。
在1981年，J.Ross Quinlan开发了ID3算法，该算法使用信息增益来选择决策树的最佳划分属性。
后来，在1986年，J.Ross Quinlan提出了C4.5算法，该算法引入了剪枝技术，以防止过拟合，该算法还引入了处理连续属性、缺失数据和多值属性等新特性。
在1998年，Jerome Friedman等人提出了CART算法（Classification and Regression Trees），该算法采用了二叉树，使得决策树更加简洁和易于解释。

1. 算法概述

决策树不仅可以用在分类问题上，也可以用在回归问题上。
关于决策树在回归问题上的应用，可以参考：TODO

回到决策树分类算法上来，构建决策树的有三种算法：

1.1. ID3

ID3算法的完整名称是Iterative Dichotomiser 3，即迭代二叉树3代。
ID3算法的核心思想是以信息增益来度量属性的选择，选择分裂后信息增益最大的属性进行分裂。

对于任意样本数据 \(x(x_1,x_2,...,x_n)\)，它的信息熵定义为：
\(entropy(x) = -\sum_{i=1}^n p_i\log_2(p_i)\)

基于信息熵，信息增益的公式为：
\(IG(T) = entropy(S) - \sum_{value(T)}\frac{|S_x|}{|S|}entropy(S_x)\)
其中：

\(S\) 表示全部样本的集合
\(|S|\) 表示\(S\)中样本数量
\(T\) 表示样本的某个特征
\(value(T)\) 表示特征\(T\)所有的取值集合
\(S_x\) 是\(S\)中特征\(T\)的值为\(x\)的样本的集合
\(|S_x|\) 表示\(S_x\)中样本数量

1.2. C4.5

C4.5算法是以ID3算法为基础的，它改为使用信息增益率来作为决策树分裂的依据。
这样，就克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足。

C4.5算法中引入了一个分裂信息（split information）的项来惩罚取值较多的特征：
\(SI(T) = - \sum_{value(T)}\frac{|S_x|}{|S|}\log\frac{|S_x|}{|S|}\)

基于此，信息增益率的公式为：
\(gainRatio(T)=\frac{IG(T)}{SI(T)}\)
\(IG(T)\)就是上一节ID3算法中的信息增益公式。

1.3. CART

CART算法全称是 classification and regression tree（分类与回归树）。
这个算法既可以用来分类，也可以用来回归，在回归问题上的介绍可以参考。

CART算法是根据基尼系数（Gini）来划分特征的，每次选择基尼系数最小的特征作为最优切分点。
其中基尼系数的计算方法：\(gini(p) = \sum_{i=1}^n p_i(1-p_i)=1-\sum_{i=1}^n p_i^2\)

2. 创建样本数据

用scikit-learn中的样本生成器make_classification来生成分类用的样本数据。

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification

# 分类数据的样本生成器

X, y= make_classification(n_samples=1000, n_classes=4, n_clusters_per_class=1, n_informative=6)

plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25)

plt.show()

关于样本生成器的详细内容，请参考：TODO

3. 模型训练

首先，分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

这次按照8:2的比例来划分训练集和测试集。

然后用不同的算法来训练决策树模型：

from sklearn.tree import DecisionTreeClassifier

reg_names = [

    "ID3算法",

    "C4.5算法",

    "CART算法",

]

# 定义

regs = [

    DecisionTreeClassifier(criterion="entropy"),

    DecisionTreeClassifier(criterion="log_loss"),

    DecisionTreeClassifier(criterion="gini"),

]

# 训练模型

for reg in regs:

    reg.fit(X_train, y_train)

# 在测试集上进行预测

y_preds = []

for reg in regs:

    y_pred = reg.predict(X_test)

    y_preds.append(y_pred)

for i in range(len(y_preds)):

    correct_pred = np.sum(y_preds[i] == y_test)

    print("【{}】 预测正确率：{:.2f}%".format(reg_names[i], correct_pred / len(y_pred) * 100))

# 运行结果

【ID3算法】 预测正确率：71.50%

【C4.5算法】 预测正确率：72.50%

【CART算法】 预测正确率：75.00%

算法的正确率差别不是特别大。
感兴趣的朋友，可以尝试调整样本生成器部分，生成一些特征较多的数据来看看算法之间的性能差别。

4. 总结

决策树分类算法广泛应用于图像识别、文本分类、语音识别、信用评分、疾病诊断等众多领域。
例如，在电商平台上，可以通过决策树分类算法对用户的行为数据进行挖掘和分析，实现对用户的精准推荐；
在医疗领域，可以通过对医学数据的分析，辅助医生进行疾病诊断和治疗方案制定。

决策树分类算法的优势有：

易于理解和解释，直观地展示出分类的过程
对于数据集可以进行并行处理，提高了算法的效率
对于缺失数据和非数值属性有很好的处理能力
可以处理多分类问题

决策树分类算法也存在一些劣势：

可能存在过拟合，需要使用剪枝技术来控制
可能存在偏向性，需要使用加权投票来处理
对于连续属性和多值属性处理起来比较复杂，需要额外的处理方法
大规模数据集处理起来比较耗时，需要优化算法或者使用分布式计算等方法

【scikit-learn基础】--『监督学习』之决策树分类的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

随机推荐

js合并对象常用方法
const person = { name: 'David Walsh', gender: 'Male' }; const tools = { computer: 'Mac', editor: 'At ...
fepk文件格式说明
1 卫星影像金字塔分块原理说明通常我们在工作中使用的卫星影像数据,轻则几百M,重则几百个G甚至上TB级.影像数据太大,是大家经常会遇到的一个问题,尤其是想下载一个省以上数据的时候该问题尤为突出.那 ...
7. 用Rust手把手编写一个wmproxy(代理，内网穿透等), HTTP及TCP内网穿透原理及运行篇
用Rust手把手编写一个wmproxy(代理,内网穿透等), HTTP及TCP内网穿透原理及运行篇项目 ++wmproxy++ gite: https://gitee.com/tickbh/wmpr ...
0 基础晋级 Serverless 高手课 — 初识 Serverless（下）
冷启动 1. 流量预测 2. 提前启动 3. 实例复用每个厂商规范不一致:,兼容,适配层:adapter: fs+oss 云厂商对比产品维度功能架构角度个人博客官网小程序 ...
Python - 读取CSV文件发现有重复数据，如何清洗以及保存为CSV文件，这里有完整的过程!!!! 片尾有彩蛋
语言:Python 功能: 1.清洗CSV文件中重复数据. 2.保存为CSV文件大体流程: 1.首先观察CSV文件中的数据布局格式如何? 2.通过csv包读取数据.并根据规则使用continue,来 ...
Linux 在多个文件中搜索关键字
摘要:使用grep或者rg在当前目录下所有文件中查找关键字. 在Linux操作系统下,搜索文件中的关键字可帮助用户快速找到所需的信息,满足快速排查问题的需求.在大型系统中,文件可能被保存在多个目录 ...
DB22
IBM官方网站提供了DB2 Express-C版本的软件免费下载: 下载地址 : http://www.ibm.com/developerworks/cn/downloads/im/udbexp/
当个 PM 式程序员「GitHub 热点速览」
本周 GitHub 热点依旧是 GPT 类项目,当中的佼佼者自然是本文收录的 gpt-pilot,一周获得了 7k+ star.此外,像是 LangChain.Autogen 之类的 LLM 工具链项 ...
【干货】前端开发VUE实例
最近公司招聘前端开发----VUE方向. 技术面试是必不可少的,发现大多数人应该没有掌握其开发技术,今天就大概总结一下一.准备工作需要用到VSCODE最新版,nodejs,vue2.0(现在vue ...
RL 基础 | Value Iteration 的收敛性证明
(其实是专业课作业感觉算法岗面试可能会问,来存一下档) 目录问题:证明 Value Iteration 收敛性 0 Definitions - 定义 1 Bellman operator is a ...

【scikit-learn基础】--『监督学习』之 决策树分类