# 机器学习算法总结-第一天(KNN、决策树)

KNN算法总结

KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别。（监督）

k近邻算法（knn）是一种基本的分类与回归的算法，k-means是一种基本的聚类方法。

在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

缺点：它无法给出任何数据的基础结构信息，因此我们无法知道平均实例样本和典型事例样本的特征。

KNN中的K值手工输入或者由我们经验决定。

1、“肘部原则”

2、在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的K值。

K值较小，则模型复杂度较高，容易发生过拟合。

K值选取的太大，导致分类模糊。

决策树

选择分裂属性是要找出能够使所有孩子节点数据最纯的属性，决策树使用信息增益或者信息增益率作为选择属性的依据。

信息增益

用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值，计算公式表示为：

其中Gain表示节点的复杂度，Gain越高，说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和，信息增益越大，分裂后的复杂度减小得越多，分类的效果越明显。

节点的复杂度可以用以下两种不同的计算方式：

熵（熵描述了数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高。熵的计算公式如下所示：）

其中Pi表示类i的数量占比。以二分类问题为例，如果两类的数量相同，此时分类节点的纯度最低，熵等于1；如果节点的数据属于同一类时，此时节点的纯度最高，熵等于0。

基尼值（和熵一样描述数据的混乱度）

其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例，当两类数量相等时，基尼值等于0.5 ；当节点数据属于同一类时，基尼值等于0 。基尼值越大，数据越不纯。

例子：https://www.cnblogs.com/yonghao/p/5061873.html

信息增益率

使用信息增益作为选择分裂的条件有一个不可避免的缺点：倾向选择分支比较多的属性进行分裂。为了解决这个问题，引入了信息增益率这个概念。信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益

剪枝

决策树是充分考虑了所有的数据点而生成的复杂树，有可能出现过拟合的情况，决策树越复杂，过拟合的程度会越高。

怎么剪

两种方案：先剪枝和后剪枝

1、先剪枝说白了就是提前结束决策树的增长，跟上述决策树停止生长的方法一样。

2、后剪枝是指在决策树生长完成之后再进行剪枝的过程。这里介绍三种后剪枝方案：

REP—错误率降低剪枝（顾名思义，该剪枝方法是根据错误率进行剪枝，如果一棵子树修剪前后错误率没有下降，就可以认为该子树是可以修剪的。）

PEP—悲观剪枝（悲观剪枝认为如果决策树的精度在剪枝前后没有影响的话，则进行剪枝。怎样才算是没有影响？如果剪枝后的误差小于剪枝前经度的上限，则说明剪枝后的效果与剪枝前的效果一致，此时要进行剪枝。）

CCP—代价复杂度剪枝（代价复杂度选择节点表面误差率增益值最小的非叶子节点，删除该非叶子节点的左右子节点，若有多个非叶子节点的表面误差率增益值相同小，则选择非叶子节点中子节点数最多的非叶子节点进行剪枝。）

　　决策树的构建算法主要有ID3、C4.5、CART三种，其中ID3和C4.5是分类树，CART是分类回归树。

ID3

ID3是基本的决策树构建算法，作为决策树经典的构建算法，其具有结构简单、清晰易懂的特点。虽然ID3比较灵活方便，但是有以下几个缺点：

　（1）采用信息增益进行分裂，分裂的精确度可能没有采用信息增益率进行分裂高

（2）不能处理连续型数据，只能通过离散化将连续性数据转化为离散型数据

（3）不能处理缺省值

（4）没有对决策树进行剪枝处理，很可能会出现过拟合的问题

细节参考这篇文章：https://www.cnblogs.com/yonghao/p/5096358.html

C4.5

C4.5在ID3的基础上对上述三个方面进行了相应的改进：

a） C4.5对节点进行分裂时采用信息增益率作为分裂的依据；

b）能够对连续数据进行处理；（先根据连续型属性进行排序，然后采用一刀切的方式将数据砍成两半，计算每一个切割点切割后的信息增益，然后选择使分裂效果最优的切割点。）

c） C4.5采用剪枝的策略，对完全生长的决策树进行剪枝处理，一定程度上降低过拟合的影响。（悲观剪枝方法）

具体例子参考这篇：https://www.cnblogs.com/yonghao/p/5122703.html

CART

（1）CART既能是分类树，又能是回归树；

（2）当CART是分类树时，采用GINI值作为节点分裂的依据；当CART是回归树时，采用样本的最小方差作为节点分裂的依据；

GINI值的计算公式：

回归方差计算公式：

（3）CART是一棵二叉树。

（4）CART采用CCP（代价复杂度）剪枝方法

具体分类树、回归树sklearn的算法看pdf，内容就不在这里帖了。