【机器学习】k近邻算法（kNN）

一、写在前面

本系列是对之前机器学习笔记的一个总结，这里只针对最基础的经典机器学习算法，对其本身的要点进行笔记总结，具体到算法的详细过程可以参见其他参考资料和书籍，这里顺便推荐一下Machine Learning in Action一书和Ng的公开课，当然仅有这些是远远不够的，更深入的研究分析可以参见其他国外的论文及站点，此处不再一一列举。机器学习更多的是建模应用，这里仅是一个概要总结，并归纳分析各种算法优缺点，这些都是要了如指掌并且非常熟悉的。

关于机器学习：

基本上目前互联网公司的机器学习/数据挖掘的算法岗位都会涉及到这些东西，而对于计算机方向的研究生都会接触这些。对于机器学习，仅仅懂得这些算法的基本思想和大致流程远远不够，尤其对于工业界的应用层面，关系到应用业务课题，更多要求的是非常熟悉如何去使用它，什么场合使用，算法优缺点，调参经验等等。

机器学习算法总体分类：

1.监督学习：分类、回归

2.无监督学习：聚类、密度估计、降维

3.其他

列举一下机器学习经典算法：

k近邻算法（kNN）

决策树C4.5、ID3、CART树回归（9章）

迭代决策树GBRT(渐进梯度回归树)：决策树的变体，boosting,残差训练,串行算法，每棵树用前一棵树的残差来训练

RF随机森林：主要思想是bagging并行算法，用很多弱模型组合出一种强模型

朴素贝叶斯

logistic回归（实质是分类算法）

线性回归：1.线性回归LR、2.缩减系数：岭回归、lasso、前向逐步回归（这才是真正回归）

支持向量机SVM： SMO、核函数处理高维数据

Boosting：Adaboosting

非均衡分类问题

1.训练时正例数据与反例数据不相等、相差很大

2.衡量分类器成功程度的指标：错误率、正确率、召回率、ROC曲线

3.处理非均衡问题的方法：数据抽样可以对分类器训练数据进行改造:欠抽样(删除样例)过抽样(复制样例)

聚类算法——K均值算法（K-means）

********************************************************************

聚类：1.基于划分的聚类：k-means、k-medoids(每个类别找一个样本来代表)、Clarans

2.基于层次的聚类：(1)自底向上的凝聚方法，比如Agnes

(2)自上而下的分裂方法，比如Diana

3.基于密度的聚类：Obsacn、Optics、Birch(CF-Tree)、Cure

4.基于网格的方法：Sting、WaveCluster

5.基于模型的聚类：EM、SOM、Cobweb

********************************************************************

k-means:优点：.容易实现，……

缺点：.容易局部收敛……

关联规则分析（一）：Apriori

关联规则挖掘（二）：频繁模式树FP-growth

推荐系统

1.基于内容的实现：KNN等

2.基于协同滤波(CF)实现：SVD → pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT

pLSA

LDA主题模型

Regularization(正则化)

异常检测

EM算法、HMM（隐马尔科夫模型）

二、kNN算法

1.算法流程

(1)计算抑制类别数据集中的点与当前点的距离（欧氏距离、马氏距离等）

(2) 按照距离递增依次排序

(3) 选取当前点距离最小的k个点

(4) 确定前k个点所在类别出现频率

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

注意：

l 关于k值个数的选择，其取决于数据。一般地，在分类时，较大k值可以减小噪声的影响，但会使类别界限变得模糊。

Ø 好的k值可以通过各种启发式技术来获取（eg.交叉验证）

Ø
噪声和非相关性特征向量的存在会使k近邻算法的准确性减小

l 近邻算法具有较强的一致性结果，随着数据趋于无线，算法的错误率不会超过贝叶斯算法错误率的2倍。对于一些好的k值，k近邻保证错误率不会超过贝叶斯理论误差率。

l 关于流程中距离计算：欧式距离和马氏距离

2.优缺点、数据类型

优点：精度高，对异常值不敏感，无数据输入假定。

1.可以用作分类或回归

2.可以用作线性分类和非线性分类

3.训练时间复杂度O(n)

4.准确度高，对数据没有假设，对离群点outliner不敏感

缺点：计算复杂度高，空间复杂度高

1.计算量大

2.样本不均衡问题（即：有时类样本很多，有时类样本很少）

3.需要大量内存

数据类型：数值型、标称型

3.应用场景

分类、回归。

线性分类、非线性分类