【Sklearn系列】KNN算法

最近邻分类

概念讲解

我们使用的是scikit-learn 库中的neighbors.KNeighborsClassifier 来实行KNN.

from sklearn import neighbors

neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30,p=2, metric=’minkowski’, metric_params=None, n_jobs=1)

n_neighbors 是用来确定多数投票规则里的K值，也就是在点的周围选取K个值最为总体范围

weights : 这个参数很有意思，它的作用是在进行分类判断的时候给最近邻的点加上权重，它的默认值是'uniform',也就是等权重，所以在这种情况下我们就可以使用多数投票规则来判断输入实例的类别预测。还有一个选择是'distance',是按照距离的倒数给定权重。在这种情况下，距离输入实例最近点的类别情况比其他点类别情况更具有说服力。举个例子假如距离询问点最近的三个数据点中，有 1 个 A 类和 2 个 B 类，并且假设 A 类离询问点非常近，而两个 B 类距离则稍远。在等权加权中，K（3）NN 会判断问题点为 B 类；而如果使用距离加权，那么 A 类有更高的权重（因为更近），如果它的权重高于两个 B 类的权重的总和（类别于多数投票规则使用个数，这里只需要大于B类权重的和就可以了），那么算法会判断问题点为 A 类。权重功能的选项应该视应用的场景而定。还有最后一种情况就是用户自己设定权重的设置方法。

algorithm 是分类时采取的算法，有 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，一般情况下选择auto就可以，它会自动进行选择最合适的算法。

p: 在机器学习系列中，我们知道p=1时，距离方法定义为曼哈顿距离，在p=2的时候我们定为欧几里得距离。默认值为2。

接下来，我们就要进行fit() 拟合功能，生成一个knn模型。

knn=KNeighborsClassifier()

knn.fit(X,y)

其中X是数组形式（下面的例子中会有注释讲解），在X中的每一组数据可以是 tuple 也可以是 list 或者一维 array，但要注意所有数据的长度必须一样（等同于特征的数量）。这一点非常的重要。我们可以把X看成是一个矩阵形式，每一行代表的是一个输入实例的特征数据。

y 是一个和 X 长度相同的 list 或一个一维 array，其中每个元素是 X 中相对应的数据的分类标签。

接下来就是进行预测：

knn.predict(X)

这里输入X一个数组，形式类似于(如果是一个二维特征的话)：[ [0,1 ] ,[2,1]...]

概略预测

knn.predict_proba(X)

输出来的是一个数组形式，每一个元素代表了输入实例属于这一类的概率。而数组对应的类别的顺序是根据y中的大小比较顺序参考这里。当然你的输入实例要是不仅仅是一个而是多个的话，那么输出也就相应的变成了[[p1,p2],[p3,p4]...]

正确率打分

neighbors.KNeighborsClassifier.score(X, y, sample_weight=None)

我们一般会把我们的训练数据集分成两类，一个用作学习并训练模型，一列用作测试，这个动能就是学习之后进行测试的功能来看一下准确度。

实际例子

首先我们先拿我们在机器学习系列中的KNN算法中的电影分裂举例。我们在那个系列中自己实现了一个KNN分类器，采取的是欧几里得的距离，这里我们直接使用sklearn库中的函数来实现KNN算法，大家可以参考两者来看。

import numpy as np

import sklearn

from sklearn import datasets

from sklearn.neighbors import KNeighborsClassifier

X_train = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  #这里是数组形式哦，要注意哦，如果输入的dataframe（因为一般我们导入文件的话都是使用csv模式，导入进来一般是形成dataframe模式，我们需要在fit()函数中使用 X_train.values,y_train.values）

y_train=['A','A','B','B']

knn=KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train,y_train)

knn.predict([[5,0],[4,0]])#要注意哦，预测的时候也要上使用数组形式的