更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

scikit-learn库之k近邻算法

由于k近邻可以做回归又可以做分类，所以最普通的k近邻算法在scikit-learn库中有两种实现，即KNeighborsClassifier和KNeighborsRegressor；上次讲到了k近邻的两个扩展限定半径k近邻，因此该方法在scikit-learn中也有两种实现，即RadiusNeighborsClassifier和RadiusNeighborsRegressor；k近邻还有一种扩展，即最近质心分类算法NearestCentroid。

接下来将会讨论这五者的区别，由于是从官方文档翻译而来，翻译会略有偏颇，有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors

一、KNeighborsClassifier

1.1 使用场景

KNeighborsClassfier模型就是最普通的k近邻算法，可以通过参数控制使用高斯距离、kd树、球树找到实例的\(k\)个近邻。

1.2 代码

from sklearn.neighbors import KNeighborsClassifier

X = [[0], [1], [2], [3]]

y = [0, 0, 1, 1]

neigh = KNeighborsClassifier(n_neighbors=3)

neigh.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

           metric_params=None, n_jobs=None, n_neighbors=3, p=2,

           weights='uniform')

print(neigh.predict([[1.1]]))

[0]

print(neigh.predict_proba([[0.9]]))

[[0.66666667 0.33333333]]

1.3 参数详解

n_neighbors：\(k\)值选择，int类型。一般选择一个较小的\(k\)值，然后通过交叉验证选择一个较好的\(k\)值。默认为5。
weights：近邻权重，str类型。如果weights='uniform'，则意味着所有近邻的权重都一样；如果weights='distance'，则意味着权重和距离成反比，即距离目标点更近的点有更高的权重；可以自定定义函数自定义权重，输入是距离值，输出是权重值。默认为'uniform'。
algorithm：算法实现，str类型。如果algorithm='brute'，即最原始的k近邻算法，计算出所有点与点之间的距离；如果algorithm='kd_tree'，即kd树实现；如果algorithm='ball_tree'，即球树实现；如果algorithm='auto'，则模型会选择一个拟合最好的算法。如果样本特征少，使用'auto'即可；如果数据量大或者样本特征多，推荐使用kd树之后再尝试球树，如此做可以提高准确度；如果输入的样本特征是稀疏的时候，scikit-learn始终会自行选择'brute'实现。默认为'auto'。
leaf_size：叶子节点阈值，int类型。只有当algorithm={'kd_tree','ball_tree'}时该参数才生效，这个值越小，则生成的kd树或球树层数越大，建树时间越长，泛指层数越小，建树时间短。如果样本数量过大，则必须得增大该值，因为树的层数越大，则树越容易过拟合，推荐使用交叉验证选择一个较优值。默认为30。
p：距离度量附属参数，int类型。只有当metric='minkowski'时该参数才生效，p=1时为曼哈顿距离，p=2时为欧氏距离。默认为2。
metric：距离度量类型，str类型。metric='euclidean'为欧氏距离；metric='manhattan'为曼哈顿距离；metric='chebyshev'为切比雪夫距离；metric='minkowski'为闵可夫斯基距离；metric='wminkowski'为带权重闵可夫斯基距离；metric='seuclidean'为标准化欧氏距离；metric='mahalanobis'为马氏距离，通常情况下默认的metric='minkowski'+p=2即欧式距离就可以满足大多数业务的需求。默认为'minkowski'。
metric_params：距离度量附属参数，dict类型。如带权重闵可夫斯基距离的参数，一般不会用到。
n_jobs：并行数，int类型。n_jobs=1使用1个cpu运行程序；n_jobs=2，使用2个cpu运行程序；n_jobs=-1，使用所有cpu运行程序。默认为1。

1.4 方法

fit(X,y)：把数据放入模型中训练模型。
get_params([deep])：返回模型的参数，可以用于Pipeline中。
predict(X)：预测样本X的分类类别。
predict_proba(X)：返回样本X在各个类别上对应的概率。
score(X,y[,sample_weight])：基于报告决定系数\(R^2\)评估模型。
set_prams(**params)：创建模型参数。

1.4.1 kneighbors([X, n_neighbors, return_distance])

找到某个点的n_neighbors个近邻。

# 为方便测试接下来的方法测试我们将通过最近邻模型演示

samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]

from sklearn.neighbors import NearestNeighbors

neigh = NearestNeighbors(n_neighbors=1)

neigh.fit(samples)

NearestNeighbors(algorithm='auto', leaf_size=30, metric='minkowski',

         metric_params=None, n_jobs=None, n_neighbors=1, p=2, radius=1.0)

print(neigh.kneighbors([[1., 1., 1.]]))

(array([[0.5]]), array([[2]]))

X = [[0., 1., 0.], [1., 0., 1.]]

neigh.kneighbors(X, return_distance=False)

array([[1],

       [2]])

1.4.2 kneighbors_graph([X, n_neighbors, mode])

计算样本X的n_neighbors个近邻的权重，可以返回距离或者矩阵关系图。

X = [[0], [3], [1]]

from sklearn.neighbors import NearestNeighbors

neigh = NearestNeighbors(n_neighbors=2)

neigh.fit(X)

A = neigh.kneighbors_graph(X)

A.toarray()

array([[1., 0., 1.],

       [0., 1., 1.],

       [1., 0., 1.]])

二、KNeighborsRegressor

KNeighborsRegressor模型类似于KNeighborsClassifier模型，不同的是两个模型找到\(k\)个近邻的时候KNeighborsClassifier模型使用了多数表决发选择类别，而KNeighborsRegressor模型使用了对\(k\)近邻去平均数或者中位数的方法得到预测值。

三、RadiusNeighborsClassifier

RadiusNeighborsClassifier模型类似KNeighborsClassifier模型，不同之处在于RadiusNeighborsClassifier模型少了两个参数n_neighbors和n_jobs，多了两个参数：

radius半径大小，float类型。即选择半径大小的参数。默认为1。
outlier_label，异常点类别，str类型。即假设限定半径后，目标点半径内没有近邻时该选择哪个类别作为输出。默认为None，不建议使用默认值。

四、RadiusNeighborsRegressor

RadiusNeighborsRegressor模型类似于RadiusNeighborsRegressor模型，不同之处在于少了参数outlier_label，并且两者在得到\(k\)个近邻后处理的方式不同。

五、NearestCentroid

NearestCentroid模型是基于最近质心分类算法实现的，由于只有metric距离度量参数和shrink_threshold特征距离阈值两个参数，不多赘述。

02-18 scikit-learn库之k近邻算法的更多相关文章

02-16 k近邻算法
目录 k近邻算法一.k近邻算法学习目标二.k近邻算法引入三.k近邻算法详解 3.1 k近邻算法三要素 3.1.1 k值的选择 3.1.2 最近邻算法 3.1.3 距离度量的方式 3.1.4 分类 ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说: ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
<转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...

随机推荐

GNU大型项目构建和覆盖率生成（第一篇）
目录 0. 序言 1. 项目描述 2. 项目构建 2.1 编译规则 2.2 构建过程 3. 覆盖率分析 0. 序言在开始正文之前,请允许我先说明一下本文的目的和写作的动机,好让读者不惑. 我们知道, ...
【Offer】[18-2] 【删除链表中重复的节点】
题目描述思路分析测试用例 Java代码代码链接题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3- ...
Python操作MongoDB文档数据库
1.Pymongo 安装安装pymongo: pip install pymongo PyMongo是驱动程序,使python程序能够使用Mongodb数据库,使用python编写而成: 2.Pym ...
Python学习之旅：用Python制作一个打字训练小工具
一.写在前面说道程序员,你会想到什么呢?有人认为程序员象征着高薪,有人认为程序员都是死肥宅,还有人想到的则是996和 ICU. 别人眼中的程序员:飞快的敲击键盘.酷炫的切换屏幕.各种看不懂的字符代码 ...
springCloud相关学习资料
SpringCloud相关学习资料 SpringCloud资料参考: 1. 史上最简单的 SpringCloud 教程 | 终章 2. Spring Cloud基础教程 SpringCloud相关: ...
java架构之路-（11）JVM的对象和堆
上次博客,我们说了jvm运行时的内存模型,堆,栈,程序计数器,元空间和本地方法栈.我们主要说了堆和栈,栈的流程大致也说了一遍,同时我们知道堆是用来存对象的,分别年轻代和老年代.但是具体的堆是怎么来存放 ...
Spring Boot 配置文件和命令行配置
Spring Boot 属于约定大于配置,就是说 Spring Boot 推荐不做配置,很多都是默认配置,但如果想要配置系统,使得软件符合业务定义,Spring Boot 可以通过多种方式进行配置. ...
每个Java开发人员都应该知道的10个基本工具
大家好,我们已经在2019年的第9个月,我相信你们所有人已经在2019年学到了什么,以及如何实现这些目标.我一直在写一系列文章,为你提供一些关于你可以学习和改进的想法,以便在2019年成为一个更好的. ...
SQLServer的排序规则（字符集编码）
SQLServer的排序规则(字符集编码) 一.总结 1.SQLServer中的排序规则就是其他关系型数据库里所说的字符集编码: 2.SQLServer中的排序规则可以在3处设置,如下: 服务器级别( ...
CSS精灵图合成工具
链接:http://pan.baidu.com/s/1o7OUUVo 提取密码:rmnx

02-18 scikit-learn库之k近邻算法