sklearn.neighbors.NNeighborsClassifier 详细说明

平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器，所以这里对NNeighborsClassifier中的参数进行说明，文中参考的是scikit-learn 0.20.3版本。

NNeighborsClassifier函数中参数如下：

n_neighbors：类别预测时，选择的最邻近数据点数量，默认为5。设置该参数时需要注意，设置得过大容易将一些较远的样本引入，造成误分类，尤其是在数据密度分布不均匀时，不过这个问题可以通过对样本施加权重来改善；设置得过小时噪声的影响就非常明显。

weights：设置邻近范围内数据点的权重，默认是不施加权重，采用'uniform'，所有数据点都一样。在施加权重时，一般可以选择 ‘distance’ 或者自定义权重的施加方式。采用‘distance’时，权重是数据点与待分类点距离的倒数，使用更多的权重函数是高斯函数，这个需要用户自定义，在自定义权重函数时，输入参数是一些列距离值，返回值是一些列权重值。

algorithm: 选择K最邻近分类器构建算法。构建K最邻近分类器的过程主要是用 ‘距离’ 的度量准则、采用合理的数据结构存储训练集，在类别预测时能够快速的搜索数据。目前常用的数据结构是 “球树(ball-tree)”、"KD树(kd-tree)"，暴力搜索方然也是一种方式。ball-tree在构建时会比kd-tree要麻烦一些，因为涉及到距离的计算，但是在类别预测时，其最邻近点检索更快，且一般在高维数据中表现比较好。kd-tree采用二叉树方式存储数据，构建过程比较快，但是搜索过程麻烦，因此一般适用于数据集较小、维度较低的场合。暴力搜索一般不推荐，仅用于少量数据的情形下。该参数有4个可选值，“ball_tree”、“kd_tree”、"brute"、“auto”，brute表示暴力搜索，当设置“auto”时，会依据传入的训练数据自动选择最合适的算法。

leaf_size：设置叶子结点个数，默认值为30。该参数用于 algorithm为ball_tree或kd_tree的情况，叶子结点数越多，则树模型深度越大，构建和搜索过程越耗时，但是分类准确率越高，因此该值如何设置需要依据具体的问题考虑。一般来说，训练数据集越大，则可以适当将该值设置大一些。

p：选用距离的计算方式，1表示使用曼哈顿距离，2表示使用欧氏距离，默认为2。对任意两个n维数据 $x(x_{1},x_{2},...,x_{n})$ 和 $y(y_{1},y_{2},...,y_{n})$ ，将p设置为任意的正整数值时， $x$ 与 $y$ 的距离的计算方式为闵可夫斯基距离：

$d=\sqrt[p]{\sum_{i=1}^{n}|x_{i}-y_{i}|^{p}}$

metric:设置距离度量方式，默认是闵可夫斯基距离。距离的度量方式有多种，应用于不同的距离，例如在文档相似性分析中，词频数据是一个稀疏数据，一般采用余弦距离度量。

n_jobs：设置执行分类任务时的并行线程个数，主要是为了提高数据搜索效率，默认为None,表示使用1个线程，-1表示使用所有可用的线程，该参数不影响分类结果。

sklearn.neighbors.NNeighborsClassifier 详细说明的更多相关文章

sklearn：最近邻搜索sklearn.neighbors
http://blog.csdn.net/pipisorry/article/details/53156836 ball tree k-d tree也有问题[最近邻查找算法kd-tree].矩形并不是 ...
sklearn.neighbors.KNeighborsClassifier(k近邻分类器)
KNeighborsClassifier参数说明KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', lea ...
sklearn.neighbors.kneighbors_graph的简单属性介绍
connectivity = kneighbors_graph(data, n_neighbors=7, mode='distance', metric='minkowski', p=2, inclu ...
sklearn.tree.DecisionTreeClassifier 详细说明
sklearn.tree.DecisionTreeClassifier()函数用于构建决策树,默认使用CART算法,现对该函数参数进行说明,参考的是scikit-learn 0.20.3版本. ...
python机器学习-sklearn挖掘乳腺癌细胞（五）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
sklearn：Python语言开发的通用机器学习库
引言:深入理解机器学习并全然看懂sklearn文档,须要较深厚的理论基础.可是.要将sklearn应用于实际的项目中,仅仅须要对机器学习理论有一个主要的掌握,就能够直接调用其API来完毕各种机器学习问 ...
sklearn异常检测demo
sklearn 异常检测demo代码走读 # 0基础学python,读代码学习python组件api import time import numpy as np import matplotlib ...
sklearn的常用函数以及参数
sklearn可实现的函数或者功能可分为如下几个方面 1.分类算法2.回归算法3.聚类算法4.降维算法5.模型优化6.文本预处理其中分类算法和回归算法又叫监督学习,聚类算法和降维算法又叫非监督学习 ...

随机推荐

java9系列第二篇-资源自动关闭的语法增强
我计划在后续的一段时间内,写一系列关于java 9的文章,虽然java 9 不像Java 8或者Java 11那样的核心java版本,但是还是有很多的特性值得关注.期待您能关注我,我将把java 9 ...
深入了解Redis(7)-缓存穿透,雪崩,击穿
redis作为一个内存数据库,在生产环境中使用会遇到许多问题,特别是像电商系统用来存储热点数据,容易出现缓存穿透,雪崩,击穿等问题.所以实际运用中需要做好前期处理工作. 一.缓存雪崩 1.概念缓存雪 ...
无法访问GitHub
我们开发者经常用的最大的同性交流平台--GitHub忽然访问不了了,很尴尬可以打开控制台 ping一下 github.com 果不其然不通不过幸运的是里面有github的ip地址,好像是美国某个 ...
【不知道怎么分类】HDU - 5963 朋友
题目内容 B君在围观一群男生和一群女生玩游戏,具体来说游戏是这样的: 给出一棵n个节点的树,这棵树的每条边有一个权值,这个权值只可能是0或1. 在一局游戏开始时,会确定一个节点作为根.接下来从女生开始 ...
方格取数（简单版）+小烈送菜（不知道哪来的题）-----------奇怪的dp增加了！
一.方格取数: 设有N*N的方格图(N<=20),我们将其中的某些方格中填入正整数,而其他的方格中则放入数字0. 某人从图的左上角的A(1,1) 点出发,可以向下行走,也可以向右走,直到到达右下 ...
spring boot:用dynamic-datasource-spring-boot-starter配置多数据源访问seata(seata 1.3.0 / spring boot 2.3.3)
一,dynamic-datasource-spring-boot-starter的优势? 1,dynamic-datasource-spring-boot-starter 是一个基于springboo ...
centos8平台使用stress做压力测试
一,安装stress: 说明:el8的源里面还没有,先用el7的rpm包 [root@centos8 source]# wget https://download-ib01.fedoraproject ...
Go语言中Goroutine与线程的区别
1.什么是Goroutine? Goroutine是建立在线程之上的轻量级的抽象.它允许我们以非常低的代价在同一个地址空间中并行地执行多个函数或者方法.相比于线程,它的创建和销毁的代价要小很多,并且它 ...
js一些注意事项
0.正则表达式,千万不能加引号 1.json对象的key必须用双引号,否则parse时可能出错: json对象不能直接存储时间对象,需要将时间对象加双引号转为字符串,存储,然后对表示时间的属性进行ne ...
数据结构（C++）——链表
顺序表和链表的比较 1.存取方式顺序表可以随机访问,而链表只能从表头顺序查找.(因此经常查找顺序表某一个元素时,顺序表更适合) 2.逻辑结构与物理结构顺序表中,逻辑上相邻的元素,其物理存储位置也相 ...

sklearn.neighbors.NNeighborsClassifier 详细说明

sklearn.neighbors.NNeighborsClassifier 详细说明的更多相关文章

随机推荐

热门专题