【Sklearn系列】KNN算法
最近邻分类
概念讲解
我们使用的是scikit-learn 库中的neighbors.KNeighborsClassifier 来实行KNN.
from sklearn import neighbors
neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30,p=2, metric=’minkowski’, metric_params=None, n_jobs=1)
n_neighbors 是用来确定多数投票规则里的K值,也就是在点的周围选取K个值最为总体范围
weights : 这个参数很有意思,它的作用是在进行分类判断的时候给最近邻的点加上权重,它的默认值是'uniform',也就是等权重,所以在这种情况下我们就可以使用多数投票规则来判断输入实例的类别预测。还有一个选择是'distance',是按照距离的倒数给定权重。在这种情况下,距离输入实例最近点的类别情况比其他点类别情况更具有说服力。举个例子假如距离询问点最近的三个数据点中,有 1 个 A 类和 2 个 B 类,并且假设 A 类离询问点非常近,而两个 B 类距离则稍远。在等权加权中,K(3)NN 会判断问题点为 B 类;而如果使用距离加权,那么 A 类有更高的权重(因为更近),如果它的权重高于两个 B 类的权重的总和(类别于多数投票规则使用个数,这里只需要大于B类权重的和就可以了),那么算法会判断问题点为 A 类。权重功能的选项应该视应用的场景而定。还有最后一种情况就是用户自己设定权重的设置方法。
algorithm 是分类时采取的算法,有 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’},一般情况下选择auto就可以,它会自动进行选择最合适的算法。
p: 在机器学习系列中,我们知道p=1时,距离方法定义为曼哈顿距离,在p=2的时候我们定为欧几里得距离。默认值为2。
接下来,我们就要进行fit() 拟合功能,生成一个knn模型。
knn=KNeighborsClassifier()
knn.fit(X,y)
其中X是数组形式(下面的例子中会有注释讲解),在X中的每一组数据可以是 tuple 也可以是 list 或者一维 array,但要注意所有数据的长度必须一样(等同于特征的数量)。这一点非常的重要。我们可以把X看成是一个矩阵形式,每一行代表的是一个输入实例的特征数据。
y 是一个和 X 长度相同的 list 或一个一维 array,其中每个元素是 X 中相对应的数据的分类标签。
接下来就是进行预测:
knn.predict(X)
这里输入X一个数组,形式类似于(如果是一个二维特征的话):[ [0,1 ] ,[2,1]...]
概略预测
knn.predict_proba(X)
输出来的是一个数组形式,每一个元素代表了输入实例属于这一类的概率。而数组对应的类别的顺序是根据y中的大小比较顺序参考这里。当然你的输入实例要是不仅仅是一个而是多个的话,那么输出也就相应的变成了[[p1,p2],[p3,p4]...]
正确率打分
neighbors.KNeighborsClassifier.score(X, y, sample_weight=None)
我们一般会把我们的训练数据集分成两类,一个用作学习并训练模型,一列用作测试,这个动能就是学习之后进行测试的功能来看一下准确度。
实际例子
首先我们先拿我们在机器学习系列中的KNN算法中的电影分裂举例。我们在那个系列中自己实现了一个KNN分类器,采取的是欧几里得的距离,这里我们直接使用sklearn库中的函数来实现KNN算法,大家可以参考两者来看。
import numpy as np
import sklearn
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
X_train = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  #这里是数组形式哦,要注意哦,如果输入的dataframe(因为一般我们导入文件的话都是使用csv模式,导入进来一般是形成dataframe模式,我们需要在fit()函数中使用 X_train.values,y_train.values)
y_train=['A','A','B','B']
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
knn.predict([[5,0],[4,0]])#要注意哦,预测的时候也要上使用数组形式的
												
											【Sklearn系列】KNN算法的更多相关文章
- 深入浅出KNN算法(二) sklearn KNN实践
		
姊妹篇: 深入浅出KNN算法(一) 原理介绍 上次介绍了KNN的基本原理,以及KNN的几个窍门,这次就来用sklearn实践一下KNN算法. 一.Skelarn KNN参数概述 要使用sklearnK ...
 - day-9 sklearn库和python自带库实现最近邻KNN算法
		
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
 - 【机器学习算法基础+实战系列】KNN算法
		
k 近邻法(K-nearest neighbor)是一种基本的分类方法 基本思路: 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类别,就把输 ...
 - 【Machine Learning】KNN算法虹膜图片识别
		
K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
 - 机器学习回顾篇(6):KNN算法
		
1 引言 本文将从算法原理出发,展开介绍KNN算法,并结合机器学习中常用的Iris数据集通过代码实例演示KNN算法用法和实现. 2 算法原理 KNN(kNN,k-NearestNeighbor)算法, ...
 - KNN算法
		
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
 - 机器学习笔记--KNN算法2-实战部分
		
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
 - KNN算法简单应用
		
这里是写给小白看的,大牛路过勿喷. 1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集 ...
 - 深入浅出KNN算法(一) KNN算法原理
		
一.KNN算法概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学 ...
 
随机推荐
- ubuntu搭建LAMP全教程及简单使用
			
一:安装: 参考:http://jingyan.baidu.com/article/a681b0de36ad683b18434691.html 本经验向你展示如何在ubuntu14.04 环境下搭建a ...
 - ORM------多表操作
			
上面介绍了单表操作 下面就好比我们的sql语句这只能满足于我们的一些简单的操作不能适应我们更多的需要 所以我们需要用到更多的需求来进行我们的关系的建立以及查找 其实ORM语句就对应着我们的sql语句 ...
 - Linux bash内置命令集
			
man cd -->查询不到,所以会提示bash的内置命令 . alias bg bind break builtin caller cd command compgen complete c ...
 - Linux 下LAMP环境搭建_【all】
			
LAMP = Linux + Apache + Mysql + PHP 0. Linux环境搭建 Linux 系统安装[Redhat] 1.http服务软件分类及企业实战用途介绍 静态程序: Apac ...
 - NJCTF2017 web getflag(详解)
			
题目: url:http://218.2.197.235:23725/ writeup: 首先随便输入后查看源码: <imgsrc=" ...
 - scala当中的类型参数
			
类型参数主要就是研究scala当中的类或者scala当中的方法的泛型 1.scala当中的类的泛型 object Demo8 { def main(args: Arr ...
 - BZOJ2208:[JSOI2010]连通数(DFS)
			
Description Input 输入数据第一行是图顶点的数量,一个正整数N. 接下来N行,每行N个字符.第i行第j列的1表示顶点i到j有边,0则表示无边. Output 输出一行一个整数,表示该图 ...
 - spring boot +druid数据库连接池配置
			
1.启动应用入口修改 增加servlet注解 import javax.sql.DataSource; import org.apache.ibatis.session.SqlSessionFacto ...
 - Java中使用OpenSSL生成的RSA公私钥
			
RSA是什么:RSA公钥加密算法是1977年由Ron Rivest.Adi Shamirh和LenAdleman在(美国麻省理工学院)开发的.RSA取名来自开发他们三者的名字.RSA是目前最有影响力的 ...
 - 卢卡斯定理Lucas
			
卢卡斯定理Lucas 在数论中,\(Lucas\)定理用于快速计算\(C^m_n ~ \% ~p\),即证明\(C^m_n = \prod_{i = 0} ^kC^{m_i}_{n_i}\)其中\(m ...