KNN算法基本原理与sklearn实现

'''

KNN 近邻算法，有监督学习算法

用于分类和回归

思路:

    1.在样本空间中查找 k 个最相似或者距离最近的样本

    2.根据这 k 个最相似的样本对未知样本进行分类

步骤：

    1.对数据进行预处理

        提取特征向量，对原来的数据重新表达

    2.确定距离计算公式

        计算已知样本空间中所有样本与未知样本的距离

    3.对所有的距离按升序进行排列

    4.选取与未知样本距离最小的 k 个样本

    5.统计选取的 k 个样本中每个样本所属类别的出现概率

    6.把出现频率最高的类别作为预测结果，未知样本则属于这个类别

程序要点：

1.创建模型需要用到的包

sklearn.neighbors.KNeighborsClassifier

2.创建模型,k = 3

knn = KNeighborsClassifier(n_neighbors = 3)

    n_neighbors 数值不同，创建的模型不同

3.训练模型,进行拟合

knn.fit(x,y)

    x 为二维列表数据

        x = [[1,5],[2,4],[2.2,5],

             [4.1,5],[5,1],[5,2],[5,3],[6,2],

             [7.5,4.5],[8.5,4],[7.9,5.1],[8.2,5]]

    y 为一维分类数据,将数据分为 0 1 2 三类

        y = [0,0,0,

             1,1,1,1,1,

             2,2,2,2]

4.进行预测未知数据，返回所属类别

knn.predict([[4.8,5.1]])

5.属于不同类别的概率

knn.predict_proba([[4.8,5.1]])

'''

from sklearn.neighbors import KNeighborsClassifier

# 导包

x = [[1,5],[2,4],[2.2,5],

     [4.1,5],[5,1],[5,2],[5,3],[6,2],

     [7.5,4.5],[8.5,4],[7.9,5.1],[8.2,5]]

# 设置分类的数据

y = [0,0,0,

     1,1,1,1,1,

     2,2,2,2]

# 对 x 进行分类，前三个分为 0类，1类和2类

knn = KNeighborsClassifier(n_neighbors=3)

# 创建模型 k = 3

knn.fit(x,y)

# 开始训练模型

'''

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,

                     weights='uniform')

'''

knn.predict([[4.8,5.1]])

# array([1]) 预测 4.8,5.1 在哪一个分组中

knn = KNeighborsClassifier(n_neighbors=9)

# 设置参数 k = 9

knn.fit(x,y)

'''

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

                     metric_params=None, n_jobs=None, n_neighbors=9, p=2,

                     weights='uniform')

'''

knn.predict([[4.8,5.1]])

# array([1])

knn.predict_proba([[4.8,5.1]])

# 属于不同类别的概率

# array([[0.22222222, 0.44444444, 0.33333333]])

# 返回的是在不同组的概率

'''

总结:

     knn = KNeighborsClassifier(n_neighbors=3)

     使用 KNeighborsClassifier 创建模型 n_neighbors 为 k

     使用 knn.fit() 进行预测

          第一个参数为 二维列表

          第二个参数为 一维列表

     使用 predict_proba([[num1,num2]])

     查看num1,num2 在模型中出现的概率

'''

2020-04-10

KNN算法基本原理与sklearn实现的更多相关文章

kNN算法基本原理与Python代码实践
kNN是一种常见的监督学习方法.工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k ...
深入浅出KNN算法（二） sklearn KNN实践
姊妹篇: 深入浅出KNN算法(一) 原理介绍上次介绍了KNN的基本原理,以及KNN的几个窍门,这次就来用sklearn实践一下KNN算法. 一.Skelarn KNN参数概述要使用sklearnK ...
【Sklearn系列】KNN算法
最近邻分类概念讲解我们使用的是scikit-learn 库中的neighbors.KNeighborsClassifier 来实行KNN. from sklearn import neighbor ...
day-9 sklearn库和python自带库实现最近邻KNN算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
KNN算法简单应用
这里是写给小白看的,大牛路过勿喷. 1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集 ...
深入浅出KNN算法（一） KNN算法原理
一.KNN算法概述 KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学 ...
knn算法详解
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...

随机推荐

day01微信小程序
一.基本概要 1.一个程序接口,可以集成很多功能,也就是在程序上再次开发腾讯:微信+小程序阿里:支付宝 +小程序小程序的使用量很多 2.为什么要微信小程序? 1.微信用户群体大 2.容易推广, ...
小师妹学JVM之:JIT中的PrintAssembly续集
目录简介 JDK8和JDK14中的PrintAssembly JDK8中使用Assembly JDK14中的Assembly 在JMH中使用Assembly 总结简介上篇文章和小师妹一起介绍了P ...
Meta标签大全_web开发常用meta整理
meta标签提供关于HTML文档的元数据.元数据不会显示在页面上,但是对于机器是可读的.它可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),或其他 web 服务. 必要属性属性值描 ...
微信h5页面下拉露出网页来源的解决办法
微信h5页面下拉露出网页来源的解决办法:将document的touchmove事件禁止掉 //禁止页面拖动 document.addEventListener('touchmove', functio ...
Mariadb之复制过滤器
mariadb的主从复制集群,默认情况下是把主库上的所有库进行复制,只要在主库上产生写操作,从库基于主库的二进制日志做重放,从而实现把主库的上的库表复制到从库:复制过滤器指的是我们仅复制一个或几个数据 ...
洛谷 P4042 [AHOI2014/JSOI2014]骑士游戏
题意有$n$个怪物,可以消耗$k$的代价消灭一个怪物或者消耗$s$的代价将它变成另外一个或多个新的怪物,求消灭怪物$的最小代价思路 $DP$+最短路这几天做的第一道自己能\(yy ...
The Shortest Statement，题解
题目链接分析: 还是很明白的题意,直接分析问题,首先,这一题真的是给spfa用武之地,m比n大不超过20,但是这并不能使暴力不t,我们考虑一下如何改进一下,我们这样想,这个图只比它的生成树多最多21 ...
最全MySQL数据库表的查询操作
序言 1.MySQL表操作(创建表,查询表结构,更改表字段等), 2.MySQL的数据类型(CHAR.VARCHAR.BLOB,等), 本节比较重要,对数据表数据进行查询操作,其中可能大家不熟悉的就对 ...
C++求树子节点权重最大的和
#include <iostream> #include <vector> using namespace std; int n; const int MaxN = 1e5; ...
Mac系统权限打开与关闭
打开系统权限: 关闭mac command+R重启菜单中找到终端输入命令:csrutil enable 关闭系统权限: 重复以上1-3步骤,第4步时输入:csrutil disable

KNN算法基本原理与sklearn实现

KNN算法基本原理与sklearn实现的更多相关文章

随机推荐

热门专题