K-临近算法(KNN)

K nearest neighbour

1、k-近邻算法原理

简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：时间复杂度高、空间复杂度高。
适用数据范围：数值型和标称型。

工作原理

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中K的出处,通常K是不大于20的整数。最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

欧几里得距离(Euclidean Distance)

欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。公式如下：

2、在scikit-learn库中使用k-近邻算法

分类问题：from sklearn.neighbors import KNeighborsClassifier
回归问题：from sklearn.neighbors import KNeighborsRegressor

1）用于分类(用鸢尾花作为示例)

导包，机器学习的算法KNN、数据鸢尾花

# scikit-learning 提供数据样本，可以供我们研究机器学习模型

# 可以使用load方法加载datasets中的各种数据

from sklearn import datasets

import matplotlib.pyplot as plt

iris = datasets.load_iris()  # load是获取本地的数据集 iris就是鸢尾花数据集

data = iris.data  # 特征值

target = iris.target  # 目标值

target_names = iris.target_names  # 目标的名字

feature_names = iris.feature_names  # 特征的名字

df = DataFrame(data,columns=feature_names)

df.plot()

画图研究前两个特征和分类之间的关系（二维散点图只能展示两个维度）

# 取出 前两个特征 特征0 作为横轴 特征1作为纵轴

X_train = data[:,:2]

y_train = target

plt.scatter(X_train[:,0],X_train[:,1],c=target)  # 特征0作为点的横坐标 特征1作为点的纵坐标 target值作为点的颜色映射

plt.xlabel(feature_names[0])

plt.ylabel(feature_names[1])

定义KNN分类器

真正判断分类的时候肯定是用所有的4个特征效果更好
这里只用两个特征来判断分类也可以但是效果肯定不如4个的好
这里之所以用两个是为了画图给大家展示效果

# 获取模型

from sklearn.neighbors import KNeighborsClassifier

# 使用两个特征来训练模型

# n_neighbors可以自己根据经验给定 一般给的是奇数（偶数容易造成 两种分类一样多的情况）

knn = KNeighborsClassifier(n_neighbors=7)

第一步，训练数据

knn.fit(X_train,y_train)

第二步预测数据：所预测的数据，自己创造，就是上面所显示图片的背景点

生成预测数据

# 要 取遍 平面 上 所有点

# 首先 x的范围内要取遍 y的范围内也要取遍

x = np.arange(X_train[:,0].min()-0.5,X_train[:,0].max()+0.5,0.02)  # 取遍x轴

y = np.arange(X_train[:,1].min()-0.5,X_train[:,1].max()+0.5,0.02)  # 取遍y轴

# 交叉 取遍 整个平面

X,Y = np.meshgrid(x,y)  # 返回两个 ndarray 第一个是 平面上所有点的x座标 第二个是平面上所有点的y座标

# c_函数 可以使行 变列 （我们使用这个函数 就可以 把X,Y里面的值 组合成座标点）

X_test = np.c_[X.flatten(),Y.flatten()]  # 使用reshape去变形也可以

plt.scatter(X_test[:,0],X_test[:,1])# 查看是否确定是取遍平面中的所有点

# 模型预测出来的结果 一般叫y_

y_ = knn.predict(X_test)

y_

以图形化的效果展示结果

plt.scatter(X_test[:,0],X_test[:,1],c=y_)

from matplotlib.colors import ListedColormap

# ListedColormap([])  # 创建颜色映射对象

cm1 = ListedColormap(

['#FFAAAA','#AAFFAA','#AAAAFF']

)

cm2 = ListedColormap(

['#FF0000','#00FF00','#0000FF']

)

plt.scatter(X_test[:,0],X_test[:,1],c=y_,cmap=cm1)  # c是color 会根据 传入的不同数值 去填充不同的颜色

plt.scatter(X_train[:,0],X_train[:,1],c=target,cmap=cm2)

plt.xlabel(feature_names[0])

plt.ylabel(feature_names[1])

plt.title('很棒的分类图',fontproperties='KaiTi',fontsize=45,color='r')

K-临近算法(KNN)的更多相关文章

秒懂机器学习---k临近算法（KNN）
秒懂机器学习---k临近算法(KNN) 一.总结一句话总结: 弄懂原理,然后要运行实例,然后多解决问题,然后想出优化,分析优缺点,才算真的懂 1.KNN(K-Nearest Neighbor)算法的 ...
[Machine-Learning] K临近算法-简单例子
k-临近算法算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...
机器学习（Machine Learning）算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法属于分类(classification)算法邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
K临近算法
K临近算法原理 K临近算法(K-Nearest Neighbor, KNN)是最简单的监督学习分类算法之一.(有之一吗?) 对于一个应用样本点,K临近算法寻找距它最近的k个训练样本点即K个Neares ...
k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...

随机推荐

git的简单玩法
本篇笔记参考廖雪峰的git教程,为方便查看将命令部分提取并记录下来. 无意对原作的版权侵犯,如需要学习请到廖雪峰网站学习git 创建git仓库 # mkdir learngit && ...
Spring Boot核心注解@SpringBootApplication
一.作用 @SpringBootApplication是一个组合注解,用于快捷配置启动类. 二.用法可配置多个启动类,但启动时需选择以哪个类作为启动类来启动项目. 三.拆解 1.拆解 ...
TCP/IP协议模型
OSI的来源 OSI(Open System Interconnect),即开放式系统互联. 一般都叫OSI参考模型,是ISO(国际标准化组织)组织在1985年研究的网络互连模型. ISO为了更好的 ...
建立请求号 request
1:获取TR号(一般由团队的负责人创建,发出) 2:进入 i7p系统 3:点击process 4:输入tr号 5:选中正确的请求号,右键> process item> add task ...
bzoj4195（并查集+离散化）
题目大意:给出n个变量互相的相等或不等关系,求这些关系是否矛盾思路:把相等的变量加入并查集,不等的查询是否合法 eg:数据很大,离散化(然而我用的是map) #include<stdio.h& ...
php中获取中文首字母程序代码
年会抽奖,要求一等奖的中奖概率是0.12%,二等奖中奖概率是3%,三等奖中奖概率是12%,其他中奖概率是都是谢谢惠顾. <?php /** * 抽奖 * @param int $total */ ...
python 构造一个可以返回多个值的函数
为了能返回多个值,函数直接return 一个元组就行了看上去返回了多个值,实际上是先创建了一个元组然后返回的.这个语法看上去比较奇怪,实际上我们使用的是逗号来生成一个元组,而不是用括号 >&g ...
windows安装composer总结
1.直接去网吧下载windows安装EXE程序,傻瓜式安装,so easy. 2.通过命令行安装,可以直接在php目录跑起来 php -r "readfile('https://getcom ...
java实现zip压缩和解压工具
引入ant.jar package com.develop.web.util; import java.io.BufferedInputStream; import java.io.File; imp ...
sed 正则的一个小问题
有一段类似以下的文本 aabbccc test[3307]112323553-66778tp aooppx69tp ooppsg aabbccc test[3307]1127233-6674tp bo ...

K-临近算法(KNN)

K-临近算法(KNN)

1、k-近邻算法原理

工作原理

欧几里得距离(Euclidean Distance)

2、在scikit-learn库中使用k-近邻算法

1）用于分类(用鸢尾花作为示例)

K-临近算法(KNN)的更多相关文章

随机推荐

热门专题