k邻近算法(KNN)实例

一 k近邻算法原理

k近邻算法是一种基本分类和回归方法.

原理:K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的
多数属于某个类，就把该输入实例分类到这个类中。

如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。这也就是我们的目的，来了一个新的数据点，我要得到它的类别是什么？好的，下面我们根据k近邻的思想来给绿色圆点进行分类。

如果K=3，绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
如果K=5，绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。

参考一文搞懂k近邻（k-NN）算法（一） https://zhuanlan.zhihu.com/p/25994179

二特点

优点：精度高(计算距离)、对异常值不敏感（单纯根据距离进行分类，会忽略特殊情况）、无数据输入假定
　　（不会对数据预先进行判定）。

缺点：时间复杂度高、空间复杂度高。

适用数据范围：数值型和标称型。

三欧氏距离(Euclidean Distance)

欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。公式如下：

四 sklearn库中使用k邻近算法

分类问题：from sklearn.neighbors import KNeighborsClassifier
回归问题：from sklearn.neighbors import KNeighborsRegressor

五使用sklearn的K邻近简单实例

1 数据蓝蝴蝶

#导包

import numpy as np

import pandas  as pd

from pandas import DataFrame,Series

from sklearn.neighbors import KNeighborsClassifier #k邻近算法模型

#使用datasets创建数据

import sklearn.datasets as datasets

iris = datasets.load_iris()

feature = iris['data']

target = iris['target']

#将样本打乱，符合真实情况

np.random.seed(1)

np.random.shuffle(feature)

np.random.seed(1)

np.random.shuffle(target)

#训练数据

x_train = feature[:140]

y_train = target[:140]

#测试数据

x_test = feature[-10:]

y_test =target[-10:]

#实例化模型对象&训练模型

knn = KNeighborsClassifier(n_neighbors=10)

knn.fit(x_train,y_train)

knn.score(x_train,y_train)

print('预测分类：',knn.predict(x_test))

print('真实分类：',y_test)

2 根据身高、体重、鞋子尺码，预测性别

#导包

import numpy as np

import pandas  as pd

from pandas import DataFrame,Series

#手动创建训练数据集

feature = np.array([[170,65,41],[166,55,38],[177,80,39],[179,80,43],[170,60,40],[170,60,38]])

target = np.array(['男','女','女','男','女','女'])

from sklearn.neighbors import KNeighborsClassifier #k邻近算法模型

#实例k邻近模型，指定k值=3

knn = KNeighborsClassifier(n_neighbors=3)

#训练数据

knn.fit(feature,target)

#模型评分

knn.score(feature,target)

#预测

knn.predict(np.array([[176,71,38]]))

3 手写数字识别

导包

import numpy as np

import pandas as pd

from pandas import DataFrame,Series

import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsClassifier

查看单一图片特征

img=plt.imread('data/0/0_2.bmp')

plt.imshow(img)

提炼样本数据

feature=[]

target=[]

for i in range(10):

    for j in range(500):

        img_arr=plt.imread(f'data/{i}/{i}_{j+1}.bmp')

        feature.append(img_arr)

        target.append(i)

#构建特征数据格式

feature=np.array(feature)

target=np.array(target)

feature.shape #(5000, 28, 28)

#输入数据必须是二维数组,必须对feature降维

#(1)降维方式一:mean() (2)降维方式二:reshape()

feature=feature.reshape(5000,28*28)

#将样本打乱 (必须使用多个seed)

np.random.seed(5)

np.random.shuffle(feature)

np.random.seed(5)

np.random.shuffle(target)

#数据分割为训练数据和测试数据

x_train=feature[:4950]

y_train=target[:4950]

x_test=feature[-50:]

y_test=target[-50:]

KNN模型建立和评分

#训练模型

knn.fit(x_train,y_train)

#评分

knn.score(x_train,y_train)

#预测

# knn.predict(x_test)

真实预测手写数字图片的一般流程

# 读取图片数据

num_img_arr=plt.imread('../../数字.jpg')

plt.imshow(num_img_arr)

#图片截取数字5

five_arr=num_img_arr[90:158,80:132]

plt.imshow(five_arr)

#降维操作(five数组是三维的，需要进行降维，舍弃第三个表示颜色的维度)

print(five_arr.shape) #(65, 56, 3)

five=five_arr.mean(axis=2)

print(five.shape) #(65, 56)

plt.imshow(five)

# 图片压缩为像素28*28

import scipy.ndimage as ndimage

five = ndimage.zoom(five,zoom = (28/68,28/52))

five.shape #(28, 28)

# 压缩后的5的显示

plt.imshow(five)

# 把数据降维为feature 数据格式

five.reshape(1,28*28)

#预测

knn.predict(five.reshape(1,28*28))

下载源数据和代码:https://github.com/angleboygo/data_ansys

k邻近算法(KNN)实例的更多相关文章

<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...

随机推荐

BZOJ_1823_[JSOI2010]满汉全席_2-sat+tarjan
BZOJ_1823_[JSOI2010]满汉全席_2-sat 题意:http://www.lydsy.com/JudgeOnline/problem.php?id=1823 分析:一道比较容易看出来的 ...
BZOJ_5301_[Cqoi2018]异或序列&&CF617E_莫队
Description 已知一个长度为 n 的整数数列 a[1],a[2],…,a[n] ,给定查询参数 l.r ,问在 [l,r] 区间内,有多少连续子序列满足异或和等于 k . 也就是说,对于所 ...
laravel 查询数据返回的结果
laravel查询数据返回的结果在插入数据库的时候,发现查询数据返回的结果是一个对象;即使是空数据返回的不是true或者false 那么要判断该结果是否查询有结果该如果呢? 学习源头: http ...
（4）STM32使用HAL库实现串口通讯——理论讲解
一.查询模式 1. 二.中断模式 1.中断接收. 1.1先看中断接收的流程(以 USART2 为例) 在启动文件中找到中断向量 USART2_IRQHandler 找到USART2_IRQHandle ...
Android--app性能问题的总结（一）
一个应用程序的性能问题体现在很多方面,app的性能问题,很大程度上决定了使用app的用户量,如果正在使用app的过程中出现app崩溃.卡顿半天加载不出数据(跟网络也有一定的关系).用户请求事件半天获 ...
linux 文本编辑软件管理
gerp 命令 : grep是强大的文本搜索工具,它对文本文件逐行查看,如果找到匹配的模式,就会打印出包含此模式的所有行,并且grep支持正则表达式 1 grep 选项模式被查找文件 : gre ...
Unity协程基础用法
//通过StartCoroutine()开始一个协程//通过StopCoroutine();关闭一个协程//通过StopAllCoroutines()方法来实现关闭所有协程void Start(){D ...
C#处理json实战
昨天看到技术群中发了一个查询天气的api,http://www.sojson.com/open/api/weather/json.shtml?city=南昌点进去看,发现服务器传回来一个天气信息的j ...
兼容IE8浏览器移除class样式的方法
项目中发现,IE8下不兼容JQ的removeClass和addClass,页面无效果网上找了很多方法都没有效果,最终找到一个很好的笨方法 var div=document.getElementByI ...
HTML文本框样式大全
粘贴自Christian.Cao 博客园地址 : https://www.cnblogs.com/QQ862668193/p/6893797.html 输入框景背景透明:<input style ...