#knn介绍 更多参考百度介绍


算法思想:给定一个带标检的训练数据集(就是带分类结果的样本),对于一个新的输入实例,我们在训练数据集中以某种距离度量方式找出与该输入实例距离最近邻的k个实例。
找出这k个实例(这也是knn中k的含义)中类别出现最多的那个类别,最后我们就将该新的输入实例划分为此类别
import numpy as np
# bmp 图片后缀
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier img_path = './data/3/3_100.bmp'
arr_img = plt.imread(img_path)
arr_img.shape #维度 #特征必须是二维
feature = [] #特征
target = [] #目标数据
for i in range(10):
for j in range(1,501):
#img_path = './data/'+str(i)+'/'+str(i)+'_'+str(j)+'.bmp'
#将图片数据读取到了numpy
img_arr = plt.imread('./data/%d/%d_%d.bmp'%(i,i,j)) #格式化替换
feature.append(img_arr)
target.append(i)
#将列表转numpy
feature = np.array(feature)
feature.shape #发现feature是三维,必须变形成二维的才可以作为特征数据
#获取了符合要求的特征数据(二维)
feature = feature.reshape((5000,784))
target = target
#将样本集拆分成训练数据和测试数据
np.random.seed(6)
np.random.shuffle(feature)
np.random.seed(6)
np.random.shuffle(target)
#训练数据
x_train = feature[0:4950]
y_train = target[0:4950]
#测试数据
x_test = feature[4950:]
y_test = target[4950:] x_train.shape #训练形状
knn = KNeighborsClassifier(n_neighbors=15)
knn.fit(x_train,y_train) #试数据
knn.score(x_test,y_test) #评分
print('模型分类结果:',knn.predict(x_test))
print('真实分类:',y_test)

#下面测试一张新的照片

#获取外部的一张数字图片,让模型进行分类
digist_img_arr = plt.imread('./数字.jpg')
digist_img_arr.shape
plt.imshow(digist_img_arr)
five_img_arr = digist_img_arr[95:150,90:125] #图片切割 行/列
plt.imshow(five_img_arr)
#检查切分出图片(即将被模型进行分类的图片)的形状
five_img_arr.shape #(55, 35, 3) #将图片的第三个维度删除(降维)
five_img_arr = five_img_arr.mean(axis=2) #任意的聚合方法都能降维 0-x 1-y 2-z
five_img_arr.shape
#对不满足像素要求的图片进行等比例压缩
import scipy.ndimage as ndimage
five_img_arr = ndimage.zoom(five_img_arr,zoom=(28/55,28/35)) #图片压缩
five_img_arr.shape #(28, 28)
five_img_arr = five_img_arr.reshape((1,784)) #1行784列
five_img_arr.shape #(1,784)
knn.predict(five_img_arr)[0] #X 未知分类的数据

#模型保存和运用

#保存模型
from sklearn.externals import joblib
joblib.dump(knn,'./knn.m') #写入模型 value, filename, compress=0, protocol=None, cache_size=None
kknn = joblib.load('./knn.m') #读取模型 kknn对象
print(kknn)
#KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
#metric_params=None, n_jobs=1, n_neighbors=15, p=2,
#weights='uniform')
kknn.predict(five_img_arr)[0] #测试模型 结果5

knn 数字识别的更多相关文章

  1. OpenCV 玩九宫格数独(二):knn 数字识别

    欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:刘潇龙 前言 首先需要说明,这里所说的数字识别不是手写数字识别! 但凡对机器学习有所了解的人,相信看到数 ...

  2. Python 手写数字识别-knn算法应用

    在上一篇博文中,我们对KNN算法思想及流程有了初步的了解,KNN是采用测量不同特征值之间的距离方法进行分类,也就是说对于每个样本数据,需要和训练集中的所有数据进行欧氏距离计算.这里简述KNN算法的特点 ...

  3. 机器学习(二)-kNN手写数字识别

    一.kNN算法是机器学习的入门算法,其中不涉及训练,主要思想是计算待测点和参照点的距离,选取距离较近的参照点的类别作为待测点的的类别. 1,距离可以是欧式距离,夹角余弦距离等等. 2,k值不能选择太大 ...

  4. KNN实现手写数字识别

    KNN实现手写数字识别 博客上显示这个没有Jupyter的好看,想看Jupyter Notebook的请戳KNN实现手写数字识别.ipynb 1 - 导入模块 import numpy as np i ...

  5. 一看就懂的K近邻算法(KNN),K-D树,并实现手写数字识别!

    1. 什么是KNN 1.1 KNN的通俗解释 何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...

  6. kaggle 实战 (1): PCA + KNN 手写数字识别

    文章目录 加载package read data PCA 降维探索 选择50维度, 拆分数据为训练集,测试机 KNN PCA降维和K值筛选 分析k & 维度 vs 精度 预测 生成提交文件 本 ...

  7. Kaggle竞赛丨入门手写数字识别之KNN、CNN、降维

    引言 这段时间来,看了西瓜书.蓝皮书,各种机器学习算法都有所了解,但在实践方面却缺乏相应的锻炼.于是我决定通过Kaggle这个平台来提升一下自己的应用能力,培养自己的数据分析能力. 我个人的计划是先从 ...

  8. 基于OpenCV的KNN算法实现手写数字识别

    基于OpenCV的KNN算法实现手写数字识别 一.数据预处理 # 导入所需模块 import cv2 import numpy as np import matplotlib.pyplot as pl ...

  9. 后端程序员之路 13、使用KNN进行数字识别

    尝试一些用KNN来做数字识别,测试数据来自:MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burgesh ...

随机推荐

  1. S3C2440的时钟原理

    Crystal 无源晶体Oscillator 有源晶体(里面有有源器件) 无源晶振内只有一片按一定轴向切割的石英晶体薄片,供接入运放(或微处理器的XTAL端) 以形成振荡.有源晶振内带运放,工作在最佳 ...

  2. Three.js的开始(附代码)_2

    1 下载Three.js代码 https://github.com/mrdoob/three.js/tree/master/build 2 引用方法 在HTML中添加以下代码: <script ...

  3. Bootstrap Table Api手册

    总是忘记在哪里,找起来又十分的费劲,特地记录下该手册地址. http://www.itxst.com/Bootstrap-Table/QuickStart.html

  4. CodeForce 377 A mazes(dfs+连通性问题)

    Pavel 喜欢网格迷宫.一个网格迷宫是一个 n × m 的长方形迷宫,其中每个单元格要么是空白的,要么是墙体.您可以从一个单元格走到另一个单元格,只要两个单元格均是空白的,且拥有一条公共的边. Pa ...

  5. CodeForces -1216B.Shooting

    水题 #include <cstdio> #include <algorithm> using namespace std; ; struct node{ int s, f; ...

  6. PP: Data-driven classification of residential energy consumption patterns by means of functional connectivity networks

    Purpose Implement a good user aggregation and classification. or to assess the interrelation pattern ...

  7. C++-怎样写程序(面向对象)

    使用编程语言写好程序是有技巧的. 主要编程技术: 1. 编程风格 2. 算法 3. 数据结构 4. 设计模式 5. 开发方法 编程风格指的是编程的细节,比如变量名的选择方法.函数的写法等. 算法是解决 ...

  8. linux 中对 mysql 数据表的基本命令

    显示数据表的结构 describe 表名; 建表 use 库名: create table 表名(字段设定列表): 将表中记录清空 delete from 表名; 删表 drop table 表名:

  9. 1.rest之@Get和@Post请求的区别:

    区别: (1)@Get 一般用于查询或获取资源信息, @Post一般是用于更新资源信息. (2)Url不同, @Get 请求的url: http://localhost:8080/imeter-cms ...

  10. 钉钉、钉应用(微应用和E应用)开发介绍

    钉钉,数字化新工作方式,让工作更简单 目前在钉钉的官网可以看到,超过700万家企业组织正在使用钉钉.笔者也相信,这一数字每天都在增加.获得群众的认可,也是理所当然的,体验过钉钉,就能感觉到,钉钉的考勤 ...