KNN (K近邻算法) - 识别手写数字

KNN项目实战——手写数字识别

1、介绍

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

2、数据集介绍

32X32 文本格式数据.

3、代码实现

3.1、导包

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

%matplotlib inline

import os

3.2、读取训练数据

# 获取数据文件

fileList = os.listdir('./data/trainingDigits/')

# 定义数据标签列表

trainingIndex = []


# 添加数据标签

for filename in fileList:

    trainingIndex.append(int(filename.split('_')[0]))

# 定义矩阵数据格式

trainingData = np.zeros((len(trainingIndex),1024))

trainingData.shape
#(3868, 1024)

# 获取矩阵数据

index = 0

for filename in fileList:

    with open('./data/trainingDigits/%s'%filename, 'rb') as f:

        # 定义一个空矩阵

        vect = np.zeros((1,1024))

        # 循环32行

        for i in range(32):

            # 读取每一行数据

            line = f.readline()

            # 遍历每行数据索引  line[j] 即为数据

            for j in range(32):

                vect[0,32*i+j] = int(line[j])

        trainingData[index,:] = vect

        index+=1

3.3、读取测试数据

fileList2 = os.listdir('./data/testDigits/')

# 定义数据标签列表

testIndex = []


# 获取数据标签

for filename2 in fileList2:

    testIndex.append(int(filename2.split('_')[0]))

#读取测试数据 

# 定义矩阵数据格式

testData = np.zeros((len(testIndex),1024))

testData.shape

#(946, 1024)

# 获取矩阵数据

index = 0

for filename2 in fileList2:

    with open('./data/testDigits/%s'%filename2, 'rb') as f:

        # 定义一个空矩阵

        vect = np.zeros((1,1024))

        # 循环32行

        for i in range(32):

            # 读取每一行数据

            line = f.readline()

            # 遍历每行数据索引  line[j] 即为数据

            for j in range(32):

                vect[0,32*i+j] = int(line[j])

        testData[index,:] = vect

        index+=1

3.5、数据建模

from sklearn.neighbors import KNeighborsClassifier

# 定义 k 为5个, 即 寻找最近的3个邻居

knn = KNeighborsClassifier(n_neighbors=3)

# 训练数据

knn.fit(trainingData,trainingIndex)

3.6、分析数据

%%time

# 预测数据 

predict_data = knn.predict(testData)

# Wall time: 7.8 s

knn.score(testData,testIndex)
#0.9862579281183932

# 识别正确率: 98.626%

KNN (K近邻算法) - 识别手写数字的更多相关文章

KNN算法识别手写数字
需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别: 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多. ♦ 数据集包括数字0-9的手写体. ♦每个数字大约有20 ...
KNN 算法-实战篇-如何识别手写数字
公号:码农充电站pro 主页:https://codeshellme.github.io 上篇文章介绍了KNN 算法的原理,今天来介绍如何使用KNN 算法识别手写数字? 1,手写数字数据集手写数字数 ...
基于OpenCV的KNN算法实现手写数字识别
基于OpenCV的KNN算法实现手写数字识别一.数据预处理 # 导入所需模块 import cv2 import numpy as np import matplotlib.pyplot as pl ...
C#中调用Matlab人工神经网络算法实现手写数字识别
手写数字识别实现设计技术参数:通过由数字构成的图像,自动实现几个不同数字的识别,设计识别方法,有较高的识别率关键字:二值化投影矩阵目标定位 Matlab 手写数字图像识别简介: 手写 ...
使用神经网络来识别手写数字【译】（三）- 用Python代码实现
实现我们分类数字的网络好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样识别手写数字. 我们用Python (2.7) 来实现.只有 74 行代码!我们需要的第一个东西是 MNI ...
python手写神经网络实现识别手写数字
写在开头:这个实验和matlab手写神经网络实现识别手写数字一样. 实验说明一直想自己写一个神经网络来实现手写数字的识别,而不是套用别人的框架.恰巧前几天,有幸从同学那拿到5000张已经贴好标签的手 ...
学习笔记TF024:TensorFlow实现Softmax Regression(回归)识别手写数字
TensorFlow实现Softmax Regression(回归)识别手写数字.MNIST(Mixed National Institute of Standards and Technology ...
TensorFlow实战之Softmax Regression识别手写数字
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2018年02月21日 23:10:04所撰写内容(http://blog.c ...
一文全解：利用谷歌深度学习框架Tensorflow识别手写数字图片（初学者篇）
笔记整理者:王小草笔记整理时间2017年2月24日原文地址 http://blog.csdn.net/sinat_33761963/article/details/56837466?fps=1&a ...

随机推荐

JS 浏览器BOM-->简介和属性
1.简介: BOM:浏览器对象模型(Browser Object Model),是一个用于访问浏览器和计算机屏幕的对象集合.我们可以通过全局对象window来访问这些对象. 2.属性 window. ...
11-Json提取器使用
1.使用json提取关键信息有时候接口返回数据为json数据或者直接为一个列表,可使用这个更简单快捷 json数据: 这样的,数据有在result里面以列表形式存在,也有在列表外的,可在json提取 ...
一个lock锁就可以分出低中高水平的程序员对问题的处置方式
说到lock锁,我相信在座的各位没有不会用的,而且还知道怎么用不会出错,但让他们聊一聊为什么可以锁住,都说人以群分,大概就有了下面低中高水平的三类人吧. 第一类人将lock对象定义成static,这 ...
Powershell检查邮件队列设置阈值，通过html形式进行邮件告警
为了完善公司的整体邮件质量,博主通过zabbix监控了exchange的所有微软推荐项目,并写了很多powershell来辅佐, 旨在更大程度上提高整体的邮件性能这篇文章主要是讲通过powershe ...
Atlassian 系列软件安装（Crowd+JIRA+Confluence+Bitbucket+Bamboo）
公司使用的软件开发和协作工具为 Atlassian 系列软件,近期需要从腾讯云迁移到阿里云环境,简单记录下安装和配置过程.(Atlassian 的文档非常详尽,过程中碰见的问题都可以找到解决办法.) ...
Linux/UNIX 下终端复用利器 tmux
简介 tmux 是一个终端复用器类自由软件,功能类似 GNU Screen,但使用 BSD 许可发布.用户可以通过 tmux 在一个终端内管理多个分离的会话,窗口及面板,对于同时使用多个命令行,或多个 ...
python编程语言是什么？它能做什么？
Python是一种全栈的开发语言,你如果能学好Python,前端,后端,测试,大数据分析,爬虫等这些工作你都能胜任. 当下Python有多火我不再赘述,,Python有哪些作用呢? 就目前Python ...
Redis安装部署(一主二从三哨兵)
需求:根据当前客户的生产环境,模拟安装部署Redis的测试环境,方便后续的功能测试. 1.准备工作 2.安装编译Redis 3.Redis运行环境配置 4.Redis启动和关闭 1.准备工作 Redi ...
被折磨致死的heroku——herku部署
最近一直在弄heroku部署上线,但是因为中国墙和英语问题,一直弄不好,,很是烦躁,所有暂时先放弃了,但是因为查询了一些资料,有些文档链接有必要放到下面,方便各位和自己查看: heroku官方网站: ...
shift count is too large
STM8S是8 bit单片机在STM8S中 unsigned long是32位, unsigned short和unsigned int都是16位,unsigned char是8位. 以以下代码编译时 ...

KNN (K近邻算法) - 识别手写数字

KNN项目实战——手写数字识别

2、数据集介绍

KNN (K近邻算法) - 识别手写数字的更多相关文章

随机推荐

热门专题