（本文为原创，请勿在未经允许的情况下转载）

前言

手写字符识别是机器学习的入门问题，k-近邻算法（kNN算法）是机器学习的入门算法。本文将介绍k-近邻算法的原理、手写字符识别问题分析、手写字符识别的kNN实现、测试。

kNN算法原理

kNN算法是一种分类算法，即如何判定一组输入数据属于哪一类别的算法。kNN属于监督学习算法，必须给定训练样本，样本包括输入样本和输出样本。而无监督学习则不需要训练样本。

那么最简单的分类方法就是将输入数据与样本一一比对，并将相似性最强的前k个样本选出，这k个样本中的大多数属于哪一类别，则判定输入数据属于该类别。

从图形上看，就是找出了样本空间中与输入数据最近的k个数据，这些数据中的大多数属于哪个类别，则输入数据也属于该类别。（当然，这是算法的原理，从逻辑上看问题不大，但是这个输入数据是否应该和它的k个近邻属于同一类却是不得而知的，但作为一个入门算法不考虑这种情况。）

手写数字识别分析

图像预处理：二值化、分割、统一标记。将这一过程成为预处理，是因为这一过程并不属于kNN算法的内容。

图1 样本输入（手写体“4”和“5”）
输入数据格式化：由于是使用欧氏距离来寻找k-近邻的，因此最好将输入的图像转换为一个向量，以便于计算输入数据与样本数据的距离。
寻找k-近邻：核心过程。计算欧氏距离并排序，取排前k的训练样本。
分类决策：前k个训练样本中的标签统计，出现次数最多的标签即为结果。

算法实现

图像预处理：使用MATLAB对图像进行处理，不属于算法本身。
输入数据格式化：对于已做好标记的图片，输入之后将矩阵转换为向量。
寻找k-近邻：
分类决策：

测试

上图展示了程序运行结果，在测试时共产生了12个错误输出，错误率为1.27%。

结语

kNN算法是种简单、有效的算法，但是该算法必须保存训练数据集，如果训练数据集很大，则会占用很多存储空间。算法的时间复杂度和空间复杂度都并不令人满意，因此简单有效的算法往往会牺牲效率，程序员的自我牺牲换来高效的算法。

手写数字识别的k-近邻算法实现的更多相关文章

OpenCV手写数字字符识别(基于k近邻算法)
摘要本程序主要参照论文,<基于OpenCV的脱机手写字符识别技术>实现了,对于手写阿拉伯数字的识别工作.识别工作分为三大步骤:预处理,特征提取,分类识别.预处理过程主要找到图像的ROI部 ...
基于TensorFlow解决手写数字识别的Softmax方法、多层卷积网络方法和前馈神经网络方法
一.基于TensorFlow的softmax回归模型解决手写字母识别问题详细步骤如下: 1.加载MNIST数据: input_data.read_data_sets('MNIST_data',one ...
【机器学习】BP神经网络实现手写数字识别
最近用python写了一个实现手写数字识别的BP神经网络,BP的推导到处都是,但是一动手才知道,会理论推导跟实现它是两回事.关于BP神经网络的实现网上有一些代码,可惜或多或少都有各种问题,在下手写了一 ...
深度学习-使用cuda加速卷积神经网络-手写数字识别准确率99.7%
源码和运行结果 cuda:https://github.com/zhxfl/CUDA-CNN C语言版本参考自:http://eric-yuan.me/ 针对著名手写数字识别的库mnist,准确率是9 ...
【深度学习系列】手写数字识别卷积神经--卷积神经网络CNN原理详解(一)
上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...
MINST手写数字识别（二）—— 卷积神经网络（CNN）
今天我们的主角是keras,其简洁性和易用性简直出乎David 9我的预期.大家都知道keras是在TensorFlow上又包装了一层,向简洁易用的深度学习又迈出了坚实的一步. 所以,今天就来带大家写 ...
TensorFlow实战之Softmax Regression识别手写数字
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2018年02月21日 23:10:04所撰写内容(http://blog.c ...
BP神经网络的手写数字识别
BP神经网络的手写数字识别 ANN 人工神经网络算法在实践中往往给人难以琢磨的印象,有句老话叫“出来混总是要还的”,大概是由于具有很强的非线性模拟和处理能力,因此作为代价上帝让它“黑盒”化了.作为一种 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...

随机推荐

Python Fileinput 模块
作者博文地址:http://www.cnblogs.com/liu-shuai/ fileinput模块提供处理一个或多个文本文件的功能,可以通过使用for循环来读取一个或多个文本文件的所有行. [默 ...
vue之理解异步更新 --- nextTick
默认情况下,vue中DOM的更新是异步执行的,理解这一点非常重要. 当侦测到数据变化时,Vue会打开一个队列,然后把在同一个事件循环(event loop)当中观察到的数据变化的watcher推送进入 ...
C和C++中include 搜索路径的一般形式以及gcc搜索头文件的路径
C和C++中include 搜索路径的一般形式对于include 搜索的路径: C中可以通过 #include <stdio.h> 和 #include "stidio.h&q ...
通过宏定义将__declspec(dllexport)与__declspec(dllimport)的转化，实现库代码和使用代码使用同一份头文件
我们知道,在VC编程中,如果要编译成动态链接库,需要将函数.变量.类等导出,这时使用__declspec(dllexport).使用动态链接库时,需要在声明的时候有使用__declspec(dllim ...
并列 inline-block 元素互相影响问题
今天在做页面时发现一个很奇怪的问题:当两个设置了display: inline-block; 属性的元素并列排放时,它们的位置能够互相影响. 我们先来看看元素结构: <div class=&qu ...
nyoj 349&Poj 1094 Sorting It All Out——————【拓扑应用】
Sorting It All Out 时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述 An ascending sorted sequence of distinct ...
浅谈 .NET Framework 与 .NET Core 的区别与联系
2017到了,咱们学点啥啊,要想知道学点啥,先弄清.NET Framework 与 .NET Core 这两个概念 .当今 net 生态系统如下: 从上面图中我们可以看到.net 主要分为三个部分 ...
[转]Asp.Net MVC EF各版本区别
本文转自:http://www.cnblogs.com/liangxiaofeng/p/5840754.html 2009年發行ASP.NET MVC 1.0版 2010年發行ASP.NET MVC ...
UWP 应用获取各类系统、用户信息 (2) - 商店授权信息、零售演示模式信息、广告 ID、EAS 设备信息、硬件识别信息、移动网络信息
应用开发中,开发者时常需要获取一些系统.用户信息用于数据统计遥测.问题反馈.用户识别等功能.本文旨在介绍在 Windows UWP 应用中获取一些常用系统.用户信息的方法.示例项目代码可参见 Gith ...
拼凑的宿主-host
开发两年之久,竟然不知道host这个词是什么意思.前些天有幸遇到了,就跟别人请教了.今天理絮一下.总比不知道强吧. 白话来说宿主就是一些框架运行机制运行时需要依赖的平台. 例如web开发常用的IIS, ...

手写数字识别的k-近邻算法实现