基于kNN的手写字体识别——《机器学习实战》笔记

看完一节《机器学习实战》，算是踏入ML的大门了吧！这里就详细讲一下一个demo:使用kNN算法实现手写字体的简单识别

kNN

　先简单介绍一下kNN,就是所谓的K-近邻算法：

　　【作用原理】：存在一个样本数据集合、每个样本数据都存在标签。输入没有标签的新数据后，将新数据的每个特征与样本集数据的对应特征进行比较，然后算法提取样本集中最相似的分类标签。一般说来，我们只选择样本数据集中前k个最相似的数据，最后，选择这k个相似数据中出现次数最多的分类，作为新数据的分类。

　　通俗的说，举例说明：有一群明确国籍的人（样本集合，比如1000个）：中国人、韩国人、日本人、美国人、埃及人，现在有一个不知国籍的人，想要通过比较特征来猜测他的国籍（当然，特征具有可比较性和有效性），通过比较特征，得出特征与该人最相近的样本集中的9个人（k），其中，1个是韩国人、2个是日本人，6个是中国人，那么这个人是中国人的可能性就很大。

　　这就是kNN的基本思想。

手写体识别数据准备

　　kNN输入需要特征矩阵，一般是固定大小的二值图像，这里我们使用书上提供的数据集：这个数据集使用32X32文本文件存储数值图像。例如下图的'9'

　　这里每个文本文件存储一个手写体数据，并且文件名写成"number_num.txt"这样的形式，例如9_1.txt,方便后期提取标签

　　我们将样本数据放在trainingDigits文件夹中，测试样例存储在testDigits文件夹中

　　我们在处理时将每个手写体数据（32x32）转换成1X1024维的向量。

　　另外，kNN涉及到相似度计算。这里我们使用的是欧氏距离，由于手写体数据向量是规则的二值数据，因此不需要进行归一化。

手写体识别算法运行流程

　　（一）读取手写体txt文件，转化为1X1024向量

　　　　我们创建一个kNN.py，添加模块img2vector

 #识别手写字体模块-图像转向量32x32 to 1x1024

 def img2vector(filename):

     returnVect = zeros((1,1024))

     fr = open(filename)

     for i in range(32):

         lineStr = fr.readline()

         for j in range(32):

             returnVect[0,32*i+j] = int(lineStr[j])

     return returnVect

　　　　我们的样本数据和测试数据都需要用到该函数

　　（二）比较测试数据和样本数据集的距离，返回k近邻中最相似的标签

　　　　在kNN.py中添加classify0模块，附上代码注释　　

 #---------------------------------------------

 #分类模块

 #@params

 #   inX:输入向量、手写体识别的测试向量

 #    dataSet:训练集样本、手写体识别的训练集向量

 #    labels:训练集对应的标签向量

 #    k:最近邻居数目、本实验为3

 #---------------------------------------------

 def classifiy0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]     #手写体样本集容量

     #(以下三行)距离计算

     diffMat = tile(inX, (dataSetSize,1)) - dataSet

     sqDiffMat = diffMat**2

     sqDistances = sqDiffMat.sum(axis=1)

     distances = sqDistances**0.5   #欧氏距离开平方

     sortedDistIndicies = distances.argsort()  #距离排序的索引排序

     classCount = {}

     #(以下两行)选择距离最小的k个点

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

     sortedClassCount = sorted(classCount.items(),

     #排序

     key = operator.itemgetter(1), reverse = True)

     return sortedClassCount[0][0]

　　　　注意，这里使用了numpy的接口，在kNN.py的开头要加上：from numpy import*　

　　（三）比较标签与测试结果，计算正确率

　　　　同样，在kNN.py中添加handwritingClassTest模块，综合以上的两个模块，获得识别正确率

 #手写识别的测试代码

 def handwritingClassTest():

     hwLabels = []

     trainingFileList = listdir(path='trainingDigits')  #获取目录内容

     m = len(trainingFileList)

     trainingMat = zeros((m,1024))

     for i in range(m):

         #一下三行，从文件名解析分类数字

         fileNameStr = trainingFileList[i]

         fileStr = fileNameStr.split('.')[0]

         classNumStr = int(fileStr.split('_')[0])

         hwLabels.append(classNumStr)

         trainingMat[i,:] = img2vector('trainingDigits/%s'%fileNameStr)

     testFileList = listdir(path='testDigits')

     errorCount = 0.0  #错误个数计数器

     mTest = len(testFileList)

     #从测试数据中提取数据

     for i in range(mTest):

         fileNameStr = testFileList[i]

         fileStr = fileNameStr.split('.')[0]

         classNumStr = int(fileStr.split('_')[0])

         vectorUnderTest = img2vector('testDigits/%s'% fileNameStr)

         classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

         print("the classifier came back with:%d,the real answer is:%d"%(classifierResult,classNumStr))

         if(classifierResult != classNumStr):

             errorCount += 1.0

  　 #输出结果

     print("\nthe total number of errors is:%d"%errorCount)

     print("\nthe total error rate is: %f"%(errorCount/float(mTest)))

　　　　注意，这里使用到了os模块listdir,在kNN开头加入：from numpy import listdir

　　测试结果如下：

　　错误率为1.16%，可以看到，识别效果挺不错。

后记

　　通过实验我们可以看到，使用kNN要将训练样本一次性加载入内存、如果训练集的规模很大，势必对机器有很大的要求。另外，kNN不需要训练算法、对异常值不敏感、在后期使用的时候要慎重选择吧

基于kNN的手写字体识别——《机器学习实战》笔记的更多相关文章

深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识在tf第一个例子的时候需要很多预备知识. tf基本知识香农熵交叉熵代价函数cross-entropy 卷积神经网络 s ...
基于MATLAB的手写公式识别(6)
基于MATLAB的手写公式识别 2021-03-29 10:24:51 走通了程序,可以识别"心脑血管这几个字",还有很多不懂的地方. 2021-03-29 12:20:01 tw ...
KNN实现手写数字识别
KNN实现手写数字识别博客上显示这个没有Jupyter的好看,想看Jupyter Notebook的请戳KNN实现手写数字识别.ipynb 1 - 导入模块 import numpy as np i ...
深度学习---手写字体识别程序分析（python）
我想大部分程序员的第一个程序应该都是“hello world”,在深度学习领域,这个“hello world”程序就是手写字体识别程序. 这次我们详细的分析下手写字体识别程序,从而可以对深度学习建立一 ...
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别超级详细版这是tf入门的第一个例子.minst应该是内置的数据集. 前置知识在学习笔记(1)里面讲过了这里直接上代码 # -*- ...
基于MATLAB的手写公式识别(9)
基于MATLAB的手写公式识别(9) 1.2图像的二值化 close all; clear all; Img=imread('drink.jpg'); %灰度化 Img_Gray=rgb2gray(I ...
基于MATLAB的手写公式识别(5)
基于MATLAB的手写公式识别总结一下昨天一天的工作成果: 获得了大致的识别过程. 一个图像从生肉到可以被处理需要经过预处理(灰质化.增加对比度.中值过滤.膨胀或腐蚀.闭环运算). 掌握了相关函数的 ...
基于MATLAB的手写公式识别(3)
基于MATLAB的手写公式识别图像的膨胀化,获取边缘(思考是否需要做这种处理,初始参考样本相对简单) %膨胀 imdilate(dilate=膨胀/扩大) clc clear A1=imread(' ...
基于MATLAB的手写公式识别(2)
基于MATLAB的手写公式识别图像的预处理(除去噪声.得到后续定位分割所需的信息.) 预处理其本质就是去除不需要的噪声信息,得到后续定位分割所需要的图像信息.图像信息在采集的过程中由于天气环境的影响 ...

随机推荐

php使用redis的有序集合zset实现延迟队列
延迟队列就是个带延迟功能的消息队列,相对于普通队列,它可以在指定时间消费掉消息. 延迟队列的应用场景: 1.新用户注册,10分钟后发送邮件或站内信. 2.用户下单后,30分钟未支付,订单自动作废. 我 ...
vue中v-model 与 v-bind:value
之前一直认为,v-model相当于下方代码的语法糖,如下: <h1>{{inputValue}}</h1> <input type="text" :v ...
数据库子查询和join的比较
子查询进行SELECT语句嵌套查询,可以一次完成很多逻辑上需要多个步骤才能完成的SQL操作.子查询虽然很灵活,但是执行效率并不高. select goods_id,goods_name from go ...
CF Good Bye 2018
前言:这次比赛爆炸,比赛时各种想多,导致写到\(D\)题时思路已经乱了,肝了\(1\)个多小时都没肝出来,\(B\)题中途因为没开\(long\ long\)又被\(HACK\)了..\(C\)题因为 ...
团队-爬取豆瓣Top250电影-团队-阶段互评
团队名称:咣咣踹电脑学号:2015035107217姓名:耿文浩得分10 原因:组长带领的好,任务分配的好,积极帮助组员解决问题学号:2015035107213姓名:周鑫得分8 原因:勇于分担,积 ...
JS中的instanceof和typeof，以及特殊引用类型
1.instanceof是用于测试对象类型,通常格式为:a instanceof b,返回true或falise,表示为对象a是否是类型b的实例. typeof则是用于测试基本类型,包括undefin ...
第五周助教工作总结——NWNU李泓毅
第五周助教总结注:因第四次实验安排两个标准时间完成,因此本周未提交完整作业. 本周心得: 第四次实验进行过半,八组同学都在实验课上进行了一次中期总结,并形成书面总结在微信群中讨论. 根据各组同学的中 ...
Python类——面向对象
一.有关面向对象的一些知识面向过程:根据业务逻辑从上到下写垒代码函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可面向对象:对函数进行分类和封装,让开发“更快更好更强...” ...
Windows端口开放
1.查看:cmd->netstat -na: 2.测试:cmd->telnet [ip] [port]: 3.开启:防火墙新建规则.
JAVA的环境变量配置
开发JAVA程序需要先准备开发环境,安装好操作系统后首先需要去下载JDK并安装. JDk(Java Development Kit )是Java开发工具包,如果您要开发基于Java的应用首先需要下载并 ...

基于kNN的手写字体识别——《机器学习实战》笔记

基于kNN的手写字体识别——《机器学习实战》笔记的更多相关文章

随机推荐

热门专题