KNN算法识别手写数字

需求：

利用一个手写数字“先验数据”集，使用knn算法来实现对手写数字的自动识别；

先验数据（训练数据）集：

♦数据维度比较大，样本数比较多。

♦ 数据集包括数字0-9的手写体。

♦每个数字大约有200个样本。

♦每个样本保持在一个txt文件中。

♦手写体图像本身的大小是32x32的二值图，转换到txt文件保存后，内容也是32x32个数字，0或者1，如下：

♦目录trainingDigits存放的是大约2000个训练数据

♦目录testDigits存放大约900个测试数据。

trainingDigits文件夹中为训练数据，里面存储的都是32*32的txt格式的数字图像数值矩阵。testDigits文件夹中为测试数据，存储格式与trainingDigits中相同。文件格式名例如：0_1.txt，0为数字的标签（即数字本身），1为表示数字0的第一个文件。训练数据是多张32*32手写图像的二维矩阵，所谓二维矩阵就是整个图像空白的地方使用0描述，写字的地方使用1描述，

代码python：https://github.com/kongxiaoshuang/KNN

#-*- coding: utf-8 -*-

from numpy import *

import operator

import matplotlib

import matplotlib.pyplot as plt

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

def classify0(inX, dataSet, labels, k): #inX为用于分类的输入向量，dataSet为输入的训练样本集， labels为训练标签，k表示用于选择最近的数目

    dataSetSize = dataSet.shape[0] #dataSet的行数

    diffMat = tile(inX, (dataSetSize, 1)) - dataSet #将inX数组复制成与dataSet相同行数，与dataSet相减，求坐标差

    sqDiffMat = diffMat**2 #diffMat的平方

    sqDistances = sqDiffMat.sum(axis=1) #将sqDiffMat每一行的所有数相加

    distances = sqDistances**0.5 #开根号，求点和点之间的欧式距离

    sortedDistIndicies = distances.argsort() #将distances中的元素从小到大排列，提取其对应的index，然后输出到sortedDistIndicies

    classCount = {} #创建字典

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]] #前k个标签数据

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 #判断classCount中有没有对应的voteIlabel，

        # 如果有返回voteIlabel对应的值，如果没有则返回0，在最后加1。为了计算k个标签的类别数量

    sortedClassCount = sorted(classCount.items(),

                              key=operator.itemgetter(1), reverse=True) #生成classCount的迭代器，进行排序，

                # operator.itemgetter(1)以标签的个数降序排序

    return sortedClassCount[0][0] #返回个数最多的标签

def file2matrix(filename):

    fr = open(filename)

    arrayOLines = fr.readlines() #读入所有行

    numberOfLines = len(arrayOLines) #行数

    returnMat = zeros((numberOfLines, 3))  #创建数组，数据集

    classLabelVector = [] #标签集

    index = 0

    for line in arrayOLines:

        line = line.strip()   #移除所有的回车符

        listFromLine = line.split('\t')  #把一个字符串按\t分割成字符串数组

        returnMat[index,:] = listFromLine[0:3] #取listFromLine的前三个元素放入returnMat

        classLabelVector.append(int(listFromLine[-1])) #选取listFromLine的最后一个元素依次存入classLabelVector列表中

        index += 1

    return returnMat, classLabelVector

def autoNorm(dataSet):

    minVals = dataSet.min(0) #0表示从列中选取最小值

    maxVals = dataSet.max(0) #选取最大值

    ranges = maxVals-minVals

    normDataSet = zeros(shape(dataSet))  #创建一个与dataSet大小相同的零矩阵

    m = dataSet.shape[0] #取dataSet得行数

    normDataSet = dataSet - tile(minVals, (m, 1))  #将minVals复制m行 与dataSet数据集相减

    #归一化相除

    normDataSet = normDataSet/tile(ranges, (m, 1)) #将最大值-最小值的值复制m行 与normDataSet相除，即归一化

    return normDataSet, ranges, minVals #normDataSet为归一化特征值，ranges为最大值-最小值

def datingClassTest():

    hoRatio = 0.10 #测试数据占总数据的百分比

    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt') #将文本信息转成numpy格式

    #datingDataMat为数据集，datingLabels为标签集

    normMat, ranges, minVals = autoNorm(datingDataMat)  #将datingDataMat数据归一化

    #normMat为归一化数据特征值，ranges为特征最大值-最小值，minVals为最小值

    m = normMat.shape[0] #取normMat的行数

    numTestVecs = int(m*hoRatio) #测试数据的行数

    errorCount = 0.0 #错误数据数量

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)

        #classify0为kNN分类器，normMat为用于分类的输入向量，normMat为输入的训练样本集（剩余的90%）

        #datingLabels为训练标签，3表示用于选择最近邻居的数目

        print("the classifier came back with: %d, the real answer is: %d" %(classifierResult, datingLabels[i]))

        if (classifierResult != datingLabels[i]):errorCount += 1.0 #分类器结果和原标签不一样，则errorCount加1

    print("the total error rate is : %f" %(errorCount/float(numTestVecs)))

# datingClassTest()

# datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')

#

# normDataSet, ranges, minVals = autoNorm(datingDataMat)

# fig = plt.figure()

# ax = fig.add_subplot(111) #一行一列一个

# ax.scatter(datingDataMat[:,1], datingDataMat[:,2],

#            15.0*array(datingLabels), 15.0*array(datingLabels))   #scatter画散点图，使用标签属性绘制不同颜色不同大小的点

# plt.show()

# #测试分类器

# group, labels = createDataSet()

# label = classify0([1,1], group, labels, 3)

# print(label)

from os import listdir

def img2vector (filename):

    returnVect = zeros((1, 1024)) #创建一个1*1024的数组

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline() #每次读入一行

        for j in range(32):

            returnVect[0, 32*i+j] = int(lineStr[j])

    return returnVect

def handwritingClassTest():

    hwLabels = [] #标签集

    trainingFileList = listdir('E:/digits/trainingDigits') #listdir获取训练集的文件目录

    m = len(trainingFileList) #文件数量

    trainingMat = zeros((m, 1024)) #一个数字1024个字符，创建m*1024的数组

    for i in range(m):

        fileNameStr = trainingFileList[i] #获取文件名

        fileStr = fileNameStr.split('.')[0] #以'.'将字符串分割，并取第一项，即0_0.txt取0_0

        classNumStr = int(fileStr.split('_')[0]) #以'_'将字符串分割，并取第一项

        hwLabels.append(classNumStr) #依次存入hwLabels标签集

        trainingMat[i, :] = img2vector('E:/digits/trainingDigits/%s' % fileNameStr) #将每个数字的字符值依次存入trainingMat

    testFileList = listdir('E:/digits/testDigits') #读入测试数据集

    errorCount = 0.0 #测试错误数量

    mTest = len(testFileList) #测试集的数量

    for i in range(mTest):

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]

        classNumStr = int(fileStr.split('_')[0]) #测试数据标签

        vectorUnderTest = img2vector('E:/digits/testDigits/%s' % fileNameStr) #读入测试数据

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) #分类器kNN算法，3为最近邻数目

        print("the calssifier came back with: %d, the real answer is : %d" %(classifierResult, classNumStr))

        if (classifierResult != classNumStr): errorCount +=1.0

    print("\nthe total number of errors is : %f" % errorCount)

    print("\nthe total error rate is :%f" % (errorCount/float(mTest)))

handwritingClassTest()

KNN算法识别手写数字的更多相关文章

基于OpenCV的KNN算法实现手写数字识别
基于OpenCV的KNN算法实现手写数字识别一.数据预处理 # 导入所需模块 import cv2 import numpy as np import matplotlib.pyplot as pl ...
KNN (K近邻算法) - 识别手写数字
KNN项目实战——手写数字识别 1. 介绍 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法.它的工作原理是:存在一个 ...
机器学习--kNN算法识别手写字母
本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍对字母图片进行特征提取 kNN算法实现 kNN算法分析一.kNN算法介绍 K近邻(kNN,k ...
KNN算法案例--手写数字识别
import numpy as np import matplotlib .pyplot as plt import pandas as pd from sklearn.neighbors impor ...
KNN算法实现手写数字
from numpy import * import operator from os import listdir def classify0(inX, dataSet, labels, k): d ...
KNN 算法-实战篇-如何识别手写数字
公号:码农充电站pro 主页:https://codeshellme.github.io 上篇文章介绍了KNN 算法的原理,今天来介绍如何使用KNN 算法识别手写数字? 1,手写数字数据集手写数字数 ...
C#中调用Matlab人工神经网络算法实现手写数字识别
手写数字识别实现设计技术参数:通过由数字构成的图像,自动实现几个不同数字的识别,设计识别方法,有较高的识别率关键字:二值化投影矩阵目标定位 Matlab 手写数字图像识别简介: 手写 ...
使用神经网络来识别手写数字【译】（三）- 用Python代码实现
实现我们分类数字的网络好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样识别手写数字. 我们用Python (2.7) 来实现.只有 74 行代码!我们需要的第一个东西是 MNI ...
学习笔记TF024:TensorFlow实现Softmax Regression(回归)识别手写数字
TensorFlow实现Softmax Regression(回归)识别手写数字.MNIST(Mixed National Institute of Standards and Technology ...

随机推荐

phpstorm有红波浪线，怎么找到语法错误的地方
在phpstorm里面,有时候不小心多打了个字符,会导致IDE显示红色波浪线,提示有语法错误了,但是不容易找出在哪一行. 在有红色波浪线的文件上,右键[inspect code]: 检查代码后就会知道 ...
STM32 + RT Thread OS 串口通讯
1. 创建项目 a) 禁用Finsh和console b) 默认情况下,项目文件包含了finsh,它使用COM1来通讯,另外,console输出(rt_kprintf)也使用了COM1.因 ...
小数组的读写和带Buffer的读写哪个快
定义小数组如果是8192个字节大小和Buffered比较的话定义小数组会略胜一筹,因为读和写操作的是同一个数组而Buffered操作的是两个数组
SIT测试和 UAT测试
在企业级软件的测试过程中,经常会划分为三个阶段——单元测试,SIT和UAT,如果开发人员足够,通常还会在SIT之前引入代码审查机制(Code Review)来保证软件符合客户需求且流程正确.下面简单介 ...
Block pool ID needed, but service not yet registered with NN java.lang.Exception: trace 异常解决
以上为报错信息: 原因大概为:dd和nd关联的versionId不同导致, 解决方案,备份之前的current文件夹,让其自己生成新的.
C#子线程执行完后通知主线程（转）
其实这个比较简单,子线程怎么通知主线程,就是让子线程做完了自己的事儿就去干主线程的转回去干主线程的事儿. 那么怎么让子线程去做主线程的事儿呢,我们只需要把主线程的方法传递给子线程就行了,那么传递方法 ...
Spring Cloud(6.2)：搭建OAuth2 Client
配置web.xml 添加spring-cloud-starter-security,spring-security-oauth2-autoconfigure和spring-boot-starter-o ...
【Leetcode_easy】693. Binary Number with Alternating Bits
problem 693. Binary Number with Alternating Bits solution1: class Solution { public: bool hasAlterna ...
CentOS安装文件共享samba
参考:https://jingyan.baidu.com/article/03b2f78cdf811c5ea237aebc.html https://www.linuxidc.com/Linux/20 ...
【c# 学习笔记】构造函数
构造函数主要用于创建类的实例对象.当调用构造函数创建一个对象时,构造函数会为对象分配内存空间,并初始化类的成员.构造函数分为实例构造函数和静态构造函数两种. 1.实例构造函数实例构造函数用于创建和 ...

KNN算法识别手写数字

KNN算法识别手写数字的更多相关文章

随机推荐

热门专题