k-近邻算法-手写识别系统

手写数字是32x32的黑白图像。为了能使用KNN分类器，我们需要把32x32的二进制图像转换为1x1024

1. 将图像转化为向量

from numpy import *

# 导入科学计算包numpy和运算符模块operator

import operator

from os import listdir

def img2vector(filename):

    """

    将图像数据转换为向量

    :param filename: 图片文件 因为我们的输入数据的图片格式是 32 * 32的

    :return: 一维矩阵

    该函数将图像转换为向量：该函数创建 1 * 1024 的NumPy数组，然后打开给定的文件，

    循环读出文件的前32行，并将每行的头32个字符值存储在NumPy数组中，最后返回数组。

    """

    returnVect = zeros((1, 1024))

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline()

        for j in range(32):

            returnVect[0, 32 * i + j] = int(lineStr[j])

    return returnVect

测试：

testVector = img2vector('F:/迅雷下载/machinelearninginaction/Ch02/testDigits/0_13.txt')

testVector[0, 0:31]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,

       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

2. KNN分类器

def classify0(inX, dataSet, labels, k):

    """

    inX: 用于分类的输入向量

    dataSet: 输入的训练样本集

    labels: 标签向量

    k: 选择最近邻居的数目

    注意：labels元素数目和dataSet行数相同；程序使用欧式距离公式.

    """

    # 求出数据集的行数

    dataSetSize = dataSet.shape[0]

    # tile生成和训练样本对应的矩阵，并与训练样本求差

    """

    tile: 列: 3表示复制的行数， 行：1／2 表示对inx的重复的次数

    例：In []: inX = [1, 2, 3]

               tile(inx, (3, 1))

        Out[]: array([[1, 2, 3],

                       [1, 2, 3],

                       [1, 2, 3]])

    """

    # 用inx（输入向量）生成和dataSet类型一样的矩阵，在减去dataSet

    diffMat = tile(inX, (dataSetSize, 1)) - dataSet

    # 取平方

    sqDiffMat = diffMat ** 2

    # 将矩阵的每一行相加

    sqDistances = sqDiffMat.sum(axis=1)

    # 开方

    distances = sqDistances ** 0.5

    # 根据距离排序从小到大的排序，返回对应的索引位置

    # argsort() 是将x中的元素从小到大排列，提取其对应的index（索引），然后输出到y。

    """

    In [] : y = argsort([3, 0, 2, -1, 4, 5])

            print(y[0])

            print(y[5])

    Out[] : 3

            5

    由于最小的数是-1，它的序号是3，因此y[0] = 3, 最大的数是5，它的序号是5，因此y[5] = 5

    """

    sortedDistIndicies = distances.argsort()

    # 2. 选择距离最小的k个点

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

3. 手写数字识别系统的测试代码

def handwritingClassTest():

    # 1. 导入数据

    hwLabels = []

    trainingFileList = listdir('F:/迅雷下载/machinelearninginaction/Ch02/trainingDigits')  # load the training set

    m = len(trainingFileList)

    trainingMat = zeros((m, 1024))

    # hwLabels存储0～9对应的index位置， trainingMat存放的每个位置对应的图片向量

    for i in range(m):

        fileNameStr = trainingFileList[i]

        fileStr = fileNameStr.split('.')[0]  # take off .txt

        classNumStr = int(fileStr.split('_')[0])

        hwLabels.append(classNumStr)

        # 将 32*32的矩阵->1*1024的矩阵

        trainingMat[i, :] = img2vector('F:/迅雷下载/machinelearninginaction/Ch02/trainingDigits/%s' % fileNameStr)

    # 2. 导入测试数据

    testFileList = listdir('F:/迅雷下载/machinelearninginaction/Ch02/testDigits')  # iterate through the test set

    errorCount = 0.0

    mTest = len(testFileList)

    for i in range(mTest):

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]  # take off .txt

        classNumStr = int(fileStr.split('_')[0])

        vectorUnderTest = img2vector('F:/迅雷下载/machinelearninginaction/Ch02/testDigits/%s' % fileNameStr)

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

        if (classifierResult != classNumStr): errorCount += 1.0

    print("\nthe total number of errors is: %d" % errorCount)

    print("\nthe total error rate is: %f" % (errorCount / float(mTest)))

handwritingClassTest()

the classifier came back with: 0, the real answer is: 0

the classifier came back with: 0, the real answer is: 0
...

the classifier came back with: 9, the real answer is: 9

the classifier came back with: 9, the real answer is: 9

the total number of errors is: 10

the total error rate is: 0.010571
k-近邻算法识别手写数字，错误率在1.1%.改变k的值、修改函数 handwritingClassTest 随机选取训练样本、改变训练样本的数目，都会对k-近邻算法的错误率产生影响。
实际上，这个算法的执行效率并不高。因为每个算法需要为每个测试向量做2000次距离计算，每个距离计算包括了1024个维度浮点运算，总计执行900次。
而K决策树就是k-近邻的优化版。

4. 总结

k-近邻算法的特点：

1. 是分类数据最简单最有效的算法

2. 必须保存全部数据集，会使用大量存储空间

3. 必须对每个数据计算距离值，非常耗时

k-近邻算法-手写识别系统的更多相关文章

第三篇：基于K-近邻分类算法的手写识别系统
前言本文将继续讲解K-近邻算法的项目实例 - 手写识别系统. 该系统在获取用户的手写输入后,判断用户写的是什么. 为了突出核心,简化细节,本示例系统中的输入为32x32矩阵,分类结果也均为数字.但对 ...
机器学习实战一：kNN手写识别系统
实战一:kNN手写识别系统本文将一步步地构造使用K-近邻分类器的手写识别系统.由于能力有限,这里构造的系统只能识别0-9.需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:32像素*3 ...
吴裕雄--天生自然python机器学习：KNN-近邻算法在手写识别系统上的应用
需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小® : 宽髙是32像素 *32像素的黑白图像.尽管采用文本格式存储图像不能有效地利用内存空间,但是为了方便理解,我们还是将图像转换为 ...
【Machine Learning in Action --2】K-近邻算法构造手写识别系统
为了简单起见,这里构造的系统只能识别数字0到9,需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽高是32像素的黑白图像.尽管采用文本格式存储图像不能有效地利用内存空间,但是为了方便理 ...
K近邻实战手写数字识别
1.导包 import numpy as np import operator from os import listdir from sklearn.neighbors import KNeighb ...
《机器学习实战》之k-近邻算法（手写识别系统）
这个玩意和改进约会网站的那个差不多,它是提前把所有数字转换成了32*32像素大小的黑白图,然后转换成字符图(用0,1表示),将所有1024个像素点用一维矩阵保存下来,这样就可以通过knn计算欧几里得距 ...
《机器学习实战》-k近邻算法
目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python ...
机器学习实战kNN之手写识别
kNN算法算是机器学习入门级绝佳的素材.书上是这样诠释的:“存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都有标签,即我们知道样本集中每一条数据与所属分类的对应关系.输入没有标签的新数据 ...
python 实现 KNN 分类器——手写识别
1 算法概述 1.1 优劣优点:进度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高应用:主要用于文本分类,相似推荐适用数据范围:数值型和标称型 1.2 算法伪代码 (1)计 ...

随机推荐

understand 安装笔记
1. 下载64位 https://pan.baidu.com/s/1sJNSrG6n5Y0C1UFCZACYEA 或者去官网下载: https://scitools.com/download/arch ...
【ARTS】01_17_左耳听风-20190304~20190310
ARTS: Algrothm: leetcode算法题目 Review: 阅读并且点评一篇英文技术文章 Tip/Techni: 学习一个技术技巧 Share: 分享一篇有观点和思考的技术文章 Algo ...
Jenkins远程构建
首先在Jenkins上配置Job: 按照图片形式,仅需往对应的url发送请求即可 Shell如下: import json import urllib.parse,http.client def po ...
64位进程调用32位dll的解决方法 / 程序64位化带来的问题和思考
最近做在Windows XP X64,VS2005环境下做32位程序编译为64位程序的工作,遇到了一些64位编程中可能遇到的问题:如内联汇编(解决方法改为C/C++代码),long类型的变化,最关键的 ...
Loj 【CQOI 2006】简单题，mmp
#10117. 「一本通 4.1 练习 2」简单题题目描述题目来源:CQOI 2006 有一个 nnn 个元素的数组,每个元素初始均为 000.有 mmm 条指令,要么让其中一段连续序列数 ...
ACM Computer Factory POJ - 3436 网络流拆点+路径还原
http://poj.org/problem?id=3436 每台电脑有$p$个组成部分,有$n$个工厂加工电脑. 每个工厂对于进入工厂的半成品的每个组成部分都有要求,由$p$个数字描述,0代表这个部 ...
C#winform 窗体缩放自适应
1. 首先在窗体上放上一个Panel容器,并将容器的Dock属性设为Fill,即所有的控件都放在了这个容器里. using System; using System.Collections.Gene ...
Vue 指令篇案例(输入提交显示提交数据_列表)
一.文本操作指令 //1.v-text <p v-text="msg"></p> 等价于 <p>{{msg}}</p> //2.v- ...
svn服务器的搭建备份和还原和svnmanager的使用
svn服务器的搭建备份和还原和svnmanager的使用一.svn服务端软件的安装和配置 1.安装svn版本库软件 # yum install -y subversion 2.建立svn版本库数据存 ...
linux shell中 if else以及大于、小于、等于逻辑表达式
在linux shell编程中,大多数情况下,可以使用测试命令来对条件进行测试,这里简单的介绍下,方便需要的朋友比如比较字符串.判断文件是否存在及是否可读等,通常用"[]"来表示 ...

k-近邻算法-手写识别系统

1. 将图像转化为向量

2. KNN分类器

3. 手写数字识别系统的测试代码

4. 总结

k-近邻算法-手写识别系统的更多相关文章

随机推荐

热门专题