1 算法概述 1.1 优劣 优点:进度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 应用:主要用于文本分类,相似推荐 适用数据范围:数值型和标称型 1.2 算法伪代码 (1)计算已知类别数据集中的点与当前点的距离 (2)按照距离递增次序排序,选取与当前点距离最小的 k 个点 (3)确定前 k 个点所在类别的出现频率 (4)返回前 k 个点出现频率最高的类别作为当前点的预测分类 2 手写识别 2.1 概念 指在手写设备上书写时产生的轨迹信息转化为具体字码,本篇博客重点非搭建…
kNN算法算是机器学习入门级绝佳的素材.书上是这样诠释的:“存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都有标签,即我们知道样本集中每一条数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征比较,算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前K个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类”. 优点:精度高.对异常…
上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的一类.假设一个样本空间被分为几类,然后给定一个待分类的特征数据,通过计算距离该数据的最近的k个样本来判断这个数据属于哪一类.如果距离待分类属性最近的k个类大多数都属于某一个特定的类,那么这个待分类的数据也就属于这个类.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来…
实战一:kNN手写识别系统 本文将一步步地构造使用K-近邻分类器的手写识别系统.由于能力有限,这里构造的系统只能识别0-9.需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:32像素*32像素的黑白图像. 当前使用文本格式存储图像,即使不能有效的利用空间,但是为了方便理解,还是将图像转换成文本格式. 示例:使用k-近邻算法的手写识别系统 (1)收集数据:提供文本文件. (2)处理数据:编写img2vector()函数,将图像格式转换成分类器使用的向量格式. (3)分析数据:在Pyt…
看完一节<机器学习实战>,算是踏入ML的大门了吧!这里就详细讲一下一个demo:使用kNN算法实现手写字体的简单识别 kNN 先简单介绍一下kNN,就是所谓的K-近邻算法: [作用原理]:存在一个样本数据集合.每个样本数据都存在标签.输入没有标签的新数据后,将新数据的每个特征与样本集数据的对应特征进行比较,然后算法提取样本集中最相似的分类标签.一般说来,我们只选择样本数据集中前k个最相似的数据,最后,选择这k个相似数据中出现次数最多的分类,作为新数据的分类. 通俗的说,举例说明:有一群明确国籍…
KNN实现手写数字识别 博客上显示这个没有Jupyter的好看,想看Jupyter Notebook的请戳KNN实现手写数字识别.ipynb 1 - 导入模块 import numpy as np import matplotlib.pyplot as plt from PIL import Image from ld_mnist import load_digits %matplotlib inline 2 - 导入数据及数据预处理 import tensorflow as tf # Impo…
import numpy as np import operator import random import os def file2matrix(filePath):#从文本中提取特征矩阵和标签 f = open(filePath,'r+').readlines() fileLength = len(f) dataSet = np.zeros((fileLength,3),np.float64) labelList = [] for i in range(fileLength): row =…
欲直接下载代码文件,关注我们的公众号哦!查看历史消息即可! 手写笔记还是电子笔记好呢? 毕业季刚结束,眼瞅着2018级小萌新马上就要来了,老腊肉小编为了咱学弟学妹们的学习,绞尽脑汁准备编一套大学秘籍,这不刚开了个头就遇上了个难题--做笔记到底是手写笔记好呢还是电子笔记好呢? 聪明的小伙伴们或许就该怼小编了,不是有电子手写笔记吗!哼,机智如我怎么可能没想过这个呢! 大家用电子笔记除了省纸张外,往往还希望有笔记整理和搜索的功能,手写电子笔记如果不能实现手写识别搜索的功能,那还真是只能省纸张了.为此小…
Zinnia库及其实现方法研究 (转) zinnia是一个开源的手写识别库.采用C++实现.具有手写识别,学习以及文字模型数据制作转换等功能. 项目地址 [http://zinnia.sourceforge.net ] License: NewBSD 作者对SVM很有研究. 比同类程序的效率要高效.(同类项目如tegaki) 我的目的是通过这个研究简单的手写输入实现方法 Zinnia库特点 SVM机实现 轻量级,可移植 线程安全,可供C,C++,Perl,Python,Ruby调用 每秒50-1…
tensorflow笔记(五)之MNIST手写识别系列二 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7455233.html 前言 这篇博客将用tensorflow实现CNN卷积神经网络去训练MNIST数据集,并测试一下MNIST的测试集,算出精确度. 由于这一篇博客需要要有一定的基础,基础部分请看前面的tensorflow笔记,起码MNIST手写识别系列一和CNN初探要看一下,对于已经讲过的东西,不会再仔细复述,可能会…