Python机器学习--手写体识别（KNN+MLP）

MLP实现

调整参数比较性能结果

# -*- coding: utf-8 -*-

"""

Created on Wed Aug 30 21:14:38 2017

@author: Administrator

"""

import numpy as np     #导入numpy工具包

from os import listdir #使用listdir模块，用于访问本地文件

from sklearn.neural_network import MLPClassifier  ## 版本选择sklearn-v0.18;sklearn更新anaconda方法：conda update scikit-learn

#定义img2vector函数，将加载的32*32的图片矩阵展开成一列向量

def img2vector(fileName):

    retMat = np.zeros([1024],int) #定义返回的矩阵，大小为1*1024

    fr = open(fileName)           #打开包含32*32大小的数字文件

    lines = fr.readlines()        #读取文件的所有行

    for i in range(32):           #遍历文件所有行

        for j in range(32):       #并将01数字存放在retMat中

            retMat[i*32+j] = lines[i][j]

    return retMat

 #定义加载训练数据的函数readDataSet，并将样本标签转化为one-hot向量

def readDataSet(path):

    fileList = listdir(path)    #获取文件夹下的所有文件

    numFiles = len(fileList)    #统计需要读取的文件的数目

    dataSet = np.zeros([numFiles,1024],int) #用于存放所有的数字文件

    hwLabels = np.zeros([numFiles,10])      #用于存放对应的one-hot标签

    for i in range(numFiles):   #遍历所有的文件

        filePath = fileList[i]  #获取文件名称/路径

        digit = int(filePath.split('_')[0])  #通过文件名获取标签

        hwLabels[i][digit] = 1.0        #将对应的one-hot标签置1

        dataSet[i] = img2vector(path +'/'+filePath) #读取文件内容

    return dataSet,hwLabels

#read dataSet

fpath='F:\RANJIEWEN\MachineLearning\Python机器学习实战_mooc\data\手写数字\digits\\'

train_dataSet, train_hwLabels = readDataSet(fpath+'trainingDigits')

# 调整参数，隐藏层数量，学习率，最大迭代次数比较性能结果

clf = MLPClassifier(hidden_layer_sizes=(100,),

                    activation='logistic', solver='adam',

                    learning_rate_init = 0.00001, max_iter=2000)

print(clf)

clf.fit(train_dataSet,train_hwLabels)

#read  testing dataSet

dataSet,hwLabels = readDataSet(fpath+'testDigits')

res = clf.predict(dataSet)   #对测试集进行预测

error_num = 0                #统计预测错误的数目

num = len(dataSet)           #测试集的数目

for i in range(num):         #遍历预测结果

    #比较长度为10的数组，返回包含01的数组，0为不同，1为相同

    #若预测结果与真实结果相同，则10个数字全为1，否则不全为1

    if np.sum(res[i] == hwLabels[i]) < 10:

        error_num += 1

print("Total num:",num," Wrong num:", \

      error_num,"  WrongRate:",error_num / float(num))

kNN比较

# -*- coding: utf-8 -*-

"""

Created on Thu Aug 31 10:11:15 2017

@author: Administrator   knn-neighbors

"""

import numpy as np     #导入numpy工具包

from os import listdir #使用listdir模块，用于访问本地文件

from sklearn import neighbors

#定义img2vector函数，将加载的32*32的图片矩阵展开成一列向量

def img2vector(fileName):

    retMat = np.zeros([1024],int) #定义返回的矩阵，大小为1*1024

    fr = open(fileName)           #打开包含32*32大小的数字文件

    lines = fr.readlines()        #读取文件的所有行

    for i in range(32):           #遍历文件所有行

        for j in range(32):       #并将01数字存放在retMat中

            retMat[i*32+j] = lines[i][j]

    return retMat

#定义加载训练数据的函数readDataSet，并将样本标签转化为one-hot向量

def readDataSet(path):

    fileList = listdir(path)    #获取文件夹下的所有文件

    numFiles = len(fileList)    #统计需要读取的文件的数目

    dataSet = np.zeros([numFiles,1024],int)    #用于存放所有的数字文件

    hwLabels = np.zeros([numFiles])#用于存放对应的标签(与神经网络的不同)

    for i in range(numFiles):      #遍历所有的文件

        filePath = fileList[i]     #获取文件名称/路径

        digit = int(filePath.split('_')[0])   #通过文件名获取标签

        hwLabels[i] = digit        #直接存放数字，并非one-hot向量

        dataSet[i] = img2vector(path +'/'+filePath)    #读取文件内容

    return dataSet,hwLabels

#read dataSet

fpath='F:\RANJIEWEN\MachineLearning\Python机器学习实战_mooc\data\手写数字\digits\\'

train_dataSet, train_hwLabels = readDataSet(fpath+'trainingDigits')

knn = neighbors.KNeighborsClassifier(algorithm='kd_tree', n_neighbors=3)

knn.fit(train_dataSet, train_hwLabels)

#read  testing dataSet

dataSet,hwLabels = readDataSet(fpath+'testDigits')

res = knn.predict(dataSet)  #对测试集进行预测

error_num = np.sum(res != hwLabels) #统计分类错误的数目

num = len(dataSet)          #测试集的数目

print("Total num:",num," Wrong num:", \

      error_num,"  WrongRate:",error_num / float(num))

Python机器学习--手写体识别（KNN+MLP）的更多相关文章

吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
python机器学习一：KNN算法实现
所谓的KNN算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个 ...
使用KNN算法手写体识别
#!/usr/bin/python #coding:utf-8 import numpy as np import operator import matplotlib import matplotl ...
机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
Python机器学习基础教程-第1章-鸢尾花的例子KNN
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
SUSE Linux Enterprise 11 离线安装 DLIB 人脸识别 python机器学习模块
python机器学习模块安装我的博客:http://www.cnblogs.com/wglIT/p/7525046.html 环境:SUSE Linux Enterprise 11 sp4 离线安 ...
[Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...
[resource]Python机器学习库
reference: http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块: ...
python机器学习实战（一）
python机器学习实战(一) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7140974.html 前言这篇notebook是关于机器 ...

随机推荐

windows 使用git上传代码至github
1. 首先创建github账户 2. 创建github项目 3. windows安装git工具 ·下载地址:https://git-for-windows.github.io/ ,下载直接安装即可, ...
转载：jquery.ajax之beforeSend方法使用介绍
常见的一种效果,在用ajax请求时,没有返回前会出现前出现一个转动的loading小图标或者“内容加载中..”,用来告知用户正在请求数据.这个就可以用beforeSend方法来实现. 下载demo:a ...
scrollTop如何实现click后页面过渡滚动到顶部
用JS操作,body元素的scrollTop var getTop = document.getElementById("get-top"); var head = documen ...
json数据格式与 for in
格式一: var json1={ name:'json', age:'23' }; json1.name='金毛'; 格式二: (比较安全) 属性名字里有空格或者有连字符‘-’或者有保留字例如‘fo ...
Python9-集合-day7
集合是无序的,不重复的数据集合,它里面的元素是可哈希的(不可变类型),但是集合本身是不可哈希(所以集合做不了字典的键)的. 以下是集合最重要的两点: 去重,把一个列表变成集合,就自动去重了. 关系测试 ...
对linux中source，fork,exec的理解以及case的使用
fork 使用 fork 方式运行 script 时, 就是让 shell(parent process) 产生一个 child process 去执行该 script, 当 child proc ...
Google 超分辨率技术 RAISR
每天都有数以百万计的图片在网络上被分享.储存,用户借此探索世界,研究感兴趣的话题,或者与朋友家人分享假期照片.问题是,大量的图片要嘛被照相设备的像素所限制,要嘛在手机.平板或网络限制下被人为压缩,降低 ...
PAT Basic 1072
1072 开学寄语下图是上海某校的新学期开学寄语:天将降大任于斯人也,必先删其微博,卸其 QQ,封其电脑,夺其手机,收其 ipad,断其 wifi,使其百无聊赖,然后,净面.理发.整衣,然后思过.读 ...
序列化 random模块应用
序列化我们今天学习下序列化,什么是序列化呢? 将原本的字典.列表等内容转换成一个字符串的过程就叫做序列化. 为什么要有序列化模块: 比如,我们在python代码中计算的一个数据需要给另外一段程序使用 ...
【JavaScript 3—基础知识点】：运算符
导读:其实看到这个运算符的学习,很有一种熟悉感,因为在总体看来,和之前的C++有很多类似的地方,但当时觉得简单,没有总结.所以,这次一定得总结了.其实,知识的罗列,基础的积累,在学习中也很重要. 一. ...

Python机器学习--手写体识别（KNN+MLP）

MLP实现

Python机器学习--手写体识别（KNN+MLP）的更多相关文章

随机推荐

热门专题