机器学习：PCA（实例：MNIST数据集）

一、数据

获取数据

import numpy as np

from sklearn.datasets import fetch_mldata

mnist = fetch_mldata("MNIST original")

sklearn 的 datasets 中，一个特有的方法：fetch_mldata，使用此方法可以直接从一个官方网站中下载各种机器学习数据；
格式：datas = fetch_mldata("字符串")；

查看数据

mnist

# 输出：

{'COL_NAMES': ['label', 'data'],

 'DESCR': 'mldata.org dataset: mnist-original',

 'data': array([[0, 0, 0, ..., 0, 0, 0],

        [0, 0, 0, ..., 0, 0, 0],

        [0, 0, 0, ..., 0, 0, 0],

        ...,

        [0, 0, 0, ..., 0, 0, 0],

        [0, 0, 0, ..., 0, 0, 0],

        [0, 0, 0, ..., 0, 0, 0]], dtype=uint8),

 'target': array([0., 0., 0., ..., 9., 9., 9.])}

mnist 是一个字典：'COL_NAMES'、'DESCR'、'data'、'target'；
'DESCR'：表示 MNIST 数据集所在的网站；

处理数据

X, y = mnist['data'], mnist['target']

X.shape

# 输出：（70000, 784）

X_train = np.array(X[:60000], dtype=float)

y_train = np.array(y[:60000], dtype=float)

X_test = np.array(X[60000:], dtype=float)

y_test = np.array(y[60000:], dtype=float)

此处没有进行数据归一化处理，因为现在的样本数据整体来说都表示图像中相应的一个像素点的亮度，也就是说，虽然整体数据没有进行归一化处理，但他们还在同一个尺度上，所以此数据集不需要进行归一化处理；
数据归一化的主要意义：当数据的尺度不同时，要把数据放在同一个尺度上；

二、算法

使用 kNN 算法进行识别操作（数据不降维）

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()

%time knn_clf.fit(X_train, y_train)

# 输出：44.9 s

knn_clf.score(X_test, y_test)

# 输出：0.9688

kNN 算法中还需要进行调参：k、weight

使用 kNN算法进行识别操作（PCA降维数据）

from sklearn.decomposition import PCA

# 只保留样本的 90% 的信息

pca = PCA(0.9)

pca.fit(X_train)

X_train_reduction = pca.transform(X_train)

X_train_reduction.shape

# 输出：（60000, 87）

knn_clf = KNeighborsClassifier()

%time knn_clf.fit(X_train_reduction, y_train)

# 输出：602 s

X_test_reduction = pca.transform(X_test)

%time knn_clf.score(X_test_reduction, y_test)

# 输出：1 min  27 s      0.9728

PCA(0.9)：只保留样本的 90% 的信息，也就是能解释 90% 原是数据方差的前 n 个主成分；
(60000, 87)：将样本从 784 维，降低至 87 维，保留了样本 90% 的信息；

分析：数据使用 PCA 降维前后的效果

现象：识别准确度提高了，预测时间缩短了；
使用 PCA 将数据降维后的优点：识别准确度提高了，预测时间缩短了，减小了数据和存储空间；
疑问：为什么 PCA 的过程中丢失了 10% 的信息，识别准确度反而提高了？
答疑：实际上 PCA 这个过程中，不仅仅对原始数据进行了降维，更有可能在降维的过程中将原有的数据所包含的噪音消除了，使得数据集中更好的特征，以至于识别准确率得到提升；

机器学习：PCA（实例：MNIST数据集）的更多相关文章

机器学习与Tensorflow（3）—— 机器学习及MNIST数据集分类优化
一.二次代价函数 1. 形式: 其中,C为代价函数,X表示样本,Y表示实际值,a表示输出值,n为样本总数 2. 利用梯度下降法调整权值参数大小,推导过程如下图所示: 根据结果可得,权重w和偏置b的梯度 ...
机器学习-MNIST数据集使用二分类
一.二分类训练MNIST数据集练习 %matplotlib inlineimport matplotlibimport numpy as npimport matplotlib.pyplot as p ...
从零到一：caffe-windows(CPU)配置与利用mnist数据集训练第一个caffemodel
一.前言本文会详细地阐述caffe-windows的配置教程.由于博主自己也只是个在校学生,目前也写不了太深入的东西,所以准备从最基础的开始一步步来.个人的计划是分成配置和运行官方教程,利用自己的数 ...
【转载】用Scikit-Learn构建K-近邻算法，分类MNIST数据集
原帖地址:https://www.jiqizhixin.com/articles/2018-04-03-5 K 近邻算法,简称 K-NN.在如今深度学习盛行的时代,这个经典的机器学习算法经常被轻视.本 ...
Tensorflow MNIST 数据集测试代码入门
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50614444 测试代码已上传至GitH ...
Tensorflow MNIST 数据集測试代码入门
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50614444 測试代码已上传至GitH ...
MNIST 数据集介绍
在学习机器学习的时候,首要的任务的就是准备一份通用的数据集,方便与其他的算法进行比较. MNIST数据集是一个手写数字数据集,每一张图片都是0到9中的单个数字,比如下面几个: MNIST数据库 ...
mnist 数据集的识别源码解析
在基本跑完识别代码后,再来谈一谈自己对代码的理解: 1 前向传播过程文件(mnist_forward.py) 第一个函数get_weight(shape, regularizer); 定义了 ...
Python读取MNIST数据集
MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一.最早于1998年Yan Lecun在论文: Gradient-based learning applied to do ...

随机推荐

iOS_多线程（二）
上篇中我们分享了NSThread.NSOperation&NSOperationQueue如何实现多线程,今天我们来看下第三种实现多线程的方式:GCD(Grand Central Dispat ...
VS中一个强大的功能，将Json或者XML黏贴为类
有时候需要传递json,或者是json结构复杂,看的杂乱无章,我们可以将这个json复制下来,然后将它写成类的形式,VS中已经帮我们很好的实现了这个功能,我们只需要选择编辑===>> ...
JAVA获取Spring上下文
1. 添加监听 public class SpringContextListener implements ServletContextListener { //获取spring注入的bean对象 p ...
java深入探究12-框架之Hibernate
1.引入SSH框架 Struts框架,基于MVC 模式的应用层框架技术 Hibernate,基于持久层框架(数据访问层使用) Dao代码编写的几种方式: 1.原始jdbc操作,Connection/S ...
利用Xshell从windows上传文件到linux
1.首先,打开你的xshell客户端. 2.我用的是ubuntu 所以用 apt-get install lrzsz 命令来安装这个上传软件. 安装成功以后,可以使用rz上传,sz下载. 然后等待上传 ...
phpPgAdmin (win)配置安装及远程访问
phpPgAdmin (win)配置安装 [1] 通过PostgreSQL的Application Stack Builder配置安装phpPgAdmin 1.确保PostgreSQL安装并正 ...
element-ui树结构懒加载
在实际项目中,往往树结构数据量较大,这时树节点必须懒加载 element-ui树的懒加载: <div style="width:100%;height:420px;overflow: ...
CentOS学习笔记（二）：检查系统版本号及32位或64位系统
1.检查系统版本号 lsb_release -a 2.检查32位或64位系统 file /bin/ls
Idea_学习_10_Idea远程debug
一.前言二.远程debug 1.在远程机器启动java调试模式. 需要在启动时添加如下jvm参数,来以java调试模式运行项目. java -Xdebug -Xrunjdwp:server=y,tr ...
I.MX6 dts 在哪里、怎么编译
/************************************************************************ * I.MX6 DTS 在哪里.怎么编译 * 说明: ...

机器学习：PCA（实例：MNIST数据集）

一、数据

获取数据

查看数据

处理数据

二、算法

使用 kNN 算法进行识别操作（数据不降维）

使用 kNN算法进行识别操作（PCA降维数据）

分析：数据使用 PCA 降维前后的效果

机器学习：PCA（实例：MNIST数据集）的更多相关文章

随机推荐

热门专题