python机器学习使用PCA降维识别手写数字
PCA降维识别手写数字
关注公众号“轻松学编程”了解更多。
PCA 用于数据降维,减少运算时间,避免过拟合。
PCA(n_components=150,whiten=True)
n_components参数设置需要保留特征的数量,如果是小数,则表示保留特征的比例;
设为大于零的整数,会自动的选取n个主成分-
whiten: 默认为False,若为True表示做白化处理,白化处理主要是为了使处理后的数据方差都一致
PCA降维识别手写数字
导包
import numpy as np
import pandas as pd
import time
from pandas import Series,DataFrame
from sklearn.svm import SVC
#主成分分析
from sklearn.decomposition import PCA
# 交叉验证
from sklearn.model_selection import GridSearchCV
from IPython.display import display
import matplotlib.pyplot as plt
%matplotlib inline
读取数据
data = pd.read_csv('./data/digits.csv')
data.head()
data.shape
一共有42000张图片。
plt.figure(figsize=(2,2))
plt.imshow(data.loc[0][1:].values.reshape(28,28))
# 图片之所以显示不同数字,因为像素值pixel 不同
data中label一列中的值代表的是哪个数字。
#特征数据
X = data.iloc[:,1:]
#目标数据
y = data.label
有些属性都是一样的,对分类起不到作用,可以把它们从特征属性中剔除,从而达到降维的效果,缩短模型训练时间,提高准确率。
降维处理
# 784属性降维到150
X.shape
#自动选取150个主成分特征
pca = PCA(n_components=150,whiten=True)
#训练模型
pca.fit(X)
#降维处理
X_pca = pca.transform(X)
X_pca.shape
使用交叉验证获取算法模型最优参数
'''gamma : float, optional (default='auto')
Kernel coefficient for 'rbf', 'poly' and 'sigmoid'.
If gamma is 'auto' then 1/n_features will be used instead.'''
#gamma = 1/150 = 0.00667
g = [0.001,0.003,0.006,0.01,0.05]
c = [0.5,0.8,1,1.5,3]
#创建支持向量机算法模型。内核函数默认使用'rbf
svc = SVC()
#寻找算法最优参数:5个属性(5个参数)组合条件 5^5 = 3125个组合
gCV = GridSearchCV(svc,
param_grid={
'C': c,
# C是SVC中的错误惩罚系数,值越大,模型就越不能容忍错误,
#训练次数就越多,也越容易过拟合
'gamma':g # gamma是SVC中调整曲线形状的系数
})
start = time.time()
#训练模型
gCV.fit(X_pca[:5000],y[:5000])
end = time.time()
print((end-start)/60,'分钟')
获取最优模型
#获取模型
svc_best_ = gCV.best_estimator_
svc_best_
对最优模型评分
gCV.best_score_
训练模型并评分
#训练模型
svc_best_.fit(X_pca[:5000],y[:5000])
#预测
y_ = svc_best_.predict(X_pca[-40:])
display(y_,y[-40:].values)
svc_best_.score(X_pca[-5000:],y[-5000:])
不进行降维比较
# 不进行降维:准确率降低
start = time.time()
svc_best_.fit(X[:5000],y[:5000])
end = time.time()
acu = svc_best_.score(X[-5000:],y[-5000:])
print('不进行降维,准确率: %0.4f'%(acu))
print((end-start)/60,'分钟')
后记
【后记】为了让大家能够轻松学编程,我创建了一个公众号【轻松学编程】,里面有让你快速学会编程的文章,当然也有一些干货提高你的编程水平,也有一些编程项目适合做一些课程设计等课题。
也可加我微信【1257309054】,拉你进群,大家一起交流学习。
如果文章对您有帮助,请我喝杯咖啡吧!
公众号
关注我,我们一起成长~~
python机器学习使用PCA降维识别手写数字的更多相关文章
- 使用神经网络来识别手写数字【译】(三)- 用Python代码实现
实现我们分类数字的网络 好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样识别手写数字. 我们用Python (2.7) 来实现.只有 74 行代码!我们需要的第一个东西是 MNI ...
- python手写神经网络实现识别手写数字
写在开头:这个实验和matlab手写神经网络实现识别手写数字一样. 实验说明 一直想自己写一个神经网络来实现手写数字的识别,而不是套用别人的框架.恰巧前几天,有幸从同学那拿到5000张已经贴好标签的手 ...
- 学习笔记TF024:TensorFlow实现Softmax Regression(回归)识别手写数字
TensorFlow实现Softmax Regression(回归)识别手写数字.MNIST(Mixed National Institute of Standards and Technology ...
- TensorFlow实战之Softmax Regression识别手写数字
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2018年02月21日 23:10:04所撰写内容(http://blog.c ...
- 一文全解:利用谷歌深度学习框架Tensorflow识别手写数字图片(初学者篇)
笔记整理者:王小草 笔记整理时间2017年2月24日 原文地址 http://blog.csdn.net/sinat_33761963/article/details/56837466?fps=1&a ...
- 3 TensorFlow入门之识别手写数字
------------------------------------ 写在开头:此文参照莫烦python教程(墙裂推荐!!!) ---------------------------------- ...
- 用BP人工神经网络识别手写数字
http://wenku.baidu.com/link?url=HQ-5tZCXBQ3uwPZQECHkMCtursKIpglboBHq416N-q2WZupkNNH3Gv4vtEHyPULezDb5 ...
- KNN 算法-实战篇-如何识别手写数字
公号:码农充电站pro 主页:https://codeshellme.github.io 上篇文章介绍了KNN 算法的原理,今天来介绍如何使用KNN 算法识别手写数字? 1,手写数字数据集 手写数字数 ...
- python机器学习识别手写数字
手写数字识别 关注公众号"轻松学编程"了解更多. 导包 import numpy as np import matplotlib.pyplot as plt %matplotlib ...
随机推荐
- Python-序列切片原理和切片协议-[start:end:step] __getitem__
切片原理图(顾头不顾尾的正则原理) # [0:1] 其实只取到C, 取e则 [-1:], 如果步长为负数则倒过来取,从第几个往回取 name = "ChuiXue" print(n ...
- Centos-gizp压缩文件-gzip gunzip
gzip gunzip 将一般文件进行压缩或者解压,默认扩展名为 .gz, 本质上 gunzip是gzip硬链接,压缩和解压都可以通过gzip完成 gzip 相关选项 -d 解压 -r 递归压缩目录下 ...
- 面试官:开发过Maven插件吗?我:开发过啊。。。
写在前面 转眼间,今天已经是假期的第4天了.今天要给大家分享点啥呢?想了半天,想起了之前去某宝面试的情景.记得面试前自己基于Maven开发过一些简单实用的插件,而且在自己的本地环境中一直在使用,极大的 ...
- 这一次,彻底理解JavaScript深拷贝
导语 这一次,通过本文彻底理解JavaScript深拷贝! 阅读本文前可以先思考三个问题: JS世界里,数据是如何存储的? 深拷贝和浅拷贝的区别是什么? 如何写出一个真正合格的深拷贝? 本文会一步步解 ...
- 01 AS 首次编译执行项目过程中遇到的几个常见问题
问题01 as打开时出现The environment variable JAVA_HOME (with The value of C:\Java\jdk1.8.0_101\bin) does not ...
- Win32控制台、Win32项目、MFC项目、CLR控制台、CLR空项目、空项目区别
转载:https://blog.csdn.net/zfmss/article/details/79244696 1.Win32控制台 初始代码模版以main为程序入口,默认情况下,只链接C++运行时库 ...
- 对于dijkstra最短路算法的复习
好久没有看图论了,就从最短路算法开始了. dijkstra算法的本质是贪心.只适用于不含负权的图中.因为出现负权的话,贪心会出错. 一般来说,我们用堆(优先队列)来优化,将它O(n2)的复杂度优化为O ...
- JDK 中的栈竟然是这样实现的?
前面的文章<动图演示:手撸堆栈的两种实现方法!>我们用数组和链表来实现了自定义的栈结构,那在 JDK 中官方是如何实现栈的呢?接下来我们一起来看. 这正式开始之前,先给大家再解释一下「堆栈 ...
- BeetleX之webapi自定义响应内容
输出内容多样性在webapi服务中比较普遍的,有的情况使用json,xml,图片和二进制流下载等等:为了适应用不同情况的需要,组件支持自定义内容输出.接下来的主要描述组件在webapi如何定义各种内容 ...
- 关于 ECMAScript、JavaScript、ES6、ECMAScript 2015
ECMAScript 是一种规范,而 JavaScript 是对规范的实现.ECMA 是标准化组织. 最早的 JavaScript 是由 Netscape 公司开发的,并提交给 ECMA 标准化组织, ...