【笔记】scikit-learn中的PCA（真实数据集）

sklearn中的PCA（真实的数据集）

（在notebook中）

加载好需要的内容，手写数字数据集

  import numpy as np

  import matplotlib.pyplot as plt

  from sklearn import datasets

  digits = datasets.load_digits()

  X = digits.data

  y = digits.target

首先对数据集进行分割

  from sklearn.model_selection import train_test_split

  X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

相应的在X_train中用shape可以看出来，其中有1347个样本，每个样本有64个特征

结果如下

我们用KNN来训练，引入方法，进行初始化以后进行fit

  %%time

  from sklearn.neighbors import KNeighborsClassifier

  knn_clf = KNeighborsClassifier()

  knn_clf.fit(X_train,y_train)

结果如下

看一下这样的准确度是多少

  knn_clf.score(X_test,y_test)

结果如下

这就是我们使用全部的数据集进行训练以后进行识别得到的结果

然后我们尝试用sklearn中的PCA来进行降维

引入并进行实例化，维度设置为2，然后进行fit操作，传入以后就可以得到X_train_reduction（对训练数据集降维以后的结果），同样，对测试数据集一样进行降维

  from sklearn.decomposition import PCA

  pca = PCA(n_components=2)

  pca.fit(X_train)

  X_train_reduction = pca.transform(X_train)

  X_test_reduction = pca.transform(X_test)

这样就可以生成一个新的KNN识别器，同样的操作以后

  %%time

  knn_clf = KNeighborsClassifier()

  knn_clf.fit(X_train_reduction,y_train)

结果如下

可以发现计算的时间降低了非常多，这就是对于高维数据来说，将其降维到低维以后将会大大的节省计算的时间

那么我们再来看一下这个识别器的精度如何

  knn_clf.score(X_test_reduction,y_test)

结果如下

可以发现，这个精度降低了很多，这不是能接受的，这样就有了一个矛盾，速度提升了许多但是同时精度也降低了很多，很显然两维太低了，那么我们怎么找到好一些的维度数呢，在pca中有pca.explained_variance_ratio_，这个数据就告诉我们维持的方差，那么想要方差维持最大，这就可以找到

  pca.explained_variance_ratio_

结果如下（这个意思就是有两个比例，一个0.14上下，一个0.13上下，其就是两个轴，第一个轴可以解释原数据的14.5%的方差，第二个可以解释原数据13.7%的方差，也就是这个二维一共包含了方差的28%上下，剩下的全部都丢失了）

那么我们怎么找呢

首先实例一下pca，然后传入训练数据集对应的特征数，然后进行fit操作，并打印出

  pca.explained_variance_ratio_

  pca = PCA(n_components=X_train.shape[1])

  pca.fit(X_train)

  pca.explained_variance_ratio_

结果如下（这就是对于主成分来说，依次的可以解释的方差是多少，这就可以表示成每一个轴的重要程度）

这里我们做一个折线图，横轴是维度，纵轴是前i个轴解释的方差的和

  plt.plot([i for i in range(X_train.shape[1])],

     [np.sum(pca.explained_variance_ratio_[:i+1]) for i in       range(X_train.shape[1])])

图像如下（通过这个图就可以看出来相应的需要的维度数以及重要程度）

在sklearn中的PCA，如果说希望数据保持95%以上的信息，可以直接传入一个0到1的数字，即就是解释多少的方差，然后进行fit

  pca = PCA(0.95)

  pca.fit(X_train)

结果如下

使用pca.n_components_看一下需要多少的维度

结果如下（即28个维度就可以保持95%以上）

这时候来运行一下，同时看一下要多长时间

  X_train_reduction = pca.transform(X_train)

  X_test_reduction = pca.transform(X_test)

  %%time

  knn_clf = KNeighborsClassifier()

  knn_clf.fit(X_train_reduction,y_train)

结果如下

同时我们看一下这个准确度如何

  knn_clf.score(X_test_reduction,y_test)

结果如下

可以说这样的操作比全样本快，精确度虽然低，这是可以接受的，有时候是可以牺牲精度来换取时间的

将数据降到二维也不是说一点用没有，其还可以进行可视化

  pca = PCA(n_components=2)

  pca.fit(X)

  X_reduction = pca.transform(X)

  X_reduction.shape

结果如下

此时就可以对数据进行绘制

  for i in range(10):

      plt.scatter(X_reduction[y==i,0],X_reduction[y==i,1],alpha=0.8)

结果如下

可以发现，有些数据到了二维也有很好的区分度，那么如果要使用这种数据的话，实际上用二维也是可以的

【笔记】scikit-learn中的PCA（真实数据集）的更多相关文章

(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
在SCIKIT中做PCA 逆运算 -- 新旧特征转换
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
在SCIKIT中做PCA 逆变换 -- 新旧特征转换
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
Python机器学习笔记使用scikit-learn工具进行PCA降维
之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...
sklearn中调用PCA算法
sklearn中调用PCA算法 PCA算法是一种数据降维的方法,它可以对于数据进行维度降低,实现提高数据计算和训练的效率,而不丢失数据的重要信息,其sklearn中调用PCA算法的具体操作和代码如下所 ...
从头开始学JavaScript 笔记(一)——基础中的基础
原文:从头开始学JavaScript 笔记(一)--基础中的基础概要:javascript的组成. 各个组成部分的作用 . 一.javascript的组成 javascript ECMASc ...

随机推荐

flink数据广播场景总结
数据集广播,主要分为广播变量,广播维表(数据集)两种,一种为变量,一种为常量(抽象的说法): 一.数据广播背景对于小变量,小数据集,需要和大数据集,大流进行联合计算的时候,往往把小数据集广播出去,整 ...
linux之软连接硬链接 link ln
p.p1 { margin: 0; font: 12px "Helvetica Neue"; color: rgba(220, 161, 13, 1) } p.p2 { margi ...
2012年第三届蓝桥杯C/C++程序设计本科B组省赛题目海盗比酒量结果填空
** 一.题目 ** 海盗比酒量有一群海盗(不多于20人),在船上比拼酒量.过程如下:打开一瓶酒,所有在场的人平分喝下,有几个人倒下了.再打开一瓶酒平分,又有倒下的,再次重复- 直到开了第4瓶酒,坐 ...
leetcode TOP100 两数相加
两数相加给出两个非空的链表用来表示两个非负的整数.其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字. 如果,我们将这两个数相加起来,则会返回一个新的链表来表 ...
npm run start失败&Node.js 查询指定端口运行情况及终止占用端口办法
缘由: node.js项目中运行npm run start命令脚本报错,No such file or directory 最开始以为是命令脚本找不到所谓的执行路径,但后面发现不是,是package. ...
「SDOI2016」数字配对
「SDOI2016」数字配对题目大意传送门题解 \(a_i\) 是 \(a_j\) 的倍数,且 \(\frac{a_i}{a_j}\) 是一个质数,则将 \(a_i,a_j\) 质因数分解后,其 ...
win10 删除WPS提示存在wpsupdate.exe进程
这个进程在:WIN10 任务管理器的"详细列表"查找可能有1-2个类似的,全部关闭才能删除
MVC框架介绍分析
相信绝大多数学习过Javaweb的人都知道一个系统的模式--Spring模式,以这么模式中为基础,衍生出各种各样的新的模式,其中最重要的就是Spring下的Spring MVC MVC是Xerox P ...
Leetcode:637. 二叉树的层平均值
Leetcode:637. 二叉树的层平均值 Leetcode:637. 二叉树的层平均值 Talk is cheap . Show me the code . /** * Definition fo ...
关于 .NET 与 JAVA 在 JIT 编译上的一些差异
最近因为公司的一些原因,我也开始学习一些 JAVA 的知识.虽然我一直是以 .NET 语言为主的程序员,但是我并不排斥任何其它语言.在此并不讨论 JAVA .NET 的好坏,仅仅是对 .NET 跟 J ...

【笔记】scikit-learn中的PCA（真实数据集）

sklearn中的PCA（真实的数据集）

【笔记】scikit-learn中的PCA（真实数据集）的更多相关文章

随机推荐

热门专题