sklearn中的PCA(真实的数据集)

(在notebook中)

加载好需要的内容,手写数字数据集

  import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets digits = datasets.load_digits()
X = digits.data
y = digits.target

首先对数据集进行分割

  from sklearn.model_selection import train_test_split

  X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

相应的在X_train中用shape可以看出来,其中有1347个样本,每个样本有64个特征

结果如下

我们用KNN来训练,引入方法,进行初始化以后进行fit

  %%time
from sklearn.neighbors import KNeighborsClassifier knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train,y_train)

结果如下

看一下这样的准确度是多少

  knn_clf.score(X_test,y_test)

结果如下

这就是我们使用全部的数据集进行训练以后进行识别得到的结果

然后我们尝试用sklearn中的PCA来进行降维

引入并进行实例化,维度设置为2,然后进行fit操作,传入以后就可以得到X_train_reduction(对训练数据集降维以后的结果),同样,对测试数据集一样进行降维

  from sklearn.decomposition import PCA

  pca = PCA(n_components=2)
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)

这样就可以生成一个新的KNN识别器,同样的操作以后

  %%time
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)

结果如下

可以发现计算的时间降低了非常多,这就是对于高维数据来说,将其降维到低维以后将会大大的节省计算的时间

那么我们再来看一下这个识别器的精度如何

  knn_clf.score(X_test_reduction,y_test)

结果如下

可以发现,这个精度降低了很多,这不是能接受的,这样就有了一个矛盾,速度提升了许多但是同时精度也降低了很多,很显然两维太低了,那么我们怎么找到好一些的维度数呢,在pca中有pca.explained_variance_ratio_,这个数据就告诉我们维持的方差,那么想要方差维持最大,这就可以找到

  pca.explained_variance_ratio_

结果如下(这个意思就是有两个比例,一个0.14上下,一个0.13上下,其就是两个轴,第一个轴可以解释原数据的14.5%的方差,第二个可以解释原数据13.7%的方差,也就是这个二维一共包含了方差的28%上下,剩下的全部都丢失了)

那么我们怎么找呢

首先实例一下pca,然后传入训练数据集对应的特征数,然后进行fit操作,并打印出

  pca.explained_variance_ratio_

  pca = PCA(n_components=X_train.shape[1])
pca.fit(X_train)
pca.explained_variance_ratio_

结果如下(这就是对于主成分来说,依次的可以解释的方差是多少,这就可以表示成每一个轴的重要程度)

这里我们做一个折线图,横轴是维度,纵轴是前i个轴解释的方差的和

  plt.plot([i for i in range(X_train.shape[1])],
[np.sum(pca.explained_variance_ratio_[:i+1]) for i in range(X_train.shape[1])])

图像如下(通过这个图就可以看出来相应的需要的维度数以及重要程度)

在sklearn中的PCA,如果说希望数据保持95%以上的信息,可以直接传入一个0到1的数字,即就是解释多少的方差,然后进行fit

  pca = PCA(0.95)
pca.fit(X_train)

结果如下

使用pca.n_components_看一下需要多少的维度

结果如下(即28个维度就可以保持95%以上)

这时候来运行一下,同时看一下要多长时间

  X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test) %%time
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)

结果如下

同时我们看一下这个准确度如何

  knn_clf.score(X_test_reduction,y_test)

结果如下

可以说这样的操作比全样本快,精确度虽然低,这是可以接受的,有时候是可以牺牲精度来换取时间的

将数据降到二维也不是说一点用没有,其还可以进行可视化

  pca = PCA(n_components=2)
pca.fit(X)
X_reduction = pca.transform(X)
X_reduction.shape

结果如下

此时就可以对数据进行绘制

  for i in range(10):
plt.scatter(X_reduction[y==i,0],X_reduction[y==i,1],alpha=0.8)

结果如下

可以发现,有些数据到了二维也有很好的区分度,那么如果要使用这种数据的话,实际上用二维也是可以的

【笔记】scikit-learn中的PCA(真实数据集)的更多相关文章

  1. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  2. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  3. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  4. 在SCIKIT中做PCA 逆运算 -- 新旧特征转换

    PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...

  5. 在SCIKIT中做PCA 逆变换 -- 新旧特征转换

    PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...

  6. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  7. Python机器学习笔记 使用scikit-learn工具进行PCA降维

    之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...

  8. sklearn中调用PCA算法

    sklearn中调用PCA算法 PCA算法是一种数据降维的方法,它可以对于数据进行维度降低,实现提高数据计算和训练的效率,而不丢失数据的重要信息,其sklearn中调用PCA算法的具体操作和代码如下所 ...

  9. 从头开始学JavaScript 笔记(一)——基础中的基础

    原文:从头开始学JavaScript 笔记(一)--基础中的基础 概要:javascript的组成. 各个组成部分的作用 . 一.javascript的组成   javascript   ECMASc ...

随机推荐

  1. Java Collecion的常用方法

    import java.util.*; /** * 数组存储数据的特点: * ①一旦初始化,大小确定 * ②一旦定义,存储的类型确定且相同. * 数组存储的弊端: * ①大小无法改变. * ②方法较少 ...

  2. Linux 内核睡眠的几种方式

    译至:http://geeki.wordpress.com/2010/10/30/ways-of-sleeping-in-linux-kernel/ 在Linux中睡眠有2-3种不同的方法. 睡眠的第 ...

  3. 官宣.NET 6 预览版4

    我们很高兴发布 .NET 6 Preview 4.我们现在大约完成了 .NET 6 发布的一半.现在是一个很好的时机,可以再次查看.NET6的完整范围.许多功能都接近最终形式,而其他功能将很快推出,因 ...

  4. mongodb oplog详解和格式分析

    1. 基本概念 oplog使用固定大小集合记录了数据库中所有修改操作的操作日志(新增.修改和删除,无查询),mongodb收到修改请求后,先在主节点(Primary)执行请求,再把操作日志保存到opl ...

  5. C语言:类型转换

    1.自动类型转换:将小范围数据类型转换为大范围的数据类型 2.赋值号两边的数据类型不一致时,会自动将右边的数据类型转换为左边的数据类型.若右边数据的类型级别高,则根据左边变量的长度截取低字节数据部分 ...

  6. ES6 let const关键字

    在es6中,引入了let和const关键字: 1.letES6 新增了let命令,用来声明变量.它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效. (1)在块级作用域里有效(比 ...

  7. ajax和springmvc的请求响应原理——深入理解jQuery中$.get、$.post、$.getJSON和$.ajax的用法

    1,四大重要部分: 请求链接 post请求和get请求 请求参数形式 响应内容形式 2,从springmvc的controller角度,controller能接收到请求的前提 请求链接必须对应 pos ...

  8. 微信小程序云开发-数据库-更新数据

    一.js文件代码使用.update更新数据 写一个更新数据的函数,函数内使用.update更新数据.一定要通过.doc指定修改哪一条数据.  二.wxml文件修改数据的按钮 在wxml文件中写[修改] ...

  9. Navicat Premium 12安装及破解

    特别提醒,Navicat Premium 12安装包请用我给的链接下载,不然会无法破解 下载Navicat Premium 12地址:https://pan.baidu.com/s/1AQsryKpJ ...

  10. Deepin 20.1打造软件开发环境

    支持国产操作系统,替代Windows势在必行,不能让美国卡"脖子"是广大计算机爱好者的共同心愿,下面列举一下Deepin V20.1下如何安装常用软件 ============== ...