SciKit-Learn 可视化数据:主成分分析(PCA)

保留版权所有，转帖注明出处

章节

主成分分析(PCA)是一种常用于减少大数据集维数的降维方法，把大变量集转换为仍包含大变量集中大部分信息的较小变量集。

减少数据集的变量数量，自然是以牺牲精度为代价的，降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化，并且使机器学习算法更容易和更快地分析数据，而不需处理无关变量。

总而言之，主成分分析(PCA)的概念很简单——减少数据集的变量数量，同时保留尽可能多的信息。

使用scikit-learn，可以很容易地对数据进行主成分分析:

# 创建一个随机的PCA模型，该模型包含两个组件

randomized_pca = PCA(n_components=2, svd_solver='randomized')

# 拟合数据并将其转换为模型

reduced_data_rpca = randomized_pca.fit_transform(digits.data)

# 创建一个常规的PCA模型

pca = PCA(n_components=2)

# 拟合数据并将其转换为模型

reduced_data_pca = pca.fit_transform(digits.data)

# 检查形状

reduced_data_pca.shape

# 打印数据

print(reduced_data_rpca)

print(reduced_data_pca)

输出

[[ -1.25946586  21.27488217]

 [  7.95761214 -20.76870381]

 [  6.99192224  -9.95598251]

 ...

 [ 10.80128338  -6.96025076]

 [ -4.87209834  12.42395157]

 [ -0.34439091   6.36555458]]

[[ -1.2594653   21.27488157]

 [  7.95761471 -20.76871125]

 [  6.99191791  -9.95597343]

 ...

 [ 10.80128002  -6.96024527]

 [ -4.87209081  12.42395739]

 [ -0.34439546   6.36556369]]

随机的PCA模型在维数较多时性能更好。可以比较常规PCA模型与随机PCA模型的结果，看看有什么不同。

告诉模型保留两个组件，是为了确保有二维数据可用来绘图。

现在可以绘制一个散点图来可视化数据:

colors = ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 'cyan', 'orange', 'gray']

# 根据主成分分析结果绘制散点图

for i in range(len(colors)):

    x = reduced_data_rpca[:, 0][digits.target == i]

    y = reduced_data_rpca[:, 1][digits.target == i]

    plt.scatter(x, y, c=colors[i])

# 设置图例，0-9用不同颜色表示

plt.legend(digits.target_names, bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

# 设置坐标标签

plt.xlabel('First Principal Component')

plt.ylabel('Second Principal Component')

# 设置标题

plt.title("PCA Scatter Plot")

# 显示图形

plt.show()

显示:

SciKit-Learn 可视化数据:主成分分析(PCA)的更多相关文章

SciKit-Learn 使用matplotlib可视化数据
章节 SciKit-Learn 加载数据集 SciKit-Learn 数据集基本信息 SciKit-Learn 使用matplotlib可视化数据 SciKit-Learn 可视化数据:主成分分析(P ...
主成分分析PCA数据降维原理及python应用（葡萄酒案例分析）
目录主成分分析(PCA)——以葡萄酒数据集分类为例 1.认识PCA (1)简介 (2)方法步骤 2.提取主成分 3.主成分方差可视化 4.特征变换 5.数据分类结果 6.完整代码总结: 1.认识P ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
一步步教你轻松学主成分分析PCA降维算法
一步步教你轻松学主成分分析PCA降维算法 (白宁超 2018年10月22日10:14:18) 摘要:主成分分析(英语:Principal components analysis,PCA)是一种分析.简 ...
机器学习课程-第8周-降维(Dimensionality Reduction)—主成分分析(PCA)
1. 动机一:数据压缩第二种类型的无监督学习问题,称为降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快 ...
运用sklearn进行主成分分析(PCA)代码实现
基于sklearn的主成分分析代码实现一.前言及回顾二.sklearn的PCA类介绍三.分类结果区域可视化函数四.10行代码完成葡萄酒数据集分类五.完整代码六.总结基于sklearn的主 ...
深度学习入门教程UFLDL学习实验笔记三：主成分分析PCA与白化whitening
主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通过PCA降维,我们能够有效的降低数据的维度,加快运算速度.而白化就是为了使得每个特征能有同 ...
线性判别分析（LDA）, 主成分分析(PCA)及其推导【转】
前言: 如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了. 谈到LDA,就不得不谈谈PCA,PCA ...

随机推荐

Java 代码空间复杂度查看工具
SourceMonitor 下载地址:http://www.campwoodsw.com/sourcemonitor.html
Fiddler抓取HTTPS
对于想抓取HTTPS的测试初学者来说,常用的工具就是fiddler.可是在初学时,大家对于fiddler如何抓取HTTPS真是伤了脑筋,可能你一步步按着网上的帖子成功了,那当然是极好的. 有可能没有成 ...
「SDOI2015」寻宝游戏
传送门 Luogu 解题思路发现一个性质: 对于所有的宝藏点 \({a_1,a_2...a_k}\) ,按照dfs序递增排列,答案就是: \(dis(a_1, a_2) + dis(a_2, a_3 ...
【转】深入分析JAVA IO（BIO、NIO、AIO）
IO的基本常识 1.同步用户进程触发IO操作并等待或者轮询的去查看IO操作是否完成 2.异步用户触发IO操作以后,可以干别的事,IO操作完成以后再通知当前线程继续处理 3.阻塞当一个线程调用 r ...
配置antMatchers(HttpMethod.GET,"/**").permitAll()当时仍然会校验
.antMatchers(HttpMethod.GET,"/**").permitAll() .anyRequest().authenticated() .and() .addFi ...
Go语言 Note
1.简单的CURD之搭建基础框架 //路由层 func Router(rg *gin.RouterGroup){ rg.GET("/getsupplier", facility.G ...
XmlBeanDefinitionReader
Manjaro Linux 添加源及输入法
生成可用的中国镜像站列表 sudo pacman-mirrors -i -c China -m rank 勾选相应的镜像站 ,看自己的喜好如中科大:http://mirrors.ustc.edu.c ...
JS浮点数的研究
为什么0.1 + 0.2 得到的是 0.30000000000000004 console.log( 0.1 + 0.2 == 0.3);//false 在js中所有的整数和小数都是以Number形式 ...
java字符，字符串，数字之间的转换
string 和int之间的转换 string转换成int :Integer.valueOf("12") int转换成string : String.valueOf(12) ch ...

SciKit-Learn 可视化数据:主成分分析(PCA)

保留版权所有，转帖注明出处

章节

SciKit-Learn 可视化数据:主成分分析(PCA)的更多相关文章

随机推荐

热门专题