读文献先读图——主成分分析 PCA 图
上周五彩斑斓的气泡图
有让你眼花缭乱吗?
本周,化繁为简的PCA图
你值得拥有!
数据分析| 科研制图﹒PCA 图
关键词:主成分分析、降维
1665 年的鼠疫
牛顿停课在家提出了万有引力 ;
1830 年的霍乱,普希金居家深造
写出了 300 多首抒情诗和几部小说 ;
2020 年的新冠,若谷也没闲着
嘿嘿嘿,是不是很好奇我在干嘛?
就不告诉你
好想快点开学啊啊啊啊啊啊 | 图源新医谷
若谷的假期,早被谷老安排上了!那就是研究文献中的各种图!最让我走火入魔的便是— PCA 图。
最传统的PCA图 | 图源新医谷
初识 PCA
关于 PCA,你第一眼想到的是什么?
是解剖里面的
Posterior Cerebral Artery(大脑后动脉)?
还是高大上的
Patient Controlled Analgesia(病人自控镇痛)?
都不是,今天若谷给大家讲的是
Principal Component Analysis
主成分分析
是不是听起来就一脸懵,下面就让我们来看看PCA是何方神圣!
01
降维?
主成分分析的字面意思就是用主成分来分析数据呗!阔是,什么是主成分?这就不得不聊一个关于“降维”的故事了。
从前有座山,山上有座庙,庙里有个……
呸呸呸,拿错剧本了
应该是“学医要考研,考研要复试,复试要…要…要…复试不仅让考生心痛更让导师眼花缭乱。”这不,A导就纠结着到底选5个复试学生里的哪一个来当自己的关门弟子?
A导最终决定用数据说话!设置了“绩点,考研分数,科研能力,笔试成绩,面试表现,英语水平,奖学金,学科竞赛,部门任职”9个指标(相当于从9个维度去评价这5位考生)。
想读个书不容易 | 图源新医谷
9个指标=9个变量=9个维度
那用图表示得来个九维空间?
我的三维大脑是搞不定的 | 图源新医谷
看来9维是不行了,那怎么把维度降低,用简单的方法表示复杂的数据分析?
当然是用降维了!降维是通过减少数据中的指标(或变量)以化简数据的过程。这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个“综合指标”来代表整个数据。
PS:降维的原理涉及复杂数理知识且大多由计算机完成,感兴趣的小伙伴可在留言区评论“PCA降维原理”了解更多!
那么问题来了!这个“综合指标”是什么?为什么它们就可以代表整个数据?
图源新医谷
02
Why
主成分?
综合指标=主成分
你没有看错,这个综合指标就是我们今天的重点:主成分。它不是原来的指标中的任何一个,而是由所有原有指标数据线性组合而来。
比如A导的故事中的主成分就可这样表示:
PCA主成分 | 图源新医谷
认识了“主成分”以后,PCA的概念就很容易理解了!
PCA——就是以“降维”为核心,把多指标的数据用少数几个综合指标(主成分)替代,还原数据最本质特征的数据处理方式。
可是,主成分为什么拽到可以代替所有数据?(上一次的小提琴图不还为了保留每个数据而爬山跨海?)
认真看看可以发现部分指标其实是相互关联的!(比如奖学金也可以反映绩点情况),这就会造成数据冗余。而降维就可以帮助我们去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。
A导终于可以一眼就区分这5位考生的水平并“理智”地做出选择了!
决定还有没有书读的图 | 图源新医谷
A导可是只有5位考生,9个指标而已!在我们医学中!那可是上千的样本量,上万的基因数据......
再次吐血 | 图源新医谷
在医学领域中,我们可以用PCA图来进行疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还用它来观察样本的分组、趋势、剔除异常数据。
所以PCA图在文献中出现率还是蛮高的!!!不过遇到它我们怎么看?
深入了解PCA
壮士!先收下这份“PCA识图秘籍”
识图秘籍
样本点连线距离长 =样本之间差异性大
样本点连线距离短 =样本之间差异性小
通过主成分分析方法(PCA)分析9种食物的蛋白质消耗量(变量)与25个欧洲国家(样本)之间的关系 | 图源新医谷
由图可得,大部分欧洲国家蛋白摄入习惯是:吃鸡蛋、红肉(猪牛羊等畜肉)、白肉(禽、鱼肉及水产品),喝牛奶。
迷茫的打出三个问号 | 图源新医谷
详细的解析来了!
1、各样本点连线的距离:体现各国家蛋白摄入习惯的相似性。
2、主成分与原变量之间的关系:箭头对应的原始变量在投影到水平和垂直方向上后的值,可以分别体现该变量与PC1和PC2的相关性(正负相关性及其大小)(例如,Eggs对PC1具有较大的贡献,而Nuts则与PC1之间呈较大的负相关性)。
3、样本点和箭头之间的距离:反映样本与原始变量的关系。(对于图中用蓝色粗箭头所指的样本点而言,该国的蛋白质来源主要为Fruits and Vegetables)。
图源新医谷
怎么样?有没有一种豁然开朗的感觉?
什么?还是懵?
没关系,继续看例子
滑动查看更多例子 | 图源新医谷
不过这还没完哦!
大家都是有追求医学生,要有追求~
我们不仅要会读,还要会画!
PCA图怎么画
接下来若谷就用上面读图用到的“25个国家消耗的蛋白质的9种食物来源”的例子所对应的数据来教大家用Origin2020绘制PCA图~(该数据集来自Origin2020示例文件)
滑动打开新世界的大门
大家都学会了吗?
眼睛会了可不算哦~
答应若谷,一定要亲自动手去试试
相信你一定会画得比若谷的漂亮~
小试牛刀
耐不住性子想要自己亲自试试了吧?那若谷就来考考大家,从下面这幅图你能看出什么呢?
仔细看图中颜色,若谷快要变成色盲了
点击空白处查看答案
图一将牦牛与中国土著品种牛区分开。
图二根据地理背景来区分中国本土牛的品种,图中西北部的牛主要位于虚线以下,南方的牛位于虚线以上,而中部混合型牛位于虚线附近。
点击 关键词 查看更多
科研资源丨您有一份科研资源清单,请签收!
科研识图丨读文献先读懂图——生存分析曲线图
科研识图丨读文献先读图——文献中最热的热图怎么看
科研制图 | 读文献先读图——火山图
科研制图 | 读文献先读图——小提琴图
科研制图 | 读文献先读图——气泡图
JUN
28
本次读图大赛到此结束,下一期讲什么(⊙o⊙)?
很懂行的谷友,投稿福利安排上 | 图源新医谷
作者:X-Land启思科研组
配图:X-Land漫说医学组
排版:读懂了PCA的若谷
参考文献
[1]Yaran Zhang,Population Structure and Selection Signatures Underlying High-Altitude Adaptation Inferred From Genome Wide Copy Number Variations in Chinese Indigenous Cattle,Frontiers in Genetics,2020
[2]叶卫平.Origin9.1【M】.北京:机械工业出版社,2015:345-349
[3]Nagel T,Klaus F et al. Fast and facile analysis of glycosylation and phosphorylation of fibrinogen from human plasma—correlation with liver cancer and liver cirrhosis 【J】. Analytical and Bioanalytical Chemistry,2018.
[4]Wanxin Liu et al.Study of the Relationship between Microbiome and Colorectal Cancer Susceptibility Using 16S rRNA Sequencing[J]BioMed Research International,2019.
本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
读文献先读图——主成分分析 PCA 图的更多相关文章
- 一步步教你读懂NET中IL(附带图)
一步步教你读懂NET中IL(附带图) 接触NET也有1年左右的时间了,NET的内部实现对我产生了很大的吸引力,在msdn上找到一篇关于NET的IL代码的图解说明,写的挺不错的.个人觉得:能对这些底部的 ...
- 群体结构图形三剑客——PCA图
重测序便宜了,群体的测序和分析也多了起来.群体结构分析,是重测序最常见的分析内容.群体结构分析应用十分广泛,首先其本身是群体进化关系分析里面最基础的分析内容,其次在进行GWAS分析的时候,本身也需要使 ...
- 2018-10-18读文献总结之DCB码分多址、零基线、信号产生
---恢复内容开始--- 今天心血来潮,想开始把自己读文献的过程和每篇文献的收获总结一下,不知道CSDN怎么回事,一直登陆不进去,搞得我注册了一个博客园的账户,博客园新注册的还需要认证,但是很快,所以 ...
- PGL图学习之图神经网络GNN模型GCN、GAT[系列六]
PGL图学习之图神经网络GNN模型GCN.GAT[系列六] 项目链接:一键fork直接跑程序 https://aistudio.baidu.com/aistudio/projectdetail/505 ...
- 初谈SQL Server逻辑读、物理读、预读
前言 本文涉及的内容均不是原创,是记录自己在学习IO.执行计划的过程中学习其他大牛的博客和心得并记录下来,之所以想写下来是为了记录自己在追溯的过程遇到的几个问题,并把这些问题弄清楚. 本章最后已贴出原 ...
- ORACLE 物理读 逻辑读 一致性读 当前模式读总结浅析
在ORACLE数据库中有物理读(Physical Reads).逻辑读(Logical Reads).一致性读(Consistant Get).当前模式读(DB Block Gets)等诸多概念,如果 ...
- Matlab 语谱图(时频图)绘制与分析
Matlab 语谱图(时频图)绘制与分析 语谱图:先将语音信号作傅里叶变换,然后以横轴为时间,纵轴为频率,用颜色表示幅值即可绘制出语谱图.在一幅图中表示信号的频率.幅度随时间的变化,故也称" ...
- SQL Server逻辑读、预读和物理读
SQL Server数据存储的形式 预读:用估计信息,去硬盘读取数据到缓存.预读100次,也就是估计将要从硬盘中读取了100页数据到缓存. 物理读:查询计划生成好以后,如果缓存缺少所需要的数据,让缓存 ...
- 线性判别分析(LDA), 主成分分析(PCA)及其推导【转】
前言: 如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了. 谈到LDA,就不得不谈谈PCA,PCA ...
- SQL SERVER中的逻辑读,预读和物理读
sqlserver:数据存储方式:最小单位是页,每一页8k,sqlserver 对页的读取是具有原子性,也就是说,要么读取完整一页,要么完全不读取,不会有中间状态,而页之间的数据组织结构是B树 但是每 ...
随机推荐
- Java面试——MyBatis
一.MyBatis 与 JDBC 的区别 [1]JDBC 是 Java 提供操作数据库的 API:MyBatis 是一个持久层 ORM 框架,底层是对 JDBC 的封装.[2]使用 JDBC 需要连接 ...
- Spring Data Solr 对 Solr 的增删改查实例
Spring Data Solr 就是为了方便 solr 的开发研制的一个框架,其底层是对 SolrJ(官方 API)的封装 一.环境搭建 第一步:创建 Maven 项目(springdatasolr ...
- VS Code多语言笔记本扩展插件 Polyglot Notebooks
早在2022年12月12日,微软就发布了VS Code的多语言笔记本扩展插件 Polyglot Notebooks,所使用的引擎为. NET Interactive,目前支持包括C#.F#.Power ...
- Windows10绿色植物主题Kemikal
给大家分享一个Windows10的主题,Kemikal主题,内置8张绿色植物树木的壁纸.使用这个主题前需要破解系统主题文件. 想要完整的使用这个主题,需要下载安装下方的三个文件: Windows10主 ...
- CentOS7环境下数据库运维---主从复制、读写分离
1.理解MySQL主从复制原理 主服务器开启binlog日志,从库生成log dump线程,将binlog日志传给从库I/O线程,从库生成俩个线程,一个是I/O线程,一个是SQL线程,I/O线程去请主 ...
- MapReduce Shuffle源码解读
MapReduce Shuffle源码解读 相信很多小伙伴都背过shuffle的八股文,但一直不是很理解shuffle的过程,这次我通过源码来解读下shuffle过程,加深对shuffle的理解,但是 ...
- springboot jpa---->总结一下遇到的问题
Native Query throw exception dto code import lombok.Value; @Value public class IdsOnly { Integer id; ...
- 1.HVV介绍
HVV介绍 1.护网职责划分 红队:打点人员.攻击人员.社工人员 蓝队:监控人员.研判人员.溯源人员 2.护网需要具备的技能 红队: 外围打点能力.漏洞挖掘能力.漏洞分析能力.权限提升能力.权限维持能 ...
- 最新版本 Stable Diffusion 开源 AI 绘画工具之汉化篇
目录 汉化预览 下载汉化插件一 下载汉化插件二 下载汉化插件三 开启汉化 汉化预览 在上一篇文章中,我们安装好了 Stable Diffusion 开源 AI 绘画工具 但是整个页面都是英文版的,对于 ...
- 设计模式(三十)----综合应用-自定义Spring框架-自定义Spring IOC-定义bean、注册表相关类
现要对下面的配置文件进行解析,并自定义Spring框架的IOC对涉及到的对象进行管理. <?xml version="1.0" encoding="UTF-8&qu ...