矩阵图非常有用,人们经常用它来查看多个变量之间的联系. 下面用著名的鸢尾花数据来画一个矩阵图.从sklearn导入鸢尾花数据,然后将其转换成pandas的DataFrame类型,最后用seaborn画图.(seaborn包里也有这个数据,也可以直接从seaborn包导入此数据) 矩阵图: sns.pairplot(data,hue=...)   ---   hue为data里的数据,用其来显示不同颜色 由于data需要的格式为每列是变量(在这里是鸢尾花的四个特征),每行则是各变量的观测数据,因此…
箱线图通过数据的四分位数来展示数据的分布情况.例如:数据的中心位置,数据间的离散程度,是否有异常值等. 把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字. I-------------I o I-------------I o I-------------I o I-------------I Q1                Q2                 Q3 (lower quartile) …
直方图用于展示数据的分布情况,x轴是一个连续变量,y轴是该变量的频次. 下面利用Nathan Yau所著的<鲜活的数据:数据可视化指南>一书中的数据,学习画图. 数据地址:http://datasets.flowingdata.com/crimeRatesByState2005.csv 以下是这个数据文件的前5行: state murder forcible_rape robbery aggravated_assault \ 0 United States 5.6 31.7 140.7 291…
一:导入R包及需要画热图的数据 library(pheatmap) data<- read.table("F:/R练习/R测试数据/heatmapdata.txt",head = T,row.names=1,sep="\t") 二:画图 1)pheatmap(data)#默认参数 2)pheatmap(data,clustering_distance_rows = "correlation")#聚类线长度优化 3)pheatmap(data…
http://jingyan.baidu.com/article/64d05a0240ec75de55f73bd8.html 利用Excel 2010及以上版本的"条件格式"--"色阶"功能可以制作热图(heatmap).可选用Adobe Illustrator软件加工.美化之. 这里以Excel 2010为例介绍具体步骤. 工具/原料   Excel 2010或以上版本 Adobe Illustrator 方法/步骤     在Excel中选中要做热图的全部数据…
这里利用Nathan Yau所著的<鲜活的数据:数据可视化指南>一书中的数据,学习画图. 数据地址:http://datasets.flowingdata.com/ppg2008.csv 首先查看一下数据文件的前5行: Name G MIN PTS FGM FGA FGP FTM FTA FTP ... \ 0 Dwyane Wade 79 38.6 30.2 10.8 22.0 0.491 7.5 9.8 0.765 ... 1 LeBron James 81 37.7 28.4 9.7 1…
这里利用Jake Vanderplas所著的<Python数据科学手册>一书中的数据,学习画图. 数据地址:https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv 准备工作:先导入matplotlib和pandas,用pandas读取csv文件,然后创建一个图像和一个坐标轴 import pandas as pd from matplotlib import pyplot as plt birth=p…
雷达图常用于对多项指标的全面分析.例如:HR想要比较两个应聘者的综合素质,用雷达图分别画出来,就可以进行直观的比较. 用Matplotlib画雷达图需要使用极坐标体系,可点击此链接,查看对极坐标体系的介绍:https://www.cnblogs.com/kallan/p/6738577.html. 下面,我们从五个方面(编程能力,沟通技能,专业知识,团队协作,工具掌握)来对路人甲和路人乙进行比较. 代码如下: import numpy as np from matplotlib import p…
误差线用于显示数据的不确定程度,误差一般使用标准差(Standard Deviation)或标准误差(Standard Error). 标准差(SD):是方差的算术平方根.如果是总体标准差,那么用σ表示,如果是样本标准差,那么用s表示.标准差反映数据集的离散程度,标准差越小,就说明数据越集中在其平均值附近.公式:(总体),(样本)     标准误差(SE):是样本分布的标准差.如果是样本平均数分布的标准差,那么就称为SEM(standard error of the mean),就是说每次从总体…
相信很多人都看到过上面这种方块图,有点像"华夫饼图"的升级版,也有点像"热图"的离散版.我在一些临床多组学的文章里面看到过好几次这种图,用它来展示病人的临床信息非常合适,我自己也用R包或者AI画过类似的图.今天给大家演示一下,如何用ggplot2里面的geom_tile函数画这种图. 先构造一个练习数据集,假设有15个病人,每个病人有年龄.性别.症状.是否有RNA-seq和WES测序等信息. library(ggplot2) library(tidyverse) l…