R语言学习 - 热图绘制heatmap】的更多相关文章

生成测试数据 绘图首先需要数据.通过生成一堆的向量,转换为矩阵,得到想要的数据. data <- c(1:6, 6:1, 6:1, 1:6, (6:1)/10, (1:6)/10, (1:6)/10, (6:1)/10, 1:6, 6:1, 6:1, 1:6, 6:1, 1:6, 1:6, 6:1) [1] 1.0 2.0 3.0 4.0 5.0 6.0 6.0 5.0 4.0 3.0 2.0 1.0 6.0 5.0[15] 4.0 3.0 2.0 1.0 1.0 2.0 3.0 4.0 5.0…
绘制热图除了使用ggplot2,还可以有其它的包或函数,比如pheatmap::pheatmap (pheatmap包中的pheatmap函数).gplots::heatmap.2等.   相比于ggplot2作heatmap, pheatmap会更为简单一些,一个函数设置不同的参数,可以完成行列聚类.行列注释.Z-score计算.颜色自定义等. data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5 a;6.6;20.9;100.1;600.0;5.2 b;…
线图是反映趋势变化的一种方式,其输入数据一般也是一个矩阵. 单线图 假设有这么一个矩阵,第一列为转录起始位点及其上下游5 kb的区域,第二列为H3K27ac修饰在这些区域的丰度,想绘制一张线图展示. profile="Pos;H3K27ac -5000;8.7 -4000;8.4 -3000;8.3 -2000;7.2 -1000;3.6 0;3.6 1000;7.1 2000;8.2 3000;8.4 4000;8.5 5000;8.5" 读入数据 profile_text <…
实际应用中,异常值的出现会毁掉一张热图.这通常不是我们想要的.为了更好的可视化效果,需要对数据做些预处理,主要有对数转换,Z-score转换,抹去异常值,非线性颜色等方式. 对数转换 为了方便描述,假设下面的数据是基因表达数据,4个基因 (a, b, c, d)和5个样品 (Grp_1, Grp_2, Grp_3, Grp_4),矩阵中的值代表基因表达FPKM值. data <- c(rnorm(5,mean=5), rnorm(5,mean=20), rnorm(5, mean=100), c…
首先把测试数据存储到文件中方便调用.数据矩阵存储在line_data.xls和line_data_melt.xls文件中 (直接拷贝到文件中也可以,这里这么操作只是为了随文章提供个测试文件,方便使用.如果你手上有自己的数据,也可以拿来用). profile = "Pos;H3K27ac;CTCF;Enhancer;H3K4me3;polII -5000;8.7;10.7;11.7;10;8.3 -4000;8.4;10.8;11.8;9.8;7.8 -3000;8.3;10.5;12.2;9.4…
在R中画地图先从简单的maps包开始. library("maps") 在这个maps包中有一些数据集,用命令data(package=”maps”),可以看到如下数据: canada.cities          Database of Canadian cities county.fips            FIPS county codes for US County Map countyMapEnv           United States County Map f…
变量用于临时存储数据,而函数用于操作数据,实现代码的重复使用.在R中,函数只是另一种数据类型的变量,可以被分配,操作,甚至把函数作为参数传递给其他函数.分支控制和循环控制,和通用编程语言的风格很相似,但是,不要因为R具有这些元素,就把R作为通用编程语言来看待,R的最小变量是向量,是一种面向数组(Array-Oriented)的语言.在编程时,尽量用array的方式思考,避免使用循环(for,while,repeat)控制,而使用apply函数家族实现计算的迭代,这是R语言的特色,把特定的函数应用…
这里利用Nathan Yau所著的<鲜活的数据:数据可视化指南>一书中的数据,学习画图. 数据地址:http://datasets.flowingdata.com/ppg2008.csv 首先查看一下数据文件的前5行: Name G MIN PTS FGM FGA FGP FTM FTA FTP ... \ 0 Dwyane Wade 79 38.6 30.2 10.8 22.0 0.491 7.5 9.8 0.765 ... 1 LeBron James 81 37.7 28.4 9.7 1…
箱线图 箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图.在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具.就这样都可以发两篇Nature method,没天理,但也说明了箱线图的重要意义.   下面这张图展示了Bar plot.Box plot.Volin plot和Bean plot对数据分布的反应.从Bar plot上只能看到数据标准差或标准误不同:Box plot可以看到数据分布的集中性不同:Violin…
1.数据分析金字塔 2.[文件]-[改变工作目录] 3.[程序包]-[设定CRAN镜像] [程序包]-[安装程序包] 4.向量 c() 例:x=c(2,5,8,3,5,9) 例:x=c(1:100) 表示把1 - 100的所有数字都给x这个变量 5.查看x的类型:>mode(x) 6.查看x的长度:>length(x) 7.将两个向量组成一个矩阵: >rbind(x1, x2)  注:r是row的意思,即行,按行组成矩阵. >cbind(x1, x2)  注c是column的意思,…
对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是——看书.目前,市面上介绍R语言的书籍很多,中文英文都有.那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问.有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路. 本文分为6个部分,分别介绍初级入门,高级入门,绘图与可…
本系列是一个新的系列,在此系列中,我将和大家共同学习R语言.由于我对R语言的了解也甚少,所以本系列更多以一个学习者的视角来完成. 参考教材:<R语言实战>第二版(Robert I.Kabacoff),书中所提到的John Cook的优秀博文,关于代码规范的<来自Google的R语言编码风格指南>. 目录 Part 1:图形参数 Unit 1:点型和线型 Unit 2:颜色 Unit 3:文本 Unit 4:图形尺寸与边界尺寸 Part 2:添加要素 Unit 1:添加标题和坐标轴标…
今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") > head(mtcars[vars]) mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 110 3.215 Hornet Sportab…
快速实现是搜索帮助文档的首要目的,所以此处涉及实战的文章一概略去传统帮助文档的理论部分,直接上代码加注释! 本文将介绍R语言下利用ggplot2包制作heatmap的代码 -------------------------我是分割线------------------------------- 测试数据: 数据中的空白行.列用以分割heatmap,区别不同的数据处理,如不需要删除即可. 1.制作连续型 #引入包 library(ggplot2) library(reshape) library(…
笔者寄语:感谢CDA DSC训练营周末上完课,常老师.曾柯老师加了小课,讲了echart与R结合的函数包recharts的一些基本用法.通过对比谢益辉老师GitHub的说明文档,曾柯老师极大地简化了一些代码,可读性很强. 关于此包起源,百度联姻d3.js=echarts,echarts+R=recharts包(Yang Zhou和Taiyun Wei),谢益辉老师修改可以传递js参数,实现更多功能, 但是呢,谢益辉老师的改良版包还没发出来,于是该神就做了一个函数,先给大家试用(点赞谢益辉老师).…
本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等. 1.初级入门 <An Introduction to R>,这是官方的入门小册子.其有中文版,由丁国徽翻译,译名为<R导论>.<R4Beginners>,这本小册子有中文版应该叫<R入门>.除此之外,还可以去读刘思喆的<153分钟学会R>. 这本书收集了R初学者提问频率最高的153个问题.为什么叫153分钟呢?因为最初作者写了153个问题,阅读一个问题…
脸谱图和星图类似,但它却比星图可以表示更多的数据维度.用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状或大小来表征.脸谱图在平面上能够形象的表示多维度数据并给人以直观的印象,可帮助使用者形象记忆分析结果,提高判断能力,加快分析速度.目前已应用于多地域经济战略指标数据分析,空间数据可视化等领域. 脸谱图一般采用15个指标,各指标代表的面部特征为: 1 脸的高度 2脸的宽度3 脸型4嘴巴厚度  5, 嘴巴宽度6 微笑7 眼睛的高度8 眼睛宽度 9 头发长度 10 头发宽度11头发风格12…
利用R语言中的quantmod包和fBasics对股票数据的获取和简要的分析, 通过获取的数据进行典型图像绘制,使用JB正态性检验来检验是否服从于正态分布. 前提概要:quantmod 包默认是访问 yahoo finance 的数据,其中包括上证和深证的股票数据,还有港股数据.上证代码是 ss,深证代码是 sz,港股代码是 hk比如茅台:6000519.ss,万科 000002.sz,长江实业 0001.hk在R的控制台里使用如下命令:> library(quantmod)> setSymb…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 前言: 应用背景兼吐槽 继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯. 这次的主题是论R与excel的结合,又称 论如何正确把EXCEL文件喂给R处理 分为: 1. xlsx包安装及注意事项 2.用vba实现xlsx批量转化csv 以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel做数据分析的人……编程大牛请轻拍 之所以要研究这个,是因为最近…
在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了<机器学习-实用案例解析>这本书. 这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例.分12章.作者备注以及代码部分都讲得比较深.不过或许因为出书较早,在数据处理方面,他使用更多的是plyr包,而我用下来,dplyr包效果更好.所以许多涉及数据处理的代码,其实可以用更简洁的方法重写.但是思路却是实打实的精华. 我之前在某长途动车上啃完了前三章,两个案例.但越往后读,越觉得后面…
孩子上初中时拿到过全年级一次考试所有科目的考试成绩表,正好可以用于R语言的统计分析学习.为了不泄漏孩子的姓名,就用学号代替了,感兴趣可以下载测试数据进行练习. num class chn math eng phy chem politics bio history geo pe0158 3 99 120 114 70 49.5 50 49 48.5 49.5 600442 7 107 120 118.5 68.6 43 49 48.5 48.5 49 560249 4 98 120 116 70…
R语言中的因子就是factor,用来表示分类变量(categorical variables),这类变量不能用来计算而只能用来分类或者计数. 可以排序的因子称为有序因子(ordered factor). factor() 用来生成因子数据对象,语法是: factor(data, levels, labels, ...) 其中data是数据,levels是因子的级别向量,labels是因子的标签向量. 以我的10个月的fitbit数据为例,创建一个因子 fitbit <- read.csv("…
买了三本R语言的书,同时使用来学习R语言,粗略翻下来感觉第一本最好: <R语言编程艺术>The Art of R Programming <R语言初学者使用>A Beginner’s Guide to R <R语言实战>R in Action 一句话简介R语言:R是一种用于数据处理和统计分析的脚本语言,它受到由AT&T实验室开发的统计语言S(Statistics)的启发,且基本上兼容于S语言. 下载并安装R 从google中搜索R,第一个搜索结果就是R语言的网站…
  R是一个惊艳的图形构建平台,这也是R语言的强大之处.本文将分享R语言简单的绘图命令.   本文所使用的数据或者来自R语言自带的数据(mtcars)或者自行创建.   首先,让我们来看一个简单例子: dose <- c(20, 30, 40, 45, 60) drugA <- c(16,20,27,40,60) plot(dose, drugA) 绘制的图形如下:   我们有必要对上述代码做些说明:首句和第二条语句创建两个向量,第三条语句打开一个图形窗口并生成一幅散点图.   这也许是个极为…
假设我们现在有CC,CG,GG三种基因型及三种基因型对应的表型,我们现在想要画出不同的基因型对应表型的棒状图及误差棒.整个命令最重要的就是最后一句了,用arrows函数画误差棒.用到的R语言如下: data<-read.csv("E:/model/data.csv",sep=" ",header=T)#导入数据data mean_CC<-mean(data[,1])#计算CC基因型对应的表型的平均值 mean_GG<-mean(data[,2])…
R语言代码 决策树的构建 rm(list=ls()) setwd("C:/Users/Administrator/Desktop/R语言与数据挖掘作业/实验3-决策树分类") #save print sink("tree1.txt") inputfile=read.csv(file="./bank-data.csv",header=TRUE) #age for(i in 1:length(inputfile$age)) inputfile$age…
R语言分高水平作图函数和低水平作图函数 高水平作图函数:可以独立绘图,例如plot() 低水平作图函数:必须先运行高水平作图函数绘图,然后再加画在已有的图上面 第一种方法:plot()函数 > sales<-read.csv("dailysales.csv", header=TRUE) #读取文件和列名 > plot(sales$units~as.Date(sales$date,"%d/%m/%y"), #修改日期格式 + type="l…
R是向量化的语言,最突出的特点是对向量的运算不需要显式编写循环语句,它会自动地应用于向量的每一个元素.对象是R中存储数据的数据结构,存储在内存中,通过名称或符号访问.对象的名称由大小写字母.数字0-9.点号和下划线组成,名称是区分大小写的,并且不能以数字开头,特殊的对象名称可以通过界定符 `` 来转为合法的对象名称,注意,点号( . ) 被视为没有特殊含义的单字符. R语言非常灵活,例如: R语言区分大小写,不管是变量名和函数名,都是大小写敏感的. 直接给变量赋值,R中不能显式声明变量和类型:…
K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.即每个样本都可以用它最接近的k个邻居来代表.KNN算法适合分类,也适合回归.KNN算法广泛应用在推荐系统.语义搜索.异常检测. KNN算法分类原理图: 图中绿色的圆点是归属在红色三角还是蓝色方块一类?如果K=5(离绿色圆点最近的5个邻居,虚线圈内),则有3个蓝色方块是绿色圆点的“最近邻居”,比例为3/5,因此绿色圆点应当划归到蓝色方块一类:如果K=3(离…
R语言提供了非常强大的图形绘制功能.下面来看一个例子: > dose <- c(20, 30, 40, 45, 60)> drugA <- c(16, 20, 27, 40, 60)> drugB <- c(15, 18, 25, 31, 40) > plot(dose, drugA, type="b") > plot(dose, drugB, type="b") 该例中,我们引入了R语言中第一个绘图函数plot.pl…