介绍如何使用reshape2包将宽型数据转换成长型数据,将长型数据转换成宽型数据。Reshape2是Hadley Wickham开发和维护的。

1.长数据VS宽数据

宽型数据:每列代表一个不同的变量。例如datasets包中的mtcars数据集就是宽型数据:

mt=mtcars
View(mt)

长型数据:一列包含了所有可能的变量,另一列是对应的取值。长数据有一列数据是变量的类型,有一列是变量的值。长数据不一定只有两列。ggplot2需要长类型的数据,plyr也需要长类型的数据,大多数的模型(比如lm(), glm()以及gam())也需要长数据。上面的数据可以用长型数据来表示:

# Long format
  variable value
      mpg  21.0
      mpg  21.0
      mpg  22.8
      mpg  21.4
      mpg  18.7
      mpg  18.1
...
    variable value
     carb
     carb
     carb
     carb
     carb
     carb     

  长型数据可以包含两个以上的列,尤其是提供ID变量的时候。

  在实际应用中,宽型数据更具可读性,长型数据则更适合做分析。因此,知道如何在它们之间进行转换非常有用。

reshape2包中两个主要的函数是:

  • melt——将宽型数据融合成长型数据
  • cast——将长型数据转成宽型数据

2.melt---将宽型数据融合成长型数据

定义及参数说明

melt(data, ..., na.rm = FALSE, value.name = "value")

melt(data,id.vars,measure.vars,variable.name="variable",..,na.rm=FALSE,value.name="value")

data 需要转换的数据集
na.rm Should NA values be removed from the data set? This will convert explicit missings to implicit missings
value.name 用于存储值的变量
id.vars:每个变量在结果中占一列
measure.vars:被当成观测值的列变量,列变量名称和值分别组成"variable"和"value"两列

  接下来,在datasets包中的mtcars数据集上进行操作。它一开始是上面展示的宽型数据。我们要把它融合成下面的长型数据:

#给mtcars增加一列car,其值为mtcars的行名

mtcars$car <- rownames(mtcars)

#将mtcars转换成长型数据

mtcarsMelt <- melt(mtcars)

head(mtcarsMelt)

  注:译者在R里得到的是melt自动选取car作为ID变量,原文是选取car和cyl作为ID变量。要得到相同结果只需在参数id.vars中指定相应变量即可。

我们可以通过参数variable.name和value.name分别对variable和value列重命名。例如,我们想对所有的汽车根据它的汽缸数和齿轮数做分类。可以像下面这样:

mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear'), variable.name = 'carVariable', value.name = 'carValue')

head(mtcarsMelt)

通常,使用变量组合来唯一的识别每个数据点个好办法,但是这里有多个点的cyl和gear组合值却是相同的,这不是好的办法。当你需要把数据转回宽型数据时会有点问题了(下面会看到)。

melt使用举例---ggplot2绘图:

aq <- melt(airquality,
           var.ids=c("Ozone", "Month", "Day"),
           measure.vars=c(:),
           variable.name="V.type",
           value.name="value")
head(aq)
View(aq)
library(ggplot2)
aq$Month <- factor(aq$Month)
p <- ggplot(data=aq, aes(x=Ozone, y=value, color=Month)) + theme_bw()
p <- p + geom_point(shape=, size=) + geom_smooth(aes(group=), fill="gray80") + facet_wrap(~V.type, scales="free_y")
p

3.cast---将长型数据转成宽型数据

dcast(data, formula, ..., value.var = guess_value(data))

formula: 以~为分割,左边的变量在整形后依然作为变量,右边的变量的取值拆为新的变量名,e.g. diet + chick ~ time

value.var: 新的变量名下的取值,需要加双引号

  cast函数的作用是将长型数据转成宽型数据。cast函数的两种主要类型是:

  • dcast——返回的结果是一个数据框
  • acast——返回的结果可以是向量、矩阵或者数组

  由于数据框对象是最常见的,我将演示如何使用dcast。下面展示的是长型数据转回成宽型数据:

mtcarsMelt <- melt(mtcars)
mtcarsCast <- dcast(mtcarsMelt, car ~ variable)
head(mtcarsCast)

  dcast函数通过一个式子来把数据转成宽型数据。在本篇译文中,由于我在R上自动的到ID变量只有car,所以我给出的式子是car ~ variable。这里car是ID变量,variable变量列的名称。要想跟原文一样只需在melt时指定id.vars参数即可。

如果我们指定cyl和gear作为ID变量融合数据后,再转回宽型变量时,会得到如下所示的结果:

mtcars$car <- rownames(mtcars)
mtcarsMelt <- melt(mtcars)
mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable)
head(mtcarsCast) 

  会得到警告信息:Aggregation function missing: defaulting to length。数据集显示的是每个cyl和gear组合的总的观测数。这是因为dcast函数不能唯一标识每个数据点。然而,它还有其他用处。例如,我们通过如下所示的fun.aggregate(如何聚合)参数可以得到每个cyl和gear组合值所对应的所有变量的平均值。

mtcars$car <- NULL
mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear'))
mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable, fun.aggregate = mean)
head(mtcarsCast)

View(mtcarsMelt)

  这里,删除了car列。这是因为不希望在mtcarsMelt的value列里存在非数值型数据,否则会得到错误。可以看到cyl的取值levels有4,6,8,而gear的取值有3,4,5,于是便可以取cyl与gear的组合后的项求其平均值。需要告诉dcast如何聚合(aggregate)这些数据,比如取均值(mean),计算中位数(median),或者简单的求和(sum)。比如,在这里,我们简单的计算下均值,同时通过na.rm = TRUE删除NA值。

melt

  使用场景:当数据框的几个列可以被归纳为某一个大类别时:比如列1为高速路,列2为快速路,列3为主要道路,这三列可以归结为一列道路等级。

案例:将表2变为表1

  table1 <- melt(table2, id.vars=c("车辆"), measure.vars=c("高速覆盖里程", "快速路覆盖里程", "主要道路覆盖里程"), variable.name="道路等级", value.name="日均覆盖里程")

dcast

  使用场景:数据框的某一个列可以拆分为多个小类别时:比如道路等级可以拆分为三列:高速路,快速路,主要道路;函数还需要指定拆出来的三列的值来自哪里。

案例:将表1变为表2

  table2 <- dcast(table1, 车辆~道路等级,value.var="日均覆盖里程")

同样可以看到下面的例子:

本文链接:http://www.cnblogs.com/homewch/p/5778409.html

reshape2包--R高效数据处理包的更多相关文章

  1. R(6): 数据处理包dplyr

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法 ...

  2. R语言数据处理包dplyr、tidyr笔记

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...

  3. R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 由于业务中接触的数据量很大,于是不得不转战开始 ...

  4. R语言中的数据处理包dplyr、tidyr笔记

    R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...

  5. ggplot2包--R可视化

    1.ggplot2发展历程 ggplot2是Hadley在爱荷华州立大学博士期间的作品,也是他博士论文的主题之一,实际上ggplot2还有个前身ggplot,但后来废弃了,某种程度上这也是Hadley ...

  6. 数据处理包plyr和dplyr包的整理

    以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). ...

  7. R语言扩展包dplyr笔记

    引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...

  8. R语言常用包分类总结

    常用包: ——数据处理:lubridata ,plyr ,reshape2,stringr,formatR,mcmc: ——机器学习:nnet,rpart,tree,party,lars,boost, ...

  9. R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean (三,相似距离)

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...

随机推荐

  1. 数独挑战(codevs 2924)

    2924 数独挑战  时间限制: 1 s  空间限制: 1000 KB  题目等级 : 钻石 Diamond 题解  查看运行结果     题目描述 Description “芬兰数学家因卡拉,花费3 ...

  2. ASP.NET SignalR 与 LayIM2.0 配合轻松实现Web聊天室(一) 之 基层数据搭建,让数据活起来(数据获取)

    大家好,本篇是接上一篇 ASP.NET SignalR 与 LayIM2.0 配合轻松实现Web聊天室(零) 前言  ASP.NET SignalR WebIM系列第二篇.本篇会带领大家将 LayIM ...

  3. 使用xib需要记得的小问题

    1. 图片 加载 图片上的label 不显示, 最后是因为xib 里位置动了 图片跑到最上层盖住了labe 2. 加载xib 有时候会崩 或加载不出来  先查看xib 是否有多余控件 3. 查看关联 ...

  4. iOS开发人员不容错过的10大工具

    内容简介 1.iOS简介 2.iOS开发十大实用工具之开发环境 3.iOS开发十大实用工具之图标设计 4.iOS开发十大实用工具之原型设计 5.iOS开发十大实用工具之演示工具 6.iOS开发十大实用 ...

  5. Java集合源码学习(二)ArrayList分析

    >>关于ArrayList ArrayList直接继承AbstractList,实现了List. RandomAccess.Cloneable.Serializable接口,为什么叫&qu ...

  6. Delphi中的异常处理

    转载:http://www.cnblogs.com/doit8791/archive/2012/05/08/2489471.html 以前写Delphi程序一直不注意异常处理,对其异常处理的机制总是一 ...

  7. 【JAVA 文件概述】

    一.概述 使用此类的原因: 该类将文件或者文件夹封装成对象.方便对文件与文件夹的属性信息进行操作.File对象作为参数传递给流的构造函数.要求:使用File类的常用方法. windows平台下,目录分 ...

  8. poj 1182:食物链(种类并查集,食物链问题)

    食物链 Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 44168   Accepted: 12878 Description ...

  9. 湘潭邀请赛 Hamiltonian Path

    湘潭邀请赛的C题,哈密顿路径,边为有向且给定的所有边起点小于终点,怎么感觉是脑筋急转弯? 以后一定要牢记思维活跃一点,把复杂的事情尽量简单化而不是简单的事情复杂化. #include<cstdi ...

  10. android 入门-android Studio 配置

    重要:sdk 最好先有一个版本 19版本.build-tools 19.1.0 extras 19.0和platforms android-19 1.下载android sdk 和jdk 并配置环境变 ...