tidy(整洁),Tidyr包是由Hadely Wickham创建,这个包提高了整理原始数据的效率,tidyr包的4个常用的函数及其用途如下:

  • gather()——它把多列放在一起,然后转化为key:value对。这个函数会把宽格式的数据转化为长格式。它是reshape包中melt函数的一个替代
  • spread()——它的功能和gather相反,把key:value对转化成不同的列
  • separate()——它会把一列拆分为多列
  • unite()——它的功能和separate相反,把多列合并为一列

长形表和宽形表,简单的说,长形表就是一个观测对象可由多行组成,而宽形表则是一个观测仅由一行组成。

初始


  • 安装载入包

    install.packages("tidyr")
    library(tidyr)
  • 组织数据
    > name <- c("A","B","C")
    > gender <- c("F","F","M")
    > province <- c("JS","SH","HN")
    > age <- c(18,22,19)
    > df_wide <- data.frame(name = name, gender = gender, province = province, age = age)
    > df_wide
    name gender province age
    1 A F JS 18
    2 B F SH 22
    3 C M HN 19

gather()


  • Usage: gather(data, key, value, ..., na.rm = FALSE, convert = FALSE, factor_key = FALSE)
    1. data:需要被转换的宽形表
    2. key:将原数据框中的所有列赋给一个新变量key
    3. value:将原数据框中的所有值赋给一个新变量value
    4. …:可以指定哪些列聚到一列中
    5. na.rm:是否删除缺失值
  • 默认将所有列存放到key中,如下例

    > df_gather <- gather(data = df_wide, key = variable, value = value)
    Warning message:
    attributes are not identical across measure variables; they will be dropped
    > df_gather
    variable value
    1 name A
    2 name B
    3 name C
    4 gender F
    5 gender F
    6 gender M
    7 province JS
    8 province SH
    9 province HN
    10 age 18
    11 age 22
    12 age 19
  • 指定需要被聚为一列的字段
    > df_wide %>% gather(key=vars,value=value,gender:age)
    name vars value
    1 A gender F
    2 B gender F
    3 C gender M
    4 A province JS
    5 B province SH
    6 C province HN
    7 A age 18
    8 B age 22
    9 C age 19
  • 上面的代码等价于:df_wide %>% gather(key=vars,value=value,-name)

spread()


  • Usage:spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE, sep = NULL)
    1. data:为需要转换的长形表
    2. key:需要将变量值拓展为字段的变量
    3. value:需要分散的值
    4. fill:对于缺失值,可将fill的值赋值给被转型后的缺失值
  • 功能:将一列分离为多列
  • 示例数据
    > name <- c("A","A","A","B","B")
    > product <- c("P1","P2","P3","P1","P4")
    > price <- c(100,130,55,100,78)
    > df_long <- data.frame(name = name, product = product, price = price)
    > df_long
    name product price
    1 A P1 100
    2 A P2 130
    3 A P3 55
    4 B P1 100
    5 B P4 78
  • 列分离
    > df_long_expand <- spread(data = df_long, key = product, value = price)
    > df_long_expand
    name P1 P2 P3 P4
    1 A 100 130 55 NA
    2 B 100 NA NA 78
  • 被转型后的数据框中存在缺失值,如果想给缺失值传递一个指定值的话,就需要fill参数的作用。

    > spread(data = df_long, key = product, value = price,fill = 0)
    name P1 P2 P3 P4
    1 A 100 130 55 0
    2 B 100 0 0 78

separate()


  • Usage:separate(data, col, into, sep = "[^[:alnum:]]+", remove = TRUE,convert = FALSE, extra = "warn", fill = "warn", ...)
    1. data:为数据框
    2. col:需要被拆分的列
    3. into:新建的列名,为字符串向量
    4. sep:被拆分列的分隔符
    5. remove:是否删除被分割的列
  • 示例数据

    > id <- c(1,2)
    > datetime <- c(as.POSIXlt("2015-12-31 13:23:44"), as.POSIXlt("2016-01-28 21:14:12"))
    > df <- data.frame(id = id, datetime = datetime)
    > df
    id datetime
    1 1 2015-12-31 13:23:44
    2 2 2016-01-28 21:14:12
  • 使用separate()函数将日期时间值分割为年、月、日、时、分、秒
    > #拆成日期和时间
    > separate1 <- separate(df,col="datetime",into=c("date","time"),sep=" ",remove=FALSE)
    > separate1
    id datetime date time
    1 1 2015-12-31 13:23:44 2015-12-31 13:23:44
    2 2 2016-01-28 21:14:12 2016-01-28 21:14:12
    >
    > separate2 <- separate(separate1,col="date",into=c("year","month","day"),sep="-",remove=FALSE)
    > separate2
    id datetime date year month day time
    1 1 2015-12-31 13:23:44 2015-12-31 2015 12 31 13:23:44
    2 2 2016-01-28 21:14:12 2016-01-28 2016 01 28 21:14:12
    >
    > separate3 <- separate(separate2,col="time",into=c("hh","mm","ss"),sep=":",remove=TRUE)
    > separate3
    id datetime date year month day hh mm ss
    1 1 2015-12-31 13:23:44 2015-12-31 2015 12 31 13 23 44
    2 2 2016-01-28 21:14:12 2016-01-28 2016 01 28 21 14 12l
  • 连接串写法

    > df %>% separate(.,col="datetime",into=c("date","time"),sep=" ",remove=TRUE) %>% separate(.,col="date",into=c("year","month","day"),sep="-",remove=TRUE)%>% separate(.,col="time",into=c("hh","mm","ss"),sep=":",remove=TRUE)
    id year month day hh mm ss
    1 1 2015 12 31 13 23 44
    2 2 2016 01 28 21 14 12

unite()


  • 与separate()函数相反,它将多列合并为一列
  • Usage: unite(data, col, ..., sep = "_", remove = TRUE)
    1. data:为数据框
    2. col:被组合的新列名称
    3. …:指定哪些列需要被组合
    4. sep:组合列之间的连接符,默认为下划线
    5. remove:是否删除被组合的列
    • 示例

      > df1
      id year month day hh mm ss
      1 1 2015 12 31 13 23 44
      2 2 2016 01 28 21 14 12
      > df1 %>% unite(.,col="date",year,month,day,sep="-")%>% unite(.,col="time",hh,mm,ss,sep=":")%>% unite(.,col="datetime",date,time,sep=" ")
      id datetime
      1 1 2015-12-31 13:23:44
      2 2 2016-01-28 21:14:12

R(8): tidyr的更多相关文章

  1. R语言-tidyr和dplyr

    一.安装和加载 1.安装并加载tidyr和dplyr包 install.packages("tidyr") library(tidyr) install.packages(&quo ...

  2. R语言进行数据预处理wranging

    R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...

  3. R语言进行数据预处理

    R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with Rpackages:tidyr dplyr Ground rules l ...

  4. [原]CentOS7安装Rancher2.1并部署kubernetes (二)---部署kubernetes

    ##################    Rancher v2.1.7  +    Kubernetes 1.13.4  ################ ##################### ...

  5. 利用python进行数据分析2_数据采集与操作

    txt_filename = './files/python_baidu.txt' # 打开文件 file_obj = open(txt_filename, 'r', encoding='utf-8' ...

  6. Django项目:CRM(客户关系管理系统)--81--71PerfectCRM实现CRM项目首页

    {#portal.html#} {## ————————46PerfectCRM实现登陆后页面才能访问————————#} {#{% extends 'king_admin/table_index.h ...

  7. R语言中的数据处理包dplyr、tidyr笔记

    R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...

  8. R语言数据处理包dplyr、tidyr笔记

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...

  9. 【翻译】Awesome R资源大全中文版来了,全球最火的R工具包一网打尽,超过300+工具,还在等什么?

    0.前言 虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过...直到 直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和 ...

随机推荐

  1. web前端切图处理

    技巧: 一. 如何在 Retina 屏幕的设备使用更高分辨率的图片 以 MacBook Pro 为例,它的标准分辨率高达 2560 x 1600,但是如果真的以这个分辨率显示网页,网页的有效区域就小的 ...

  2. learning uboot test command

    uboot commad test test - minimal test like /bin/sh so we can use test command to some judge for exam ...

  3. DevExpress v17.2新版亮点—DevExtreme篇(一)

    用户界面套包DevExpress DevExtreme v17.2终于正式发布,本站将以连载的形式为大家介绍各版本新增内容.本文将介绍了DevExtreme v17.2 的New Color Sche ...

  4. SharePoint 服务应用程序管理-PowerShell

    1. 安装所有可用的服务应用程序 Install-SPService -Provision 2. 显示场中所有可用的服务应用程序 Get-SPServiceApplication 3. 获取指定的服务 ...

  5. UITableViewCell的高度与UILabel自适应

    UITableViewCell内部只放了一个UILabel,Cell的高度随着UILabel内容的高度变化而变化,可重写UITableView的委托方法动态调整高度,还要设置UILabel.numbe ...

  6. Appium 并发测试基于unitest

    前言: 在回归测试阶段,UI测试,兼容测试是测试的必要步骤.UI自动化的本身是比较冗余的测试,但是换个角度思考,UI自动化同时连接多台设备,那么在回归测试时,在同一个脚本下产生的测试结果是非常有价值的 ...

  7. 玩转TypeScript(5)--环境声明

    环境声明为TypeScript引入了一个作用域,但是对于产生的javaScript程序不会有任何影响.程序员可以使用环境声明来告之TypeScript,一些其他的组将将提供变量的声明.比如,默认情况下 ...

  8. Java面试通关要点汇总整理【终极版】

    简历篇 请自我介绍 请介绍项目 基础篇 基本功 面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别 重载和重写的区别 抽象类和接口有什么区 ...

  9. JAVA取得IP

    通常这样取一个IP:request.getRemoteAddr(),但有时候取出来的是不对的,特别是在应用前加了Nginx之类的软件,下面的方法可以取出访问的IP地址 public static St ...

  10. Oracle text组件安装

    1.目标:在数据库中,安装Oracle Text组件: 970473.1 MOS文档ID     2.组件相关视图:查询验证 #查询DB中的组件: #视图:USER_REGISTRY (注册) COM ...