基于R数据分析之常用Package讲解系列--1. data.table
利用data.table包变形数据
一. 基础概念
data.table 这种数据结构相较于R中本源的data.frame 在数据处理上有运算速度更快,内存运用更高效,可认为它是data.frame 的升级版。同时,data.table 包具备更多更强的功能,它基本工作形式是,
dt [i, j, by]
dt 为data.table 结构
i 为行,j 为列,by 为分组
二. 创建 data.table
和data.frame一样,如下:
data.table(a=c(1, 2), b=c("a", "b"))
a b
1: 1 a
2: 2 b
转化data frame 或list 为 data.table,使用 setDT(df) (仅限于data.frame 和 list),as.data.table(df)(使用范围更广)
三. 取子集
3.1 行向(rows):
3.1.1. 以row numbers,dt [1:2, ]
3.1.2. 以条件(本质上是逻辑值 TRUE OR FALSE), dt [a>5, ]
有如下逻辑操作符:
< <= is.na() %in% | %like%
> >= !is.na() ! & %between%
3.2 列向(columns):
3.2.1. 抽提(同行,与data.frame一致)
dt [, c(2)]
dt [, .(b, c)]
3.2.2. 归纳
dt [, .(x=sum(a))] -- 创建一个新data.table 用a列的和
其他函数如:mean,median, min, max等等
3.2.3. 计算列 (在:= 接上计算表达式)
dt [, c:=1+2]
dt[a == 1, c := 1 + 2]
dt[,`:=`(c = 1 , d = 2)] -- 计算分开计算多列
a b c d
1: 1 a 1 2
2: 2 b 1 2
3.2.4. 删除某列
dt[,c := NULL]
3.2.5. 转换某列
dt[,b := as.integer(b)] – 如as.integer(), as.numeric(),as.character(), as.Date()等函数
四. 分组(by)
dt[, j, by = .(a)] -- 由a列内容进行分组
dt[, j, keyby= .(a)] -- 由a列内容进行分组,同时分类排序
常规分组操作:
dt[, .(c = sum(b)), by = a] – 以a列分组来计算b列和
dt[,c := sum(b), by = a] – 创建新列c来储存按a列分组来计算b列和的结果
dt[, .SD[1], by = a] – 抽提a列分组的第一行
dt[, .SD[.N], by = a] – 抽提a列分组的最后一行
五. 链式操作
dt[…][…]
六. data.table的功能函数(重点)
6.1 重排
setorder(dt, a, -b) -- a列升序,b列降序(-)
注意:data.table中以“set”为前缀的功能函数以及操作符“:=”行使功能时,在内存中不创建副本,因此 setDT(df) 比 df <- as.data.table(df)更高效。
6.2 去重
unique(dt, by = c("a", "b")) -- 依次去重a, b列
uniqueN(dt, by = c("a", "b")) -- 计数去重后的行数
6.3 修改列名
setnames(dt, c("a","b"), c("x", "y"))
6.4 设置键(SET KEYS)
setkey(dt, a, b) -- 设置键是为快速重复查找特殊列用dt[.(value), ],或者是为了合并列用dt_a[dt_b]
七. 合并 data.tables
7.1 按列合并
dt_a[dt_b,on = .(b = y)] -- 用于两个data.table有相同列的合并,如dt_a的b列与dt_b的y列相同
dt_a[dt_b,on = .(b = y, c > z)] -- 上式的扩展,不仅用于相同列,更用于带有条件的合并,如不仅满足dt_a的b列与dt_b的y列相同,而且要满足dt_a的c列大于dt_b的z列
7.2 滚动合并
dt_a[dt_b, on = .(id = id, date = date), roll = TRUE] -- 不仅按id,data进行匹配,同时保持向最近一行进行匹配
7.3 全合并
rbind(dt_a, dt_b) -- 行合并
cbind(dt_a, dt_b) -- 列合并
八. 重构data.table(与reshape2包相似)
长数据 变 宽数据
dcast(dt, id ~ y, value.var= c("a", "b"))
宽数据 变 长数据
melt(dt,
id.vars= c("id"),
measure.vars= patterns("^a", "^b"),
variable.name = "y",
value.name = c("a", "b"))
九. 应用Apply 函数
dt[, lapply(.SD, mean), .SDcols = c("a", "b")] ---
e.g. mean(), as.character(),
which.max()。
cols <-c("a")
dt[, paste0(cols, "_m") := lapply(.SD, mean),
.SDcols = cols] --- 重命名运算后的列
十. 对连续行计数
dt[, c := 1:.N, by = b] -- 分组后,计数行数,即计算每组有多少行
dt[, c := shift(a, 1), by = b]
十一. 读取和写入文件
fread("file.csv")
fread("file.csv", select = c("a", "b")) 这个函数很强大,除了读文件以外,可以直接读网址
fwrite(dt, "file.csv") 写入文件
基于R数据分析之常用Package讲解系列--1. data.table的更多相关文章
- R语言学习笔记(十七):data.table包中melt与dcast函数的使用
melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 > DT = fread("melt_default.csv") > DT family_ ...
- Create and format Word documents using R software and Reporters package
http://www.sthda.com/english/wiki/create-and-format-word-documents-using-r-software-and-reporters-pa ...
- 基于java平台的常用资源整理
这里整理了基于java平台的常用资源 翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
- RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,给用户和开发者最佳的.Net框架 ...
- 这里整理了基于java平台的常用资源
这里整理了基于java平台的常用资源 翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
- R语言中常用包(二)
数据导入 以下R包主要用于数据导入和保存数据 feather:一种快速,轻量级的文件格式.在R和python上都可使用readr:实现表格数据的快速导入.中文介绍可参考这里readxl:读取Micro ...
- R语言数据分析利器data.table包—数据框结构处理精讲
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...
- Linux学习之路--常用命令讲解
Linux常用命令讲解 1.命令格式:命令 [-选项] [参数] 超级用户的提示符是# 一般用户的提示符是$ 如:ls -la /usr说明: 大部分命令遵从该格式多个选项时,可以一起写 eg:ls ...
- R数据分析:潜类别轨迹模型LCTM的做法,实例解析
最近看了好多潜类别轨迹latent class trajectory models的文章,发现这个方法和我之前常用的横断面数据的潜类别和潜剖面分析完全不是一个东西,做纵向轨迹的正宗流派还是这个方法,当 ...
随机推荐
- [JZOJ5459]【NOIP2017提高A组冲刺11.7】密室
Description 小X 正困在一个密室里,他希望尽快逃出密室.密室中有N 个房间,初始时,小X 在1 号房间,而出口在N 号房间.密室的每一个房间中可能有着一些钥匙和一些传送门,一个传送门会单向 ...
- 路由器静态IP的配置及其备份静态路由缺省路由
静态路由时管理员手动配置并维护的路由.静态路由配置简单,被广泛应用于网络中.静态路由还可以实现负载均衡和路由备份.学习掌握好静态路由的配置是很重要的. 如下图, 首先进入路由器的命令视图,(sys) ...
- composer依赖管理与laravel框架安装
步骤有点多,生怕哪一天忘记,记录下来会好点 laravel安装有两种途径:1.直接在一些国内第三方网站,如:https://www.golaravel.com/download/ 下载压缩包来解压即可 ...
- mysql 数据分析如何实现日报、周报、月报和年报?
以天为统计周期,是常见需求.周报.月报更是常见需求.长周期项目,甚至有年报需求.我已经掌握了mysql中按天统计,如何实现按年.按月.按周统计呢? 1.已掌握的技能:按天统计 实现以天为统计周期很简单 ...
- 基于canvas实现钟表
原理说明 1.通过arc方法实现钟表外环: 2.通过line实现钟表时针,分针,秒针和刻度标志的绘制,基于save和restore方法旋转画布绘制不同角度的指针: 3.通过font方法实现在画布上绘制 ...
- C# 关于config文件中的usersettings
在调整app.config的时候遇到了一点问题,把这个问题记录下来,可能我只是没有找到解决方案,问题本身也许并不复杂. 在VS中通过Properties中的Settings.settings来设置作用 ...
- SpringBoot 开发案例之参数传递的正确姿势
前言 开发这么多年,肯定还有不少小伙伴搞不清各种类型的参数是如何传递的,很多同学都是拿来即用,复制粘贴一把撸,遇到问题还是一脸懵逼. 姿势 学习参数传递的正确姿势,先说怎么做,再说为什么,本质上还是复 ...
- Leetcode(1)两数之和
Leetcode(1)两数之和 [题目表述]: 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标.你可以假设每种输入只会对应一 ...
- CCBPM工作流系统中如何在特定的一个步骤,调用起另外一条流程
关键词: 工作流快速开发平台 工作流设计 业务流程管理 asp.net 开源工作流bpm工作流系统 java工作流主流框架 自定义工作流引擎 需求描述: 1, 操作员在操作最后一个节点时, ...
- 手写一个简单的ElasticSearch SQL转换器(一)
一.前言 之前有个需求,是使ElasticSearch支持使用SQL进行简单查询,较新版本的ES已经支持该特性(不过貌似还是实验性质的?) ,而且git上也有elasticsearch-sql 插件, ...