基于R数据分析之常用Package讲解系列--1. data.table

利用data.table包变形数据

一. 基础概念

data.table 这种数据结构相较于R中本源的data.frame 在数据处理上有运算速度更快，内存运用更高效，可认为它是data.frame 的升级版。同时，data.table 包具备更多更强的功能，它基本工作形式是，

dt [i, j, by]

dt 为data.table 结构

i 为行，j 为列，by 为分组

二. 创建 data.table

和data.frame一样，如下：

data.table(a=c(1, 2), b=c("a", "b"))

a b
1: 1 a
2: 2 b

转化data frame 或list 为 data.table，使用 setDT(df) （仅限于data.frame 和 list），as.data.table(df)(使用范围更广)

三. 取子集

3.1 行向（rows）：

3.1.1. 以row numbers，dt [1:2, ]

3.1.2. 以条件（本质上是逻辑值 TRUE OR FALSE）, dt [a>5, ]

有如下逻辑操作符：

<　　<=　　is.na()　　%in% 　　|　　%like%

>　　>=　　!is.na()　　!　　 &　　%between%　　

3.2 列向（columns）：

3.2.1. 抽提（同行，与data.frame一致）

dt [, c(2)]

dt [, .(b, c)]

3.2.2. 归纳

dt [, .(x=sum(a))] -- 创建一个新data.table 用a列的和

其他函数如：mean，median， min， max等等

3.2.3. 计算列 (在:= 接上计算表达式)

dt [, c:=1+2]

dt[a == 1, c := 1 + 2]

dt[,`:=`(c = 1 , d = 2)] -- 计算分开计算多列

a b c d
1: 1 a 1 2
2: 2 b 1 2

3.2.4. 删除某列

dt[,c := NULL]

3.2.5. 转换某列

dt[,b := as.integer(b)] – 如as.integer(), as.numeric(),as.character(), as.Date()等函数

四. 分组（by）

dt[, j, by = .(a)] -- 由a列内容进行分组

dt[, j, keyby= .(a)] -- 由a列内容进行分组，同时分类排序

常规分组操作：

dt[, .(c = sum(b)), by = a] – 以a列分组来计算b列和
dt[,c := sum(b), by = a] – 创建新列c来储存按a列分组来计算b列和的结果
dt[, .SD[1], by = a] – 抽提a列分组的第一行
dt[, .SD[.N], by = a] – 抽提a列分组的最后一行

五. 链式操作

dt[…][…]

六. data.table的功能函数（重点）

6.1 重排

setorder(dt, a, -b) -- a列升序，b列降序（-）

注意：data.table中以“set”为前缀的功能函数以及操作符“:=”行使功能时，在内存中不创建副本，因此 setDT(df) 比 df <- as.data.table(df)更高效。

6.2 去重

unique(dt, by = c("a", "b")) -- 依次去重a， b列

uniqueN(dt, by = c("a", "b")) -- 计数去重后的行数

6.3 修改列名

setnames(dt, c("a","b"), c("x", "y"))

6.4 设置键（SET KEYS）

setkey(dt, a, b) -- 设置键是为快速重复查找特殊列用dt[.(value), ]，或者是为了合并列用dt_a[dt_b]

七. 合并 data.tables

7.1 按列合并

dt_a[dt_b,on = .(b = y)] -- 用于两个data.table有相同列的合并，如dt_a的b列与dt_b的y列相同

dt_a[dt_b,on = .(b = y, c > z)] -- 上式的扩展，不仅用于相同列，更用于带有条件的合并，如不仅满足dt_a的b列与dt_b的y列相同，而且要满足dt_a的c列大于dt_b的z列

7.2 滚动合并

dt_a[dt_b, on = .(id = id, date = date), roll = TRUE] -- 不仅按id，data进行匹配，同时保持向最近一行进行匹配

7.3 全合并

rbind(dt_a, dt_b) -- 行合并

cbind(dt_a, dt_b) -- 列合并

八. 重构data.table（与reshape2包相似）

长数据变宽数据

dcast(dt, id ~ y, value.var= c("a", "b"))

宽数据变长数据

melt(dt,
id.vars= c("id"),
measure.vars= patterns("^a", "^b"),
variable.name = "y",
value.name = c("a", "b"))

九. 应用Apply 函数

dt[, lapply(.SD, mean), .SDcols = c("a", "b")] ---

e.g. mean(), as.character(),
which.max()。

cols <-c("a")
dt[, paste0(cols, "_m") := lapply(.SD, mean),
.SDcols = cols] --- 重命名运算后的列

十. 对连续行计数

dt[, c := 1:.N, by = b] -- 分组后，计数行数，即计算每组有多少行

dt[, c := shift(a, 1), by = b]

十一. 读取和写入文件

fread("file.csv")

fread("file.csv", select = c("a", "b")) 这个函数很强大，除了读文件以外，可以直接读网址

fwrite(dt, "file.csv") 写入文件

基于R数据分析之常用Package讲解系列--1. data.table的更多相关文章

R语言学习笔记（十七）：data.table包中melt与dcast函数的使用
melt函数可以将宽数据转化为长数据 dcast函数可以将长数据转化为宽数据 > DT = fread("melt_default.csv") > DT family_ ...
Create and format Word documents using R software and Reporters package
http://www.sthda.com/english/wiki/create-and-format-word-documents-using-r-software-and-reporters-pa ...
基于java平台的常用资源整理
这里整理了基于java平台的常用资源翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,给用户和开发者最佳的.Net框架 ...
这里整理了基于java平台的常用资源
这里整理了基于java平台的常用资源翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...
R语言中常用包（二）
数据导入以下R包主要用于数据导入和保存数据 feather:一种快速,轻量级的文件格式.在R和python上都可使用readr:实现表格数据的快速导入.中文介绍可参考这里readxl:读取Micro ...
R语言数据分析利器data.table包—数据框结构处理精讲
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代 ...
Linux学习之路--常用命令讲解
Linux常用命令讲解 1.命令格式:命令 [-选项] [参数] 超级用户的提示符是# 一般用户的提示符是$ 如:ls -la /usr说明: 大部分命令遵从该格式多个选项时,可以一起写 eg:ls ...
R数据分析：潜类别轨迹模型LCTM的做法，实例解析
最近看了好多潜类别轨迹latent class trajectory models的文章,发现这个方法和我之前常用的横断面数据的潜类别和潜剖面分析完全不是一个东西,做纵向轨迹的正宗流派还是这个方法,当 ...

随机推荐

渗透测试-基于白名单执行payload--Regsvr32
复现亮神课程基于白名单执行payload--Regsvr32 0x01 Regsvr32 Regsvr32命令用于注册COM组件,是 Windows 系统提供的用来向系统注册控件或者卸载控件的命令, ...
Unity 登录白屏或者黑屏
如果有一天,突然,你的Unity抽风了,登录界面白屏或者黑屏,不要急着重装.我重装了3次,第四次我再也忍不住了,终于出手了. 找到 C:\Users\hasee\AppData\Roaming\Uni ...
CSS Grid 网格布局教程
一.概述网格布局(Grid)是最强大的 CSS 布局方案. 它将网页划分成一个个网格,可以任意组合不同的网格,做出各种各样的布局.以前,只能通过复杂的 CSS 框架达到的效果,现在浏览器内置了. 上 ...
算法---区间K大数查找 Java 蓝桥杯ALGO-1
import java.util.Arrays; import java.util.Scanner; public class Main { public static void main(Strin ...
linux下mqtt-client
CPATH += ../embe_mqtt/MQTTClient/srcPSRTPATH = ../embe_mqtt/MQTTPacket/src LOADPATH += -I$(CPATH)LOA ...
Pathon中numpy模块
目录 numpy模块切割矩阵矩阵元素替换矩阵的合并通过函数创建矩阵 fromstring/fromfunctions 矩阵的运算常用矩阵运函数矩阵的点乘矩阵的逆矩阵的其他操作 nump ...
Java IO_002.InputStream与OutputStream--字节流对数据的操作（读取与写入）
Java IO之FileInputStream与FileOutputStream对象常用操作涉及到文件(非文件夹)内容的操作,除了要用到File(见之前文章),另外就必须用到输入流或输出流. 输入流 ...
解决Dubbo 2.7.3版本使用ConfigCenterConfig集成Apollo No Provider found的问题
Dubbo 2.7.3 集成Apollo 问题描述 Dubbo 2.7.3支持配置中心外部化配置, 因此只需要定义一个ConfigCenterConfig的Bean. @EnableDubbo(sca ...
Java11新特性 - Epsilon GC和ZGC
Java11中新增了两个GC,Epsilon GC和ZGC. Epsilon垃圾收集器 A NoOp Garbage Collector 没有操作的垃圾收集器 JDK上对这个特性的描述是:开发一个处理 ...
Django中ORM的优化
1. exists( ) 什么时候用 count( ) 和 len( )什么时候合适, 用values( )或values_list( )只取需要的列的数据 iterator()对数据对象生成迭代器, ...

基于R数据分析之常用Package讲解系列--1. data.table

基于R数据分析之常用Package讲解系列--1. data.table的更多相关文章

随机推荐

热门专题