每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

数据选取与简单操作：

which	返回一个向量中指定元素的索引
which.max	返回最大元素的索引
which.min	返回最小元素的索引
sample	随机在向量中抽取元素
subset	根据条件选取元素
sort	升序排列元素
rev	反转所有元素
order	获取排序后的索引
table	返回频数表
cut	将数据分割为几部分
split	按照指定条件分割数据
rbind	行合并
cbind	列合并
merge	按照指定列合并矩阵或者数据框

一、数据合并

1、merge()函数

最常用merge()函数，但是这个函数使用时候这两种情况需要注意：

1、merge(a,b)，纯粹地把两个数据集合在一起，没有沟通a、b数据集的by，这样出现的数据很多，相当于a*b条数据；

2、merge函数是匹配到a,b数据集的并，都有的才匹配出来，如果a、b数据集ID不同，要用all=T（下面有all用法的代码）。

#横向合并
ID<-c(1,2,3,4)
name<-c("Jim","Tony","Lisa","Tom")
score<-c(89,22,78,78)
student1<-data.frame(ID,name)
student2<-data.frame(ID,score)
total_student<-merge(student1,student2,by="ID")  #或者rbind()
total_student

#纵向合并
ID<-c(1,2,3)
name<-c("Jame","Kevin","Sunny")
student1<-data.frame(ID,name)
ID<-c(4,5,6)
name<-c("Sun","Frame","Eric")
student2<-data.frame(ID,name)
total<-cbind(student1,student2)
total

merge的all用法

> id=c("1","2","3")
> M=c("7","2","3")
> ink2=data.frame(id,M)
>
> merge(ink1,ink2,by="id",all=T)  #所有数据列都放进来，空缺的补值为NA
  id    R    M
1  1    9    7
2  2    7    2
3  4    9 <NA>
4  3 <NA>    3
> merge(ink1,ink2,by="id",all=F)  #默认，只取两者的共有的部分
  id R M
1  1 9 7
2  2 7 2

其中，all=T代表全连接，all.x=T代表左联结；all.y=T代表右连接

2、dplyr包

dplyr包的数据合并，

一般用left_join(x,y,by="name") 以x为主，y中匹配到的都放进来，但，y中没有的则不放过来。

需要这个x数据集是全集，比较大。

3、paste函数

生成一长串字符向量。

paste(c("X","Y"),1:10,sep="")      #"X”,"Y"是长度为2的字符向量,1:10 长度为10的向量。命令是让这两个向量粘合在一起生成新的字符串向量，粘合后的新字符之间没有间隔。

#—————————paste中seq与collapse区别————————————————————
a = c(1, 2, 3, 4, 5)
names(a) = c('m', 'n','o', 'p', 'q')
# 主要是区分使用sep和collapse
b = paste(a, names(a), sep = "/")          #不同向量合并在一起，但是还是各自向量
c = paste(b, collapse = ",")               #不同向量合并在一起，但是变成一个向量
mode(b) #变量类型
mode(c)

4、cbind和rbind函数

cbind()和rbind()，cbind()按照纵向方向，或者说按列的方式将矩阵连接到一起。

rbind()按照横向的方向，或者说按行的方式将矩阵连接到一起

rbind/cbind对数据合并的要求比较严格：合并的变量名必须一致；数据等长；指标顺序必须一致。相比来说，其他一些方法要好一些，有dplyr，sqldf中的union

5、sqldf包

利用SQL语句来写，进行数据合并，适合数据库熟悉的人，可参考：

R语言︱数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）

二、数据增减

x=x[,-1]  #这个就代表，删除了x数据集中第一列数据

或用dplyr包中的mutate函数

a=mutate(Hdma_dat,dou=2*survived,dou4=4*survived)
Hdma_dat$dou=a$dou
Hdma_dat$dou4=a$dou4   #两个新序列，加入到Hdma数据集汇总

筛选变量服从某值的子集

subset(airquality, Temp > 80, select = c(Ozone, Temp))
subset(airquality, Day == 1, select = -Temp)
subset(airquality, select = Ozone:Wind)

三、数据纵横加总

R使用rowSums函数对行求和，使用colSums函数对列求和。

四、不等长合并

1、plyr包

rbind.fill函数可以很好将数据进行合并，并且补齐没有匹配到的缺失值为NA。

#————————————————————————————不等长合并
#如何解决合并时数据不等长问题——两种方法：do.call函数以及rbind.fill函数（plyr包）
#rbind.fill函数只能合并数据框格式
#do.call函数在数据框中执行函数（函数，数据列）
library("plyr")  #加载获取rbind.fill函数
#第一种方法
list1<-list()
list1[[1]]=data.frame(t(data.frame(Job_Pwordseg.ct[1])))
list1[[2]]=data.frame(t(data.frame(Job_Pwordseg.ct[2])))
do.call(rbind.fill,list1)
#第二种方法
u=rbind.fill(data.frame(t(data.frame(Job_Pwordseg.ct[1]))),data.frame(t(data.frame(Job_Pwordseg.ct[2]))))

核心函数是plyr包中的rbind.fill函数（合并的数据，必须是data.frame），do.call可以用来批量执行。（do.call用法）

关于do.call其他用法（R语言函数do.call()使用）

有一个list，想把里面的所有元素相加求和。发现了两个很有意思的函数

list <- list(matrix(1:25, ncol = 5), matrix(4:28, ncol = 5), matrix(21:45, ncol=5))

list.sum<-do.call(sum,list)

list.sum<-do.call(cbind,list)

do.call() 是告诉list一个函数，然后list里的所有元素来执行这个函数。

2、dplyr包

dplyr::bind_rows()

    mpg   cyl    hp  drat    wt  qsec    vs    am  gear  carb  disp
  (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) (dbl)
1  21.0     6   110  3.90 2.620 16.46     0     1     4     4    NA
2  21.0     6   110  3.90 2.875 17.02     0     1     4     4    NA
3  22.8     4    93  3.85 2.320 18.61     1     1     4     1    NA
4  21.4     6   110  3.08 3.215 19.44     1     0     3     1    NA
5  17.8     6   123  3.92 3.440 18.90     1     0     4     4 167.6
6  16.4     8   180  3.07 4.070 17.40     0     0     3     3 275.8
7  17.3     8   180  3.07 3.730 17.60     0     0     3     3 275.8
8  15.2     8   180  3.07 3.780 18.00     0     0     3     3 275.8

效果是，不匹配到的放在最后，且等于NA NA NA NA

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言数据集合并、数据增减、不等长合并的更多相关文章

R语言重要数据集分析研究——R语言数据集的字段含义
R语言数据集的字段含义作者:马文敏选择一种数据结构来储存数据将数据输入或导入到这个数据结构中数据集的概念数据集通常是有数据结构的一个矩形数组,行表示规则,列表示变量. 不同的行业对数据集的行 ...
R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)
R语言︱数据集分组大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较. 一.日期分组 1.关于时间的包都有很多 ...
[译]用R语言做挖掘数据《二》
数据探索一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...
R语言分析朝阳医院数据
R语言分析朝阳医院数据本次实践通过分析朝阳医院2016年销售数据,得出“月均消费次数”.“月均消费金额”.“客单价”.“消费趋势”等结果,并据此作出可视化图形. 一.读取数据: library(op ...
R语言实现金融数据的时间序列分析及建模
R语言实现金融数据的时间序列分析及建模一移动平均移动平均能消除数据中的季节变动和不规则变动.若序列中存在周期变动,则通常以周期为移动平均项数.移动平均法可以通过数据显示出数据长期趋势的变动 ...
R语言处理Web数据
R语言处理Web数据许多网站提供的数据,以供其用户的消费.例如,世界卫生组织(WHO)提供的CSV,TXT和XML文件的形式的健康和医疗信息报告.基于R程序,我们可以通过编程提取这些网站的具体数据. ...
R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的. Data Frame每一列有列名,每一行也可 ...
R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据数 ...
转载:R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的. Data Frame每一列有列名,每一行也可 ...

随机推荐

PyCharm运行Nosetests并导出测试报告
1. Pycharm运行Nosetests PyCharm可以使用两种方法,运行Nosetests测试文件: 1) 图形用户界面GUI a) 在PyCharm中,选中测试文件,如Tests/test_ ...
IO模型浅析
IO模型同步.异步.阻塞.非阻塞同步: 所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回.也就是必须一件一件事做,等前一件做完了才能做下一件事. 例如普通B/S模式(同步): ...
ABP官方文档翻译 5.3 OData集成
OData集成介绍安装安装Nuget包设置模块依赖配置实体创建控制器配置示例获取实体列表 Request Response 获取单个实体 Request Response 使用导航属 ...
HTA基础
HTA是HTML应用程序(HTML Application)的缩写,可以使用HTML中的绝大多数标签.脚本等.直接将HTML保存成HTA的格式,就是一个能够独立运行的应用软件. 与普通HTML网页相比 ...
BZOJ 3907: 网格 [Catalan数高精度]
3907: 网格 Time Limit: 1 Sec Memory Limit: 256 MBSubmit: 402 Solved: 180[Submit][Status][Discuss] De ...
CentOS安装EPEL Remi
EPEL,Remi 因为Centos官方源很多软件都没有,编译安装又比较麻烦,可以安装EPEL源Remi源解决此问题. CentOS 5.x : wget http://dl.fedoraprojec ...
CSS常用属性计算原理
absolute: left.right/top.bottom 的百分比值分别根据父元素的 wdith / height 计算 margin: top /right / bottom/ left 的百 ...
[转]【C#】分享一个弹出浮动层，像右键菜单那样召即来挥则去
适用于:.net2.0+ Winform项目背景: 有时候我们需要开一个简单的窗口来做一些事,例如输入一些东西.点选一个item之类的,可能像这样: 完了返回原窗体并获取刚刚的输入,这样做并没有什么 ...
【国家集训队2010】小Z的袜子[莫队算法]
[莫队算法][国家集训队2010]小Z的袜子 Description 作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿.终于有一天,小Z再也无法忍受这恼人的找袜子过程, ...
深入分析Java ClassLoader的原理（转）
一.什么是ClassLoader? 大家都知道,当我们写好一个Java程序之后,不是管是CS还是BS应用,都是由若干个.class文件组织而成的一个完整的Java应用程序,当程序在运行时,即会调用该程 ...

R语言数据集合并、数据增减、不等长合并

一、数据合并

1、merge()函数

2、dplyr包

3、paste函数

4、cbind和rbind函数

5、sqldf包

R语言︱ 数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）

二、数据增减

三、数据纵横加总

四、不等长合并

R语言数据集合并、数据增减、不等长合并的更多相关文章

随机推荐

热门专题

R语言︱数据库SQL-R连接与SQL语句执行（RODBC、sqldf包）