r 数据分组处理

一、R语言实现数据的分组求和

实验数据集姓名，年龄，班级，成绩，科目

student <- data.frame (
name = c("s1", "s2", "s3", "s2", "s1", "s3"),
age = c(12, 13, 10, 13, 12, 10),
classid = c("c1", "c2", "c3", "c2", "c1", "c3"),
score = c(78, 68, 99, 81, 82, 90),
subject = c("su1", "su1", "su1", "su2", "su2", "su2")
)

下面看看 students 的结构

> str(students)
'data.frame': 6 obs. of 5 variables:
$ name : Factor w/ 3 levels "s1","s2","s3": 1 2 3 2 1 3
$ age : num 12 13 10 13 12 10
$ classid: Factor w/ 3 levels "c1","c2","c3": 1 2 3 2 1 3
$ score : num 78 68 99 81 82 90
$ subject: Factor w/ 2 levels "su1","su2": 1 1 1 2 2 2

可以看到，在调用 data.frame 函数之后，默认将字符形变量转换成了因子变量，并且重新对它们进行编码

下面我们求每个班级平均成绩：用SQL语句如下

select count(score) from students group by subject

用R自带的函数 tapply 也可以实现上面的要求：

> tapply(student$score, students$subject, sum)
su1 su2
245 253

从tapply的执行结果我们可以看出，tapply 是根据第二个变量因子变量（注意必须是因子变量）对第一个变量来分组，然后对所有分成的小组调用最后的函数

再来看一个例子，加深对因子的理解：

> affils <- c("R", "D", "D", "R", "U", "D")
> affils <- as.factor(x = affils)
> affils
[1] R D D R U D
Levels: D R U
> affils <- factor(affils, ordered = TRUE)
> affils
[1] R D D R U D
Levels: D < R < U
> affils <- factor(affils, levels = c("U", "R", "D"), ordered = TRUE)
> tapply(ages, affils, mean)
U R D
21 31 41
> ages <- c(25, 26, 55, 37, 21, 42)
> affils <- c("R", "D", "D", "R", "U", "D")
> affils <- as.factor(x = affils)
> affils
[1] R D D R U D
Levels: D R U
> affils <- factor(affils, ordered = TRUE)
> affils
[1] R D D R U D
Levels: D < R < U
> affils <- factor(affils, levels = c("U", "R", "D"), ordered = TRUE)
> affils
[1] R D D R U D
Levels: U < R < D
> tapply(ages, affils, mean)
U R D
21 31 41

从例子中可以发现，因子的水平，以及水平的高低我们都是可以按照自己的想法去控制的

好了，有了上面的基础知识，下面进一步加大难度，如果分组变量有几个呢？

请看下面的例子：

实验数据如下：

> staff <- data.frame(list(gender = c("M", "M", "F", "M", "F", "F"),
+ age = c(47, 59, 21, 32, 33, 24),
+ income = c(55000, 88000, 32450, 76500, 123000, 45650)
+ )
+ )
> staff
gender age income
1 M 47 55000
2 M 59 88000
3 F 21 32450
4 M 32 76500
5 F 33 123000
6 F 24 45650
> str(staff)
'data.frame': 6 obs. of 3 variables:
$ gender: Factor w/ 2 levels "F","M": 2 2 1 2 1 1
$ age : num 47 59 21 32 33 24
$ income: num 55000 88000 32450 76500 123000 ...

下面分析：年龄大于 25 的不同性别的总收入，以及年龄小于 25 的不同性别的总收入

> staff$over25 <- ifelse(staff$age > 25, 1, 0)
> staff
gender age income over25
1 M 47 55000 1
2 M 59 88000 1
3 F 21 32450 0
4 M 32 76500 1
5 F 33 123000 1
6 F 24 45650 0
> tapply(staff$income, list(staff$gender, staff$over25), sum)
0 1
F 78100 123000
M NA 219500

从结果中可以清楚的看到，年龄小于 25 的女员工总收入为 78100，其他的同理可以分析出来

二、如果你只是想分组呢？那么你就要要用到 spit 函数，注意字符串的分割是用 strsplit，下面看如下两个例子就清楚明了了

> split(staff$income, list(staff$over25, staff$gender))
$`0.F`
[1] 32450 45650
$`1.F`
[1] 123000
$`0.M`
numeric(0)
$`1.M`
[1] 55000 88000 76500
> split(staff$income, list(staff$gender, staff$over25))
$F.0
[1] 32450 45650
$M.0
numeric(0)
$F.1
[1] 123000
$M.1
[1] 55000 88000 76500

从上面的例子我们可以非常清楚的明白 split 函数的工作原理

下面看一个有意思的例子，利用 split 迅速定位上面男性的下标，一种非常自然的想法是排序，然后如果数据总是变化无常怎么定位我们想要的那一类数据的下标呢？

> split(1:length(staff$gender), staff$gender)
$F
[1] 3 5 6
$M
[1] 1 2 4

如果我们将这个方法与文本挖掘联想到一起，我们可以发现，这个方法可以非常容易的解决英文文本词汇索引的问题：

如果给你一个文本文件，假设单词都是按照空格分割，现在要统计哪些单词出现在文本中，以及出现的位置和次数，我们可以用下面的方法非常容易的解决

filewords <- function(tf) {
txt <- scan(tf, "")
words <- split(1:length(txt), txt)
return(words)
}

另外我们应该关注 by() 函数的使用

最后一句话：在R中如果可以不使用循环则力求不使用

顶: 0

r 数据分组处理的更多相关文章

R数据科学-2
R数据科学(R for Data Science) Part 2:数据处理导入-->整理-->转换 ------------------第7章使用tibble实现简单数据框------ ...
R数据科学-1
R数据科学(R for Data Science) Part 1:探索 by: PJX for 查漏补缺 exercise: https://jrnold.github.io/r4ds-exercis ...
.NET LINQ 数据分组
数据分组分组指将数据放入组中以便每个组中的元素共享公共特性的操作. 方法方法名说明 C# 查询表达式语法 Visual Basic 查询表达式语法更多信息 GroupBy 对共享 ...
MySQL:基础—数据分组
MySQL:基础-数据分组 1.为什么要分组: 比如一个表中有多条订单记录,如上图,每条记录对应着一个商品,现在我要查询每个商品被订购的单数准备出货?也就是找到每个商品被订购的数量. 如果只找一个 ...
EMVTag系列1《数据分组》
数据分组的设计在个人化过程中承担着重要的作用.数据分组标识符(DGI)是两字节十六进制数.数据分组标识的第一个字节等于'01'到'1E',表明数据存储的SFI.第二个字节表明SFI记录的记录编号.其他 ...
SQL从入门到基础 - 05 数据分组、Having语句
一.数据分组 1. 按照年龄进行分组统计各个年龄段的人数: Select FAge,count(*) from T_Employee group by FAge; 2. Group by子句必须放到w ...
数据分组分析—-groupby
数据分组分析—-groupby 代码功能: 对于综合表格data,基于title进行分组处理,并统计每一组的size,得到的是一个series序列,此序列可以放入索引中使用,index() impor ...
pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
MySQL数据分组Group By 和 Having
现有以下的学生信息表: 若果现在想计算每个班的平均年龄,使用where的操作如下: SELECT Cno AS 班级, AVG(Sage) AS 平均年龄 FROM stu ; 这样的话,有多少个班就 ...

随机推荐

pythonl练习笔记——threading线程中的事件Event
1 事件Event 使用方法:e = threading.Event() Event对象主要用于线程间通信,确切地说是用于主线程控制其他线程的执行. Event事件提供了三个方法:wait等待.cle ...
python学习笔记011——内置函数pow()
1 语法 pow(x, y[, z]) x -- 数值表达式. y -- 数值表达式. z -- 数值表达式. 函数是计算 x 的 y 次方,如果 z 在存在,则再对结果进行取模,其结果等效于pow( ...
Accounting_会计基础知识
作为企业的财务人员,必须拥有一些技能和财务方面的知识,本文就所讲述的是财务岗位必须掌握的知识总结,仅供参考. 1.账面价值.账面余额和账面净值账面价值是指某科目(通常是资产类科目)的账面余额减去相关 ...
Android应用如何适配不同分辨率的手机
主要分三块考虑 1 )界面配置根据不同的分辨率,创建手机界面文件例子: 在res下创建 layout-800x480 layout-480x320 并在各自不 ...
SonarQube4.4+Jenkins进行代码检查实例之三-单元測试分析
作者:张克强作者微博:张克强-敏捷307 在 <SonarQube4.4+Jenkins进行代码检查实例之中的一个> 中介绍了不编译仅仅检查的方式. 在<SonarQube4 ...
openssl之EVP系列之9---EVP_Digest系列函数的一个样例
openssl之EVP系列之9---EVP_Digest系列函数的一个样例 ---依据openssl doc/crypto/EVP_DigestInit.pod翻译 (作者:Drago ...
MDK5在调试中崩溃，提示“IDE已停止工作”
出问题的原因是路径名太长,换个深度浅一点的路径就好了. 要注意,更换路径之后,要全部重新编译,否则调试的时侯MDK还会找旧路径的源代码.(嗯,MDK毛病是很多!)
jenkins 构建执行jmeter测试流程
性能测试使用maven工程说明1.依赖尽量用maven依赖管理2.添加jmeter maven依赖 <dependency> <groupId>org.apache.jmete ...
利用ichart绘制网页图表
首先,最好的教程在这里:ichartjs 有了这个网站,要绘制网页图表简直方便愉快! 接下来说一下使用方法~~~ 进入网站,点击在线设计器在线设计器的使用方法就不说了,摸索一下就会了!关键在于两个地 ...
enumerate的简单使用
l = [11,22,33,55,"ss","zz"] for i,v in enumerate(l): print(i,v) #打印结果: # 0 11 # ...

r 数据分组处理

r 数据分组处理的更多相关文章

随机推荐

热门专题