R中apply函数族

参考于：http://blog.fens.me/r-apply/

1. apply的家族函数

2. apply函数

apply函数是最常用的代替for循环的函数。apply函数可以对矩阵、数据框、数组(二维、多维)，按行或列进行循环计算，对子元素进行迭代，并把子元素以参数传递的形式给自定义的FUN函数中，并以返回计算结果。

函数定义：

apply(X, MARGIN, FUN, ...)

参数列表：

X:数组、矩阵、数据框
MARGIN: 按行计算或按按列计算，1表示按行，2表示按列
FUN: 自定义的调用函数
…: 更多参数，可选

比如，对一个矩阵的每一行求和，下面就要用到apply做循环了。

> x<-matrix(1:12,ncol=3)

> apply(x,1,sum)

[1] 15 18 21 24

下面计算一个稍微复杂点的例子，按行循环，让数据框的x1列加1，并计算出x1,x2列的均值。

# 生成data.frame

> x <- cbind(x1 = 3, x2 = c(4:1, 2:5)); x

     x1 x2

[1,]  3  4

[2,]  3  3

[3,]  3  2

[4,]  3  1

[5,]  3  2

[6,]  3  3

[7,]  3  4

[8,]  3  5

# 自定义函数myFUN，第一个参数x为数据

# 第二、三个参数为自定义参数，可以通过apply的'...'进行传入。

> myFUN<- function(x, c1, c2) {

+   c(sum(x[c1],1), mean(x[c2]))

+ }

# 把数据框按行做循环，每行分别传递给myFUN函数，设置c1,c2对应myFUN的第二、三个参数

> apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))

     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

[1,]  4.0    4  4.0    4  4.0    4  4.0    4

[2,]  3.5    3  2.5    2  2.5    3  3.5    4

　对于上面的需求，还可以这样实现，那就是完成利用了R的特性，通过向量化计算来完成的。

> data.frame(x1=x[,1]+1,x2=rowMeans(x))

  x1  x2

1  4 3.5

2  4 3.0

3  4 2.5

4  4 2.0

5  4 2.5

6  4 3.0

7  4 3.5

8  4 4.0

3. lapply函数

lapply函数是一个最基础循环操作函数之一，用来对list、data.frame数据集进行循环，并返回和X长度同样的list结构作为结果集，通过lapply的开头的第一个字母’l’就可以判断返回结果集的类型。

函数定义：

lapply(X, FUN, ...)

参数列表：

X:list、data.frame数据
FUN: 自定义的调用函数
…: 更多参数，可选

比如，计算list中的每个KEY对应该的数据的分位数。

4. sapply函数

sapply函数是一个简化版的lapply，sapply增加了2个参数simplify和USE.NAMES，主要就是让输出看起来更友好，返回值为向量，而不是list对象。

函数定义：

sapply(X, FUN, ..., simplify=TRUE, USE.NAMES = TRUE)

参数列表：

X:数组、矩阵、数据框
FUN: 自定义的调用函数
…: 更多参数，可选
simplify: 是否数组化，当值array时，输出结果按数组进行分组
USE.NAMES: 如果X为字符串，TRUE设置字符串为数据名，FALSE不设置

我们还用上面lapply的计算需求进行说明。

如果simplify=FALSE和USE.NAMES=FALSE，那么完全sapply函数就等于lapply函数了。

5. vapply函数

vapply类似于sapply，提供了FUN.VALUE参数，用来控制返回值的行名，这样可以让程序更健壮。

函数定义：

vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)

参数列表：

X:数组、矩阵、数据框
FUN: 自定义的调用函数
FUN.VALUE: 定义返回值的行名row.names
…: 更多参数，可选
USE.NAMES: 如果X为字符串，TRUE设置字符串为数据名，FALSE不设置

比如，对数据框的数据进行累计求和，并对每一行设置行名row.names

通过使用vapply可以直接设置返回值的行名，这样子做其实可以节省一行的代码，让代码看起来更顺畅，当然如果不愿意多记一个函数，那么也可以直接忽略它，只用sapply就够了。　

6. mapply函数

mapply也是sapply的变形函数，类似多变量的sapply，但是参数定义有些变化。第一参数为自定义的FUN函数，第二个参数’…’可以接收多个数据，作为FUN函数的参数调用。

函数定义：

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)

参数列表：

FUN: 自定义的调用函数
…: 接收多个数据
MoreArgs: 参数列表
SIMPLIFY: 是否数组化，当值array时，输出结果按数组进行分组
USE.NAMES: 如果X为字符串，TRUE设置字符串为数据名，FALSE不设置

比如，比较3个向量大小，按索引顺序取较大的值。

> set.seed(1)

# 定义3个向量

> x<-1:10

> y<-5:-4

> z<-round(runif(10,-5,5))

# 按索引顺序取较大的值。

> mapply(max,x,y,z)

 [1]  5  4  3  4  5  6  7  8  9 10

　由于mapply是可以接收多个参数的，所以我们在做数据操作的时候，就不需要把数据先合并为data.frame了，直接一次操作就能计算出结果了。　

7. tapply函数

tapply用于分组的循环计算，通过INDEX参数可以把数据集X进行分组，相当于group by的操作。

函数定义：

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

参数列表：

X: 向量
INDEX: 用于分组的索引
FUN: 自定义的调用函数
…: 接收多个数据
simplify : 是否数组化，当值array时，输出结果按数组进行分组

比如，计算不同品种的鸢尾花的花瓣(iris)长度的均值。

# 通过iris$Species品种进行分组

> tapply(iris$Petal.Length,iris$Species,mean)

    setosa versicolor  virginica

     1.462      4.260      5.552

　对向量x和y进行计算，并以向量t为索引进行分组，求和。　

> set.seed(1)

# 定义x,y向量

> x<-y<-1:10;x;y

 [1]  1  2  3  4  5  6  7  8  9 10

 [1]  1  2  3  4  5  6  7  8  9 10

# 设置分组索引t

> t<-round(runif(10,1,100)%%2);t

 [1] 1 2 2 1 1 2 1 0 1 1

# 对x进行分组求和

> tapply(x,t,sum)

 0  1  2

 8 36 11

8. rapply函数

rapply是一个递归版本的lapply，它只处理list类型数据，对list的每个元素进行递归遍历，如果list包括子元素则继续遍历。

函数定义：

rapply(object, f, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)

参数列表：

object:list数据
f: 自定义的调用函数
classes : 匹配类型, ANY为所有类型
deflt: 非匹配类型的默认值
how: 3种操作方式，当为replace时，则用调用f后的结果替换原list中原来的元素；当为list时，新建一个list，类型匹配调用f函数，不匹配赋值为deflt；当为unlist时，会执行一次unlist(recursive = TRUE)的操作
…: 更多参数，可选

比如，对一个list的数据进行过滤，把所有数字型numeric的数据进行从小到大的排序。

> x=list(a=12,b=1:4,c=c('b','a'))

> y=pi

> z=data.frame(a=rnorm(10),b=1:10)

> a <- list(x=x,y=y,z=z)

# 进行排序，并替换原list的值

> rapply(a,sort, classes='numeric',how='replace')

$x

$x$a

[1] 12

$x$b

[1] 4 3 2 1

$x$c

[1] "b" "a"

$y

[1] 3.141593

$z

$z$a

 [1] -0.8356286 -0.8204684 -0.6264538 -0.3053884  0.1836433  0.3295078

 [7]  0.4874291  0.5757814  0.7383247  1.5952808

$z$b

 [1] 10  9  8  7  6  5  4  3  2  1

> class(a$z$b)

[1] "integer"

　从结果发现，只有$z$a的数据进行了排序，检查$z$b的类型，发现是integer，是不等于numeric的，所以没有进行排序。　

9. eapply函数

对一个环境空间中的所有变量进行遍历。如果我们有好的习惯，把自定义的变量都按一定的规则存储到自定义的环境空间中，那么这个函数将会让你的操作变得非常方便

函数定义：

eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)

参数列表：

env: 环境空间
FUN: 自定义的调用函数
…: 更多参数，可选
all.names: 匹配类型, ANY为所有类型
USE.NAMES: 如果X为字符串，TRUE设置字符串为数据名，FALSE不设置

很少用~