为什么用apply

因为我是一个程序员，所以在最初学习R的时候，当成“又一门编程语言”来学习，但是怎么学都觉得别扭。现在我的看法倾向于，R不是一种通用型的编程语言，而是一种统计领域的软件工具。因此，不能用通用型编程的思维来设计R代码。在Andrew Lim关于R和Python的对比回答中，R是一种面向数组(array-oriented)的语法，它更像数学，方便科学家将数学公式转化为R代码。而Python是一种通用编程语言，更工程化。在使用R时，要尽量用array的方式思考，避免for循环。不用循环怎么实现迭代呢？这就需要用到apply函数族。它不是一个函数，而是一族功能类似的函数。

概述

apply系列函数的基本作用是对数组（array，可以是多维）或者列表（list）按照元素或元素构成的子集合进行迭代，并将当前元素或子集合作为参数调用某个指定函数。vector是一维的array，dataframe可以看作特殊的list。

这些函数间的关系

作用目标	在每个元素上应用	在子集合上应用
array	`apply`	`tapply`
list	`lapply`(...)	`by`

其中lapply(...)包括一族函数

lapply

   |

   |-> 简化版: sapply

   |             | -> 可设置返回值模板: vapply

   |             |-> 多变量版: mapply

   |

   |-> 递归版: rapply

另外vector比较奇怪，vector是一维的array，但是却不全是和array使用相同的函数。在按元素迭代的情况下，使用和list一样的lapply函数；而在按子集合迭代的情况下，tapply和by都能用，只是返回值形式不同。

功能与语法描述

apply

apply(array, margin, FUN, ...)

在array上，沿margin方向，依次调用FUN。返回值为vector。margin表示数组引用的第几维下标（即array[index1, index2, ...]中的第几个index），1对应为1表示行，2表示列，c(1,2)表示行列。margin=1时，apply(a, 1, sum)等效于下面的操作

a <- array(c(1:24), dim=c(2,3,4))

result=c()

for (i in c(1:dim(a)[1])) {

    result <- c(result, sum(a[i,,]))

}

经实测，只能用在二维及以上的array上，不能用在vector上（如果要应用于vector，请使用lapply或sapply）。以matrix为例，如下

a <- array(c(1:24), dim=c(2,3,4))

result=c()

for (i in c(1:dim(a)[1])) {

    result <- c(result, sum(a[i,,]))

}

tapply

tapply(array, indices, margin, FUN=NULL, ...)

　　按indices中的值分组，把相同值对应下标的array中的元素形成一个集合，应用到FUN。类似于group by indices的操作。如果FUN返回的是一个值，tapply返回vector；若FUN返回多个值，tapply返回list。vector或list的长度和indices中不同值的个数相等。

当FUN为NULL的时候，返回一个长度和array中元素个数相等的vector，指示分组的结果，vector中相等的元素所对应的下标属于同一组。例如，返回c(1, 2, 1, 3, 2), 表示根据传入的indices，第1、3个元素作为一组，第2、5个元素作为一组，第4个元素作为一组。

一维array的例子（即vector）

> v <- c(1:5)

> ind <- c('a','a','a','b','b')

> tapply(v, ind)

[1] 1 1 1 2 2

> tapply(v, ind, sum)

a b

6 9

> tapply(v, ind, fivenum)

$a

[1] 1.0 1.5 2.0 2.5 3.0

$b

[1] 4.0 4.0 4.5 5.0 5.0

二维array的例子（即matrix）

> m <- matrix(c(1:10), nrow=2)

> m

     [,1] [,2] [,3] [,4] [,5]

[1,]    1    3    5    7    9

[2,]    2    4    6    8   10

> ind <- matrix(c(rep(1,5), rep(2,5)), nrow=2)

> ind

     [,1] [,2] [,3] [,4] [,5]

[1,]    1    1    1    2    2

[2,]    1    1    2    2    2

> tapply(m, ind)

 [1] 1 1 1 1 1 2 2 2 2 2

> tapply(m, ind, mean)

1 2

3 8

> tapply(m, ind, fivenum)

$`1`

[1] 1 2 3 4 5

$`2`

[1]  6  7  8  9 10

by

by(dataframe, INDICES, FUN, ..., simplify=TRUE)

by可以当成dataframe上的tapply。indices应当和dataframe每列的长度相同。返回值是by类型的object。若simplify=FALSE，本质上是个list。

> df <- data.frame(a=c(1:5), b=c(6:10))

> ind <- c(1,1,1,2,2)

> res <- by(df, ind, colMeans)

 > res

ind: 1

a b

2 7

------------------------------------------------------------

ind: 2

  a   b

4.5 9.5

> class(res)

[1] "by"

> names(res)

[1] "1" "2"

lapply

lapply(list, FUN, ...)

在list上逐个元素调用FUN。可以用于dataframe上，因为dataframe是一种特殊形式的list。例

> lst <- list(a=c(1:5), b=c(6:10))

> lapply(lst, mean)

$a

[1] 3

$b

[1] 8

> lapply(lst, fivenum)

$a

[1] 1 2 3 4 5

$b

[1]  6  7  8  9 10

sapply

sapply(list, FUN, ..., simplify, USE.NAME=TRUE)

比lapply多了一个simplify参数。如果simplify=FALSE，则等价于lapply。否则，在上一种情况的基础上，将lapply输出的list简化为vector或matrix。例

> lst <- list(a=c(1:5), b=c(6:10))

> sapply(lst, mean)

a b

3 8

> sapply(lst, fivenum)

     a  b

[1,] 1  6

[2,] 2  7

[3,] 3  8

[4,] 4  9

[5,] 5 10

vapply

vapply(list, FUN, FUN.VALUE, ..., USE.NAME=TRUE)

vapply类似于sapply，但是提供了第三个参数FUN.VALUE用以指明返回值的形式，可以看作返回值的模板。例

 > lst <- list(a=c(1:5), b=c(6:10))

 > res <- vapply(lst, function(x) c(min(x), max(x)), c(min.=0, max.=0))

 > res

      a  b

 min. 1  6

 max. 5 10

mapply

mapply(FUN, ..., MoreArgs=NULL, SIMPLIFY=TRUE, USE.NAMES=TRUE)

mapply是多变量版的sapply，参数(...)部分可以接收多个数据，mapply将FUN应用于这些数据的第一个元素组成的数组，然后是第二个元素组成的数组，以此类推。要求多个数据的长度相同，或者是整数倍关系。返回值是vector或matrix，取决于FUN返回值是一个还是多个。

> mapply(sum, list(a=1,b=2,c=3), list(a=10,b=20,d=30))

 a  b  c

11 22 33

> mapply(function(x,y) x^y, c(1:5), c(1:5))

[1]    1    4   27  256 3125

> mapply(function(x,y) c(x+y, x^y), c(1:5), c(1:5))

     [,1] [,2] [,3] [,4] [,5]

[1,]    2    4    6    8   10

[2,]    1    4   27  256 3125

rapply

rapply(list, FUN, classes="ANY", deflt=NULL, how=c("unlist", "replace", "list"), ...)

rapply是递归版的lappy。基本原理是对list作遍历，如果其中有的元素仍然是list，则继续遍历；对于每个非list类型的元素，如果其类型是classes参数指定的类型之一，则调用FUN。classes="ANY"表示匹配所有类型。

how参数用来指定操作方式，有三种：

"replace" 直接用调用FUN后的结果替换原list中原来的元素
"list" 新建一个list，元素类型在classes中的，调用FUN；不在classes中的类型，使用deflt。会保留原始list的结构。
"unlist" 相当于对"list"模式下的结果调用unlist(recursive=TRUE)

 > lst <- list(a=list(aa=c(1:5), ab=c(6:10)), b=list(ba=c(1:10)))

> lst

$a

$a$aa

[1] 1 2 3 4 5

$a$ab

[1]  6  7  8  9 10

$b

$b$ba

 [1]  1  2  3  4  5  6  7  8  9 10

> rapply(lst, sum, how='list')

$a

$a$aa

[1] 15

$a$ab

[1] 40

$b

$b$ba

[1] 55

> rapply(lst, sum, how='unlist')

a.aa a.ab b.ba

  15   40   55

第二个是关于classes和deflt参数使用的例子

> lst2

$a

$a$aa

[1] 1 2 3 4 5

$a$ab

[1]  6  7  8  9 10

$b

$b$ba

[1] "I am a string"

> rapply(lst2, sum, how='unlist')

Error in .Primitive("sum")("I am a string", ...) :

  invalid 'type' (character) of argument

> rapply(lst2, sum, classes=c('integer'), deflt=-1, how='unlist')a.aa a.ab b.ba

  15   40   -1

> rapply(lst2, nchar, classes=c('character'), deflt=as.integer(NA), how='unlist')

a.aa a.ab b.ba

  NA   NA   13

应用

tapply实现crosstable功能

以一个例子演示。原始数据为按年份year、地区loc和商品类别type进行统计的销售量。我们要制作两个销售总量的crosstable，一个以年份为行、地区为列，一个以年份为行，类别为列。

> df <- data.frame(year=kronecker(2001:2003, rep(1,4)), loc=c('beijing','beijing','shanghai','shanghai'), type=rep(c('A','B'),6), sale=rep(1:12))

> df

   year      loc type sale

1  2001  beijing    A    1

2  2001  beijing    B    2

3  2001 shanghai    A    3

4  2001 shanghai    B    4

5  2002  beijing    A    5

6  2002  beijing    B    6

7  2002 shanghai    A    7

8  2002 shanghai    B    8

9  2003  beijing    A    9

10 2003  beijing    B   10

11 2003 shanghai    A   11

12 2003 shanghai    B   12

> tapply(df$sale, df[,c('year','loc')], sum)

      loc

year   beijing shanghai

  2001       3        7

  2002      11       15

  2003      19       23

> tapply(df$sale, df[,c('year','type')], sum)

      type

year    A  B

  2001  4  6

  2002 12 14

  2003 20 22

Reference

Andrew Lim

https://screamyao.wordpress.com/2011/05/03/various-apply-functions-in-r-explained/

https://nsaunders.wordpress.com/2010/08/20/a-brief-introduction-to-apply-in-r/

http://www.ats.ucla.edu/stat/r/library/advanced_function_r.htm#apply

原文地址：

http://www.cnblogs.com/aquastone/p/r-apply.html

【R.转载】apply函数族的使用方法的更多相关文章

R语言apply函数族笔记
为什么用apply 因为我是一个程序员,所以在最初学习R的时候,当成“又一门编程语言”来学习,但是怎么学都觉得别扭.现在我的看法倾向于,R不是一种通用型的编程语言,而是一种统计领域的软件工具.因此,不 ...
R中apply函数族
参考于:http://blog.fens.me/r-apply/ 1. apply的家族函数 2. apply函数 apply函数是最常用的代替for循环的函数.apply函数可以对矩阵.数据框.数组 ...
数据操作-apply函数族
R 作为一种向量化的编程语言,一大特征便是以向量计算替代了循环计算,使效率大大提升.apply函数族正是为解决数据循环处理问题而生的 -- 面向不同数据类型,生成不同返回值的包含8个相关函数的函数族. ...
掌握R语言中的apply函数族（转）
转自:http://blog.fens.me/r-apply/ 前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是 ...
使用 apply 函数族
之前,我们讨论过可以使用 for 循环,在一个向量或列表上进行迭代,重复执行某个表达式.但是在实践中,for 循环往往是最后的选择,因为每次迭代都是相互独立的,所以我们可以使用更简洁更方便的读写方式来 ...
android 工程里缺少 R.java 文件原因和解决方法
作为新手,学习android 的时候难免要导入一些示例,目的为了更加了解android各种API用法,顺便也可以学习下别人代码的写法. 可是导入android源码后,基本都有错误,R.java也不会自 ...
Android studio R文件丢失或错误解决方法
android studio中有时引用资源会出现R文件丢失或报错,大多数情况下是由于引入资源时R文件没有及时更新造成的 (在代码没有错误或资源引用没有错误的前提下) 注意:资源文件的文件名必须小写,即 ...
【转载】C#使用Trim方法去除字符串前后的所有空格
在C#语言程序开发过程中,很多时候需要对字符串对象的前后空格进行去除,此时就需要使用到Trim()方法来实现这个功能,Trim()方法可以快速去除字符串前端和后端的所有空格. 例如有个字符:strin ...
【转载】C#通过IndexOf方法判断某个字符串是否包含在另一个字符串中
C#开发过程中针对字符串String类型的操作是常见操作,有时候需要判断某个字符串是否包含在另一个字符串,此时可以使用IndexOf方法以及Contain方法来实现此功能,Contain方法返回Tru ...

随机推荐

MobileOA第一期总结
MobileOA第一期总结前段时间一直没有更新博客,好想给自己找个借口---恩,我还是多找几个吧.毕业论文.毕业照,再感伤一下,出去玩一下,不知不觉就过去几个月了.然后上个月底才重新回到学习之路,从 ...
读书笔记 effective c++ Item 24 如果函数的所有参数都需要类型转换，将其声明成非成员函数
1. 将需要隐式类型转换的函数声明为成员函数会出现问题使类支持隐式转换是一个坏的想法.当然也有例外的情况,最常见的一个例子就是数值类型.举个例子,如果你设计一个表示有理数的类,允许从整型到有理数的隐 ...
Angular开发者指南（一）入门介绍
什么是Angular AngularJS是动态Web应用程序的结构框架. 它允许您使用HTML作为模板语言,并允许您扩展HTML的语法以清晰,简洁地表达应用程序的组件.AngularJS的数据绑定和依 ...
javascript string对象方法总结
1.anchor() 用于创建html锚,也就是a标签,()中可以带参数,是a标签的name属性值. var string="hello world"; document.writ ...
Android SDK教程
Android SDK 网络问题解析 Android 客户端网络不稳定,会导致App 有时候无法及时收到 Push 消息. 很多开发者认为这是因为 JPush 推送不稳定.延迟,甚至有时候认为 JPu ...
CSS Sprites (css精灵)
CSS Sprites CSS Sprites在国内很多人叫css精灵,是一种网页图片应用处理方式.它允许你将一个页面涉及到的所有零星图片都包含到一张大图中去,这样一来,当访问该页面时,载入的图片就不 ...
联网html引用BootStrap
以下是我写的一个联网html引用BootStrap的例子,可作为参考: <%@ Page Language="C#" AutoEventWireup="true&q ...
oracle数据库命令-持续更新
一.系统命令登录 dba用户命令 sqlplus / as sysdba 2. 用户命令删除用户 DROP USER **** CASCADE; DROP SCHEMA **** CASCADE; ...
Macaca 自动化框架 [Python 系列]
介绍 Macaca是一套完整的自动化测试解决方案,基于node.js开发.由阿里巴巴公司开源: 地址:http://macacajs.github.io/macaca/ 特点: 同时支持PC端和移动端 ...
3297: [USACO2011 Open]forgot
3297: [USACO2011 Open]forgot Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 69 Solved: 51[Submit][ ...

【R.转载】apply函数族的使用方法