R 语言中 data table 的相关，内存高效的增量式 data frame

面对的是这样一个问题，不断读入一行一行数据，append到data frame上，如果用dataframe, rbind() ，可以发现数据大的时候效率明显变低。

原因是每次bind 都是一次重新整个数据集的重新拷贝

这个链接有人测试了各种方案，似乎给出了最优方案

http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner

library(data.table)

dt <- data.table(x=rep(,), y=rep(,))

tracemem(dt)

for(i in :) {

  dt[i,x := runif()]

  dt[i,y := rnorm()]

}

data table 可以说是必备的r package。

这也是我尝试多种方案后最终采用的办法。

这里有介绍data.table 的具体用法

http://cran.r-project.org/web/packages/data.table/data.table.pdf

有个问题，赋值一行难道用一定要用 dt[x, 1:100 := list(xx)] 这样？

注意RHS 等号右侧一定要是一个List，不能是vector

另外几个R 的技巧：

时常运行下gc()，回收内存（这就是为啥你workspace 没有object但内存仍然居高不下的原因）
部分大的object，可以单独save()，需要的时候Load，不要最后存在image 里
r中的hash package 很好用
并行我用的是 parallel包，简单易用

system.time(

{

  x <- :wb2.userNum

  cl <- makeCluster(, outfile='sim.log')

  clusterExport(cl, c("set_similarity","printf","wb2.follow2.set", "wb2.userNum"))

  results <- parLapply(cl, x, para_func_sim)

  print("results ok")

  wb2.follow.sim <- do.call('rbind', results)

  stopCluster(cl)

})

最后，多利用data table 的statistical 和apply系列函数，真的可以事半功倍！

R 语言中 data table 的相关，内存高效的增量式 data frame的更多相关文章

掌握R语言中的apply函数族（转）
转自:http://blog.fens.me/r-apply/ 前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是 ...
R语言中的factor
对于初学者来说,R语言中的factor有些难以理解.如果直译factor为“因子”,使得其更加难以理解.我倾向于不要翻译,就称其为factor,然后从几个例子中理解: <span style=& ...
R语言中apply函数
前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言 ...
C语言中float,double类型,在内存中的结构(存储方式)
C语言中float,double类型,在内存中的结构(存储方式)从存储结构和算法上来讲,double和float是一样的,不一样的地方仅仅是float是32位的,double是64位的,所以doubl ...
R语言中的MySQL操作
R语言中,针对MySQL数据库的操作执行其实也有很多中方式.本人觉得,熟练掌握一种便可,下面主要就个人的学习使用情况,总结其中一种情况-----使用RMySQL操作数据库. 1.下载DBI和RMySQ ...
R语言中的read.table()
参考资料:http://www.cnblogs.com/xianghang123/archive/2012/06/06/2538274.html read.table(file, header = F ...
R语言中Fisher判别的使用方法
最近编写了Fisher判别的相关代码时,需要与已有软件比照结果以确定自己代码的正确性,于是找到了安装方便且免费的R.这里把R中进行Fisher判别的方法记录下来. 1. 判别分析与Fisher判别不 ...
R语言中 fitted()和predict()的区别
fitted是拟合值,predict是预测值.模型是基于给定样本的值建立的,在这些给定样本上做预测就是拟合.在新样本上做预测就是预测. 你可以找一组数据试试,结果如何. fit<-lm(weig ...
R语言中的Apriori关联规则的使用
1.下载Matrix和arules包 install.packages(c("Matrix","arules")) 2.载入引入Matrix和arules包 # ...

随机推荐

!function(){}()和function(){}()区别
控制台打印结果如下所示,接下来看一下具体运行,参考https://swordair.com/function-and-exclamation-mark/: 让一个函数声明语句变成了一个表达式
testing
doctest_test.py def square(x): ''' 这里需要空格 >>> square(2) 4 啦啦 >>> square(3) 9 上不一行能 ...
洛谷 P4245 [模板]任意模数NTT —— 三模数NTT / 拆系数FFT(MTT)
题目:https://www.luogu.org/problemnew/show/P4245 用三模数NTT做,需要注意时间和细节: 注意各种地方要取模!传入 upt() 里面的数一定要不超过2倍 m ...
转：CURL库在程序中的运用浅析
CURL库在程序中的运用浅析-nk_ysg-ChinaUnix博客 http://blog.chinaunix.net/uid-22476414-id-3286638.html 这个目录的文章转载fr ...
Linux下的RTC子系统
转自:http://blog.csdn.net/weiqing1981127/article/details/8484268 实时时钟的作用主要是为操作系统提供一个可靠的时间,并在断电下,RTC时钟也 ...
bzoj5117
线段树先看前三个操作,都是区间修改,我们对于信息维护一个二元组(a,b),表示x=max(x+a,b),那么第一个操作就是(a,-inf),第二个是(-a,0),第三个是(-inf,a) 然后看查询 ...
StackOverFlow页面不正常，因为CDN被墙了
190.93.247.58 cdn.sstatic.net 198.252.206.140 sstatic.net http://stackoverflow.com/
<a href="#">什么意思
转自:https://zhidao.baidu.com/question/67668291.html <a href="#">是链接到本页,因为你有的时候需要有个链接的 ...
$.ajax数据传输成功却执行失败的回调函数
这个问题迷惑了我好几天,都快要放弃了,功夫不负有心人,最终成功解决,下面写一下我的解决方法. 我传的数据是json类型的,执行失败的回调函数是因为从后台传过来的数据不是严格的json类型,所以才会不执 ...
201621123016 《Java程序设计》第九周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 2. 书面作业本次作业题集集合 1. List中指定元素的删除(题集题目) 1.1 实验总结.并回答:列举至 ...

R 语言中 data table 的相关，内存高效的 增量式 data frame

R 语言中 data table 的相关，内存高效的 增量式 data frame的更多相关文章

随机推荐

热门专题

R 语言中 data table 的相关，内存高效的增量式 data frame

R 语言中 data table 的相关，内存高效的增量式 data frame的更多相关文章