R语言之内存管理

转载于：http://blog.csdn.net/hubifeng/article/details/41113789

在处理大型数据过程中，R语言的内存管理就显得十分重要，以下介绍几种常用的处理方法。

1，设置软件的内存

memory.size(2048) #设置内存大小
memory.size(NA) #查看当前设置下最大内存(?"Memory-limits")
#or memory.limit()
memory.size(F) #查看当前已使用的内存
#or
library(pryr)
mem_used()
mem_change(x <- 1:1e6) #查看执行命令时内存的变化
memory.size(T) #查看已分配的内存

注意刚开始时已使用内存和已分配内存是同步增加的，但是随着R中的垃圾被清理，已使用内存会减少，而已分配给R的内存一般不会改变。

2，对象的存储

R中的对象在内存中存于两种不同的地方，一种是堆内存（heap），其基本单元是“Vcells”，每个大小为8字节，新来一个对象就会申请一块空间，把值全部存在这里，和C里面的堆内存很像。第二种是地址对（cons cells），和LISP里的cons cells道理一样，主要用来存储地址信息，最小单元一般在32位系统中是28字节、64位系统中是56字节。

[plain] view
plain copy

ls() #查看当前对象
object.size() 查看对象所占内存
#or
library(pryr)
object_size() #区别于前者，它进行了换算

1)新建对象分配合适的内存

R会将新的对象存储在“连续”的内存中，如果没有这样的空间就会返回“Cannot allocate vector of size...” 的错误，有以下几种处理方法:

a) 如果有多个矩阵需要存储，确保优先存储较大的矩阵，然后依次存储较小的矩阵.

b) 预先分配合适的内存.

大家都知道R中矩阵的维度并不需要赋一个固定的值（很多语言的数组长度不能为变量），这为写程序带来了极大的方便，因此经常在循环中会出现某个矩阵越来越长的情况，实际上，矩阵每增长一次，即使赋给同名的变量，都需要新开辟一块更大的空间，假设初始矩阵为100K，第二个为101K，一直增到120K，那么，将会分别开辟100K、101K一直到120K的连续堆内存，如果一开始就开一块120K的，使之从101K逐渐增长到120K，将会大大地节约内存。cbind函数也是这个道理，所以在循环中要注意不要滥用。

c) 换到64位的计算机，这种问题较少出现.

2)改变当前对象的存储模式

例如某个矩阵默认就是"double"的，如果这个矩阵的数值都是整数甚至0-1，完全没必要使用double来占用空间，可以将其改为整数型，可以看到该对象的大小会变为原来的一半。

[plain] view
plain copy

storage.mode(x) #查看对象的存储模式
storage.mode(x) <- "integer" #整数型存储模式

3)清理中间对象

[plain] view
plain copy

rm() #删除变量的引用，经常用它来清理中间对象，其中比较重要的文件可以存在硬盘里，比如csv文件或者RSqlite等
gc() #清理内存空间

4)清理其他对象

.ls.objects() #查看内存消耗较大的文件，并处理掉其他无关对象.代码如下:

[plain] view
plain copy

.ls.objects <- function (pos = 1, pattern, order.by = "Size", decreasing=TRUE, head = TRUE, n = 10) {
napply <- function(names, fn) sapply(names, function(x)
fn(get(x, pos = pos)))
names <- ls(pos = pos, pattern = pattern)
obj.class <- napply(names, function(x) as.character(class(x))[1])
obj.mode <- napply(names, mode)
obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class)
obj.size <- napply(names, object.size) / 10^6 # megabytes
obj.dim <- t(napply(names, function(x)
as.numeric(dim(x))[1:2]))
vec <- is.na(obj.dim)[, 1] & (obj.type != "function")
obj.dim[vec, 1] <- napply(names, length)[vec]
out <- data.frame(obj.type, obj.size, obj.dim)
names(out) <- c("Type", "Size", "Rows", "Columns")
out <- out[order(out[[order.by]], decreasing=decreasing), ]
if (head)
out <- head(out, n)
out
}

3，修改存储地址

这部分可参考文献1。在xp系统上试了一下，得到的存储地址总是不变，不知道xp系统上有没有效...

4，选取数据集的子集

这是没有办法的办法，迟早要处理全部的数据，不过可以借此调试代码或是建模，如在合适的地方清理中间对象

5，写成脚本文件

Hadley Wickham 建议写成脚本文件，运行后再清理掉临时文件

6，使用SOAR包

它可以将特定对象存储为RData文件并无需加载到内存就能进行分析

[plain] view
plain copy

r = data.frame(a=rnorm(10,2,.5),b=rnorm(10,3,.5))
library(SOAR)
Sys.setenv(R_LOCAL_CACHE=”testsession”)
ls()
Store(r)
ls()
mean(r[,1])
r$c = rnorm(10,4,.5)
ls()

7，一个有趣的函数

它会告诉你哪一行的代码消耗了多少时间、内存，释放多少内存，复制了多少向量.

[plain] view
plain copy

library(devtools)
devtools::install_github("hadley/lineprof")
library(lineprof)
source("D:/myprojects/project1/read-delim.R")
prof <- lineprof(read_delim("D:/myprojects/project1/diamonds.csv"))
shine(prof)

Reference:

1.点击打开链接

2.点击打开链接

3.点击打开链接

4.点击打开链接

More Reference:

点击打开链接

R语言之内存管理的更多相关文章

JVM内存管理------JAVA语言的内存管理概述
引言内存管理一直是JAVA语言自豪与骄傲的资本,它让JAVA程序员基本上可以彻底忽略与内存管理相关的细节,只专注于业务逻辑.不过世界上不存在十全十美的好事,在带来了便利的同时,也因此引入了很多令人抓 ...
C语言的内存管理
C语言的内存管理转载:http://blog.csdn.net/wind19/article/details/5964090 对于一个C语言程序而言,内存空间主要由五个部分组成代码段(.text ...
C语言堆内存管理上出现的问题，内存泄露，野指针使用，非法释放指针
C语言堆内存管理上出现的问题,内存泄露,野指针使用,非法释放指针 (1)开辟的内存没有释放,造成内存泄露 (2)野指针被使用或释放 (3)非法释放指针 (1)开辟的内存没有释放.造成内存泄露,以下的样 ...
JVM内存管理之JAVA语言的内存管理概述
引言内存管理一直是JAVA语言自豪与骄傲的资本,它让JAVA程序员基本上可以彻底忽略与内存管理相关的细节,只专注于业务逻辑.不过世界上不存在十全十美的好事,在带来了便利的同时,也因此引入了很多令人抓 ...
c语言之内存管理
在计算机系统,特别是嵌入式系统中,内存资源是非常有限的.尤其对于移动端开发者来说,硬件资源的限制使得其在程序设计中首要考虑的问题就是如何有效地管理内存资源.本文是作者在学习C语言内存管理的过程中做的一 ...
C语言精华——内存管理，很多学校学习不到的知识~
在编写程序时,通常并不知道需要处理的数据量,或者难以评估所需处理数据量的变动程度.在这种情况下,要达到有效的资源利用--使用内存管理,必须在运行时动态地分配所需内存,并在使用完毕后尽早释放不需要的内存 ...
C语言回顾-内存管理和指针函数
1.fgets()函数该函数是一个文件操作相关的函数暂时使用这个函数可以从键盘上接收一个字符串,保存到数组中 char str[50]; 1)scanf("%s",str);/ ...
[Objective-C语言教程]内存管理（36）
内存管理是任何编程语言中最重要的过程之一.它是在需要时分配对象的内存并在不再需要时取消分配的过程. 管理对象内存是一个性能问题; 如果应用程序不释放不需要的对象,则应用程序会因内存占用增加并且性能受损 ...
C语言讲义——内存管理
动态分配内存动态分配内存,在堆(heap)中分配. void *malloc(unsigned int num_bytes); 头文件 stdlib.h或malloc.h 向系统申请分配size个字 ...

随机推荐

svn基本操作和图标介绍
注意事项: .svn这个隐藏目录记录着两项关键信息:工作文件的基准版本和一个本地副本最后更新的时间戳,千万不要手动修改或者删除这个.svn隐藏目录和里面的文件!!,否则将会导致你本地的工作拷贝( ...
CentOS7系统配置国内yum源和epel源
1.首先进入/etc/yum.repos.d/目录下,新建一个repo_bak目录,用于保存系统中原来的repo文件 [root@bogon ~]# cd /etc/yum.repos.d/ [roo ...
ABP官方文档翻译 9.2 Entity Framework Core
Entity Framework Core 介绍 DbContext 配置在Startup类中在模块PreInitialize方法中仓储默认仓储自定义仓储应用程序特定基础仓储类自定义仓储 ...
appium+python环境搭建
一.环境 1.安装python. 2.安装appium. 3.安装pip 4.安装selenium 5.安装Appium-Python-Client #cmd->cd setupto ...
POJ 3689 Apocalypse Someday [数位DP]
Apocalypse Someday Time Limit: 1000MS Memory Limit: 131072K Total Submissions: 1807 Accepted: 87 ...
python实现时间o(1)的最小栈
这是毕业校招二面时遇到的手写编程题,当时刚刚开始学习python,整个栈写下来也是费了不少时间.毕竟语言只是工具,只要想清楚实现,使用任何语言都能快速的写出来. 何为最小栈?栈最基础的操作是压栈(pu ...
request、response的setCharacterEncoding与response的setContentType
一.request中的setCharacterEncoding方法:作用是用指定的编码集去覆盖request对象中的默认的"ISO-8859-1"编码集,如"UTF-8& ...
【笔记】h5 页面唤起电话呼叫
参考文章:https://www.cnblogs.com/lilin1995/p/5640684.html 最近完成一个公司的官网移动端页面,涉及到了唤起电话这个功能,说实在js 并没有为此提供 ap ...
Properties工具类
/** * 加载Properties文件 * @param path Properties文件路径 * @return */ private static Properties getClasspat ...
LocalMaxima_NOI导刊2009提高（1）
先打表,发现$ans=\sum_{i=1}^n\frac{1}{i}$ 对于小数据可以直接打表数据很大时,精度相对就比较宽松欧拉-马斯刻若尼常数=调和级数-自然对数调和级数为:\(\sum_ ...

R语言之内存管理

R语言之内存管理的更多相关文章

随机推荐

热门专题