R语言高性能编程(二)】的更多相关文章

这段时间学习了<R高性能编程>这本书,基于这段时间做的项目实践,总结了一些自己的体会,和大家分享 一.为什么R程序有时候会很慢?1.计算性能的三个限制条件 cpu ram io R代码本身2.R是运行时解释的 在运行时解释并执行R代码3.R是单线程的 CPU的强大核心并没卵用,R只会只用一个4.R需要将全部数据加载到内存 处理的最大数据了取决于内存的限制 这里 linux相比于windows有一个优势,当我们试图装载一个可用内存大小的数据集数据可能会成功装载,不过一旦可用内存耗尽,操作系统会将…
一.使用并行计算加倍提升性能1.数据并行 VS 任务并行实现数据并行的算法scoket 并行性注意并行计算时间并不与执行任务的计算资源数目成正比(计算机核心),amdahl定律:并行代码的速度受限于串行执行的部分,包括并行性带来的开销在非windows系统中,parallel支持分叉集群(交叉法),新的work进程会从父R进程分叉出来,并拷贝数据.好处是不需要显示的创建和销毁集群实现任务并行的算法 2.计算机集群并行执行多个任务只有基于socket的集群可以做到这一点,因为进程不可能被分叉到另外…
接着上一篇 一.减少内存使用的简单方法1.重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块,只有当y被修改时才会复制到新的内存块,一般来说只要向量没有被其他对象引用,就可以正常修改,以避免复制向量带来的CPU和RAM开销.按照程序属于来说,R是按值传递,应该避免使用sort 类似的函数,会返回一个副本,资源开销至少和原对象一样大,甚至更大2.删除不在需要的中间数据注意 在调用rm()的时候,内存不会被立即释放并交还到操作系统,而是在必要的时候,或者当已删除对象的内存量超过…
R语言语法基础二 重塑数据 增加行和列 # 创建向量 city = c("Tampa","Seattle","Hartford","Denver") state = c("FL","WA","CT","CO") zipcode = c(33602, 98104, 06161, 80294) # 组合向量成数据帧 address1 = cbind(c…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据挖掘之道>的情感分析章节.本书中总结情感分析算法主要分为两种:词典型+监督算法型. 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证.可与博客对着看:R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等) ----------------…
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx = x1 + x2, meanx = (x1 + x2)/2) 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 == 严格等于(比较浮点类型时慎用,易误判) != 不等于 !x 非x x | y x或y x & y x和y isTRUE(x) x是否为TRUE…
1.help可以提供帮助,如help(nchar), help("[["),或者用?nchar也能获取帮助.example(nchar)可以获取到某个主题的使用方法. 2.nchar获取字符串的长度,nchar(x)返回x中每个字符串的长度,length获取向量的长度,区别如下: > nchar("hello") [1] 5 > nchar(3) [1] 1 > nchar(3000) [1] 4 > help(nchar) > nch…
1. 入门 将摄氏度转化为华氏度 >> 27*1.8+32 [1] 80.6 [1]:表示数字的向量索引号,在 R 语言中任何一个数字都看作一个向量. 向量化 >> temp <- c(27, 29, 23, 14) >> temp * 1.8 + 32 [1] 80.6 84.2 73.4 57.2 c()在这里是一个函数(combine 的缩写),而且是泛型函数,用于对参数的连接, c(..., recursive = FALSE) 再来看一个操作: >…
一.基于S3的面向对象编程 基于S3的面向对象编程是一种基于泛型函数(generic function)的实现方式. 1.S3函数的创建 S3对象组成:generic(generic FUN)+method(generic.class FUN) 泛型函数(generic)创建示例: get_n_elements <- function(x,...) { UseMethod("get_n_elements") } 通常用UseMethod()函数定义一个泛型函数的名称,通过传入参数…
一.R中数据结构 1.数据集 通常是由数据构成的一个矩形数组,行 表示 观测(记录.示例),列 表示 变量(字段.属性) 2.R中的数据结构 3.向量 c()可以用来创建向量 > a <- c(1,2,5,3,6,-2,4) > b <- c("one","two","three") > c <- c(TRUE,TRUE,TRUE,FALSE,TRUE,FALSE) 访问向量中的元素> a[c(2,4)]…