R语言中list数据分割

2024-08-25

R语言：数据的分割-计算-整合（split-apply-aggregate）

当获取到原始数据时,我们通常的做法是对该数据进行分割成小片段,然后对各小片段进行计算统计,最后整合成最终的数据.这是统计学里数据处理的一般规律. R语言为我们提供了相应的函数来分别处理这三个阶段任务. 分割:split()和subset()函数. 计算:apply(),lapply(),tapply(),sapply() 整合:aggregate() 注意几点: 1.向量,矩阵,数组的长度就是它元素的个数,用length获取:而数据集,列表的长度则是它变量的个数,注意二者的不同. 实际上,向量和

掌握R语言中的apply函数族（转）

转自:http://blog.fens.me/r-apply/ 前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了.那么如何使用C的函数来实现向量计算呢,就是要用到apply的家族函数,包括apply, sapply, tapply, mapply, lapp

R语言中的factor

对于初学者来说,R语言中的factor有些难以理解.如果直译factor为“因子”,使得其更加难以理解.我倾向于不要翻译,就称其为factor,然后从几个例子中理解: <span style="font-size:12px;">data <- c(1,2,2,3,1,2,3,3,1,2,3,3,1) data </span> 显示结果: <span style="font-size:12px;"> [1] 1 2 2 3 1

R语言中apply函数

前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了.那么如何使用C的函数来实现向量计算呢,就是要用到apply的家族函数,包括apply, sapply, tapply, mapply, lapply, rapply, vapply, eapply等. 目录

R语言中的MySQL操作

R语言中,针对MySQL数据库的操作执行其实也有很多中方式.本人觉得,熟练掌握一种便可,下面主要就个人的学习使用情况,总结其中一种情况-----使用RMySQL操作数据库. 1.下载DBI和RMySQL包 install.packages(c("DBI","RMySQL")) 2.载入DBI和RMySQL包 library(DBI) library(RMySQL) 3.创建连接和设置字符集获取编码格式 # 创建数据库连接 con <- dbConnect(My

R语言中 fitted()和predict()的区别

fitted是拟合值,predict是预测值.模型是基于给定样本的值建立的,在这些给定样本上做预测就是拟合.在新样本上做预测就是预测. 你可以找一组数据试试,结果如何. fit<-lm(weight~height,data=women) fitted(fit) predict(fit,newdata=data.frame(height=90))##将90代入看结果如何这是R in action中的例子

R语言中Fisher判别的使用方法

最近编写了Fisher判别的相关代码时,需要与已有软件比照结果以确定自己代码的正确性,于是找到了安装方便且免费的R.这里把R中进行Fisher判别的方法记录下来. 1. 判别分析与Fisher判别不严谨但是通俗的说法,判别分析(Discriminant Analysis)是一种多元(多个变量)统计分析方法,它根据样本的多个已知变量的值对样本进行分类的方法.一般来说,判别分析由两个阶段构成——学习(训练)和判别.在学习阶段,给定一批已经被分类好的样本,根据它们的分类情况和样本的多个变量的值来学习

R语言中的Apriori关联规则的使用

1.下载Matrix和arules包 install.packages(c("Matrix","arules")) 2.载入引入Matrix和arules包 # 引入Matrix和arules包 library(Matrix) library(arules) 3.读取数据 # 读入数据 dataset <- mysql_find(sql) 4.数据转换 # 将数据框转为矩阵 dataset2 <- as.matrix(dataset) # 转换为交易流数

R 语言中 data table 的相关，内存高效的增量式 data frame

面对的是这样一个问题,不断读入一行一行数据,append到data frame上,如果用dataframe, rbind() ,可以发现数据大的时候效率明显变低. 原因是每次bind 都是一次重新整个数据集的重新拷贝这个链接有人测试了各种方案,似乎给出了最优方案 http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner library(data.table) d

rugarch包与R语言中的garch族模型

来源:http://www.dataguru.cn/article-794-1.html rugarch包是R中用来拟合和检验garch模型的一个包.该包最早在http://rgarch.r-forge.r-project.org上发布,现已发布到CRAN上.简单而言,该包主要包括四个功能: 拟合garch族模型 garch族模型诊断 garch族模型预测模拟garch序列拟合序列分布下面分别说一下. 一.拟合garch族模型拟合garch族模型分三个步骤:(1)通过ugarchspec

R语言中的read.table()

参考资料:http://www.cnblogs.com/xianghang123/archive/2012/06/06/2538274.html read.table(file, header = FALSE, sep = "", quote = "\"'", dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"

关于R语言中set.seed()

在r中取sample时候,经常会有set.seed(某数),经常看见取值很大,其实这里无论括号里取值是多少,想要上下两次取值一样,都需要在每次取值前输入同样的set.seed(某数),才能保证两次取值相同,从而保证让样本可重复. > set.seed(100) > x <- rnorm(5) > y <- rnorm(5) > x==y [1] FALSE FALSE FALSE FALSE FALSE > set.seed(1000) > x <-

R语言中的logical(0)和numeric(0)以及赋值问题

logical(0) 不等于 numeric(0).两者都不等于NULL值,即is.null(logical(0))和is.null(numeric(0))返还值都是FALSE.这很有意思,说明长度为零的值有时却不会别算为空值,但空值的定义却是函数中没有被赋值的参数,特征就是没有值.如何区分NULL和NA?很简单,后者的logical length是1,而前者的logical length是0,意思是假如用is.logical判断NA的逻辑值,得到的结果是TRUE.NA可以为正无穷或负无穷,但N

R语言中strptime返回值永远为NA的问题

调用前加上以下代码,即可解决 Sys.setlocale("LC_TIME", "C");

R语言中的if-else语句写法

结构 1 : if() xx else yy 一行: 结构 2: if() {xx} else {yy} 或者 if(){ xx }else #此处不能两行写 yy 结构3: { if else } 结构三括号中可以任意写

关于R语言中dnorm,pnorm,qnorm,rnorm的用法

dnorm,pnorm,qnorm,rnorm的表达式: 其中x和q是由数值型变量构成的向量,p是由概率构成的向量,n是随机产生的个数 mean是要计算正态分布的均值,缺省值为0,sd是计算正态分布的标准差, 缺省值为1 其中dnorm返回值是正态分布的概率密度函数其中pnorm返回的是正态分布的分布函数其中qnorm返回的是给定概率p后的下分位点其中rnorm返回的是由n个正态分布随机数构成的向量

R语言中abline和lines的区别

函数lines()其作用是在已有图上加线,命令为lines(x,y),其功能相当于plot(x,y,type="1")函数abline()可以在图上加直线,其使用方法有四种格式.(1)abline(a,b)表示画一条y=a+bx的直线(2)abline(h=y)表示画出一条过所有点得水平直线(3)abline(v=x)表示画出一条过所有点的竖直直线(4)abline(lm.obj)表示绘出线性模型得到的线性方程

R语言中的Single link和Complete link

下图表示A.B.C.D.E各点相互之间的距离一.Single link结果: 1.找A.B.C.D.E各点之间距离最短的 A和B为4,即AB连在一起(之后把它俩看成一个整体): 2.找除(第一步)以外的A.B.C.D.E各点之间距离最短的 D和E为8,即即DE连在一起(之后把它俩看成一个整体): 3.找除(第一.二步)以外的A.B.C.D.E各点之间距离最短的 B和C为8.1,即AB和C连在一起(之后把它三个看成一个整体): 4.最后把ABC和DE连在一起二.Complete-link 1.

转：C语言中的static变量和C++静态数据成员(static member)

转自:C语言中的static变量和C++静态数据成员(static member) C语言中static的变量:1).static局部变量 a.静态局部变量在函数内定义,生存期为整个程序运行期间,但作用域与自动变量相同,只能在定义该变量的函数内使用.退出该函数后, 尽管该变量还继续存在,但不能使用它. b.对基本类型的静态局部变量若在说明时未赋以初值,则系统自动赋予0值.而对自动变量不赋初值,则其值是不定的.2).static全局变量全局变量本身就是静

大数据工具比较：R 语言和 Spark 谁更胜一筹？

本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库背景介绍由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法.即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣. 你是否曾把一个机器学习的问题丢到R里运行,然后等上好几个小时?而仅仅是因为没有可行的替代方式,你只能耐心地等.所以是时候去看看Spark的机器学习了,它包含R语言大部分的功能,并且在数据转换和性能上优于R语言

C语言中的fread和fwrite

C语言中的fread和fwrite是专门用来操作文件的方法. 1. fread负责从打开的文件指针中读取文件内容. 函数原型:size_t fread(void *p, size_t size, size_t num, FILE *fp); 参数*p:一个指针,通常是字符串指针,也可以是一个数组,用来存放从文件流中读取的数据: 参数size:表示读取一个单位元素的大小,以字节为单位,比如sizeof(char)或者sizeof(int)等: 参数num:表示一次单位元素的数量,和size参数一样

R语言中list数据分割

热门专题