R语言中的factor

对于初学者来说，R语言中的factor有些难以理解。如果直译factor为“因子”，使得其更加难以理解。我倾向于不要翻译，就称其为factor，然后从几个例子中理解：

data <- c(1,2,2,3,1,2,3,3,1,2,3,3,1)
data

显示结果：

[1] 1 2 2 3 1 2 3 3 1 2 3 3 1

然后运行：

fdata <- factor(data)
fdata

显示结果：

[1] 1 2 2 3 1 2 3 3 1 2 3 3 1
Levels: 1 2 3

继续查看class

class(fdata)
[1] "factor"
class(data)
[1] "numeric"

可以看到，factor()函数将原来的数值型的向量转化为了factor类型。factor类型的向量中有Levels的概念。Levels就是factor中的所有元素的集合（没有重复）。我们可以发现Levels就是factor中元素排重后且字符化的结果！因为Levels的元素都是character。

levels(fdata)
[1] "1" "2" "3"

我们可以在factor生成时，通过labels向量来指定levels，继续上面的程序：

rdata <- factor(data,labels=c("I","II","III"))
rdata

显示结果：

[1] I II II III I II III III I II III III I
Levels: I II III

也可以在factor生成以后通过levels函数来修改：

rdata <- factor(data,labels=c("e","ee","eee"))
rdata

显示结果：

[1] e ee ee eee e ee eee eee e ee eee eee e
Levels: e ee eee

看到这里，我们马上就会意识到，为什么factor要有levels？因为factor是一种更高效的数据存储方式。对于不同的变量，只需要存储一次就可以，具体的数据内容只要存储相应的整数内容就可以了。因此，read.table()函数会默认把读取的数据以factor格式存储，除非你指定类型。

并且，factors可以指定数据的顺序：

mons <- c("March","April","January","November","January", "September","October","September","November","August", "January","November","November","February","May","August", "July","December","August","August","September","November", "February","April")<pre tabindex="0" class="GCWXI2KCJKB" id="rstudio_console_output" style="font-family: 'Lucida Console'; font-size: 10pt !important; outline: none; border: none; word-break: break-all; margin: 0px; -webkit-user-select: text; white-space: pre-wrap !important; line-height: 15px; color: rgb(0, 0, 0); font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: -webkit-left; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255);"><pre name="code" class="html">mons <- factor(mons)
<pre name="code" class="html">table(mons)

显示结果：

mons
April August December February January July March May November
2 4 1 2 3 1 1 1 5
October September
1 3

显然月份是有顺序的，我们可以为factor指定顺序

mons = factor(mons,levels=c("January","February","March","April","May","June","July","August","September","October","November","December"),ordered=TRUE)

现在运行：

table(mons)
mons
January February March April May June
3 2 1 2 1 0
July August September October November December
1 4 3 1 5 1

需要注意的是数值型变量与factor的互相转化：

fert = c(10,20,20,50,10,20,10,50,20)
mean(fert)
[1] 23.33333

转化后：

mean(factor(fert))
Warning message:
In mean.default(factor(fert)) : 参数不是数值也不是逻辑值：回覆NA

那我们这里，是不是可以直接用as.numeric() 转化呢？

mean(as.numeric(factor(fert)))
[1] 1.888889

发现上面是错误的！
这里需要这么转回去：

ff <- factor(fert)
mean(as.numeric(levels(ff)[ff]))
[1] 23.33333

R语言中的factor的更多相关文章

掌握R语言中的apply函数族（转）
转自:http://blog.fens.me/r-apply/ 前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是 ...
R语言中apply函数
前言刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算. 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言 ...
R语言中的MySQL操作
R语言中,针对MySQL数据库的操作执行其实也有很多中方式.本人觉得,熟练掌握一种便可,下面主要就个人的学习使用情况,总结其中一种情况-----使用RMySQL操作数据库. 1.下载DBI和RMySQ ...
R语言中的read.table()
参考资料:http://www.cnblogs.com/xianghang123/archive/2012/06/06/2538274.html read.table(file, header = F ...
R语言中 fitted()和predict()的区别
fitted是拟合值,predict是预测值.模型是基于给定样本的值建立的,在这些给定样本上做预测就是拟合.在新样本上做预测就是预测. 你可以找一组数据试试,结果如何. fit<-lm(weig ...
R语言中Fisher判别的使用方法
最近编写了Fisher判别的相关代码时,需要与已有软件比照结果以确定自己代码的正确性,于是找到了安装方便且免费的R.这里把R中进行Fisher判别的方法记录下来. 1. 判别分析与Fisher判别不 ...
R语言中的Apriori关联规则的使用
1.下载Matrix和arules包 install.packages(c("Matrix","arules")) 2.载入引入Matrix和arules包 # ...
R 语言中 data table 的相关，内存高效的增量式 data frame
面对的是这样一个问题,不断读入一行一行数据,append到data frame上,如果用dataframe, rbind() ,可以发现数据大的时候效率明显变低. 原因是每次bind 都是一次重新 ...
rugarch包与R语言中的garch族模型
来源:http://www.dataguru.cn/article-794-1.html rugarch包是R中用来拟合和检验garch模型的一个包.该包最早在http://rgarch.r-forg ...

随机推荐

[WebGL入门]十八，利用索引缓存来画图
注:文章译自http://wgld.org/.原作者杉本雅広(doxas),文章中假设有我的额外说明.我会加上［lufy:］.另外,鄙人webgl研究还不够深入,一些专业词语,假设翻译有误,欢迎大家指 ...
HTML杂记
1.URL uniform resource locator 遵循格式: scheme://host.domain:port/path/filename scheme - 定义因特网服务的类型.最常 ...
java集群优化——ORM框架查询优化原理
众所周知,当下的流行的企业级架构中,ORM一直是最基础的部分,在架构设计的底层.对逻辑层提供面向对象的操作支持,而事实总是和我们预想的有所偏差,ORM在提供了较好的操作体验时,也流失了一部分原生SQL ...
字符串匹配算法KMP算法
数据结构中讲到关于字符串匹配算法时,提到朴素匹配算法,和KMP匹配算法. 朴素匹配算法就是简单的一个一个匹配字符,如果遇到不匹配字符那么就在源字符串中迭代下一个位置一个一个的匹配,这样计算起来会有很多 ...
菜鸟调错（三）——Jboss与jdk版本不兼容导致WebService调用出错
环境: jdk1.6 Jboss 5.1.0.GA 问题描述: EJB发布webserivce已经成功,并且能够成功访问wsdl文件: 使用axis1自带的sample/client下的类Dynami ...
【小白的CFD之旅】25 二维还是三维
小白最近逛图书馆,发现最近关于Fluent的书是越来越多了,而且还发现这些关于Fluent教材中的案例都大同小异.小白接受小牛师兄的建议,找了一本结构比较鲜明的书照着上面的案例就练了起来.不过当练习的 ...
android alipay
"java.security.spec.InvalidKeySpecException" KeyFactory keyFactory =KeyFactory.getInstance ...
delphi 学习笔记的例子
由于360改变了共享策略,导致之前的共享连接不能使用重新共享了下. http://yunpan.cn/cgS2DBRT572jy (提取码:1eda)
Asp.Net IIS7.5伪静态设置
注意:先要将应用池设置为集成模式,修改OK后,再改成经典模式.否则,什么托管程序出不来. 1.新建网站,这里不做介绍,很简单.并把网站设置为集成模式 2.添加通配符脚本映射打开之后显示如下界面,在右 ...
listen的参数backlog的意义
实验环境:Ubuntu16.04,内核版本:4.4.0-59-generic 根据man listen得到的解释如下: backlog参数定义了存放pending状态(挂起.护着搁置)的连接的 ...

R语言中的factor

R语言中的factor的更多相关文章

随机推荐

热门专题