R语言实战读书笔记(四)基本数据管理
4.2 创建新变量
几个运算符:
^或**:求幂
x%%y:求余
x%/%y:整数除
4.3 变量的重编码
with():
within():可以修改数据框
4.4 变量重命名
包reshape中有个函数rename,可以改名 rename(df,c(manage='managerID',date='testDate'))
或
names(df)[2]<-'newname'
4.5 缺失值
is.na():检查缺失值,是返回TRUE,否返回FALSE
na.rm=TRUE选项可以用,比如
y<-sum(x,na.rm=TRUE)
移除缺失值
newdf<-na.omit(df)
4.6 日期值
as.Date():其中参数input_format的取值,真难记,默认日期是yyyy-mm-dd
%d:数字日期
%a:缩写的星期名
%A:非缩写的星期名
%m:00~12
%b:缩写的月份
%B:非缩写的月份
%y:两位年份
%Y:四位年份
Sys.Date():当前日期
date():返回当前日期和时间,为什么不好好起名字呢,非要叫Date和date
可以用format提取一些东西
today <- Sys.Date()
format(today, format = "%B %d %Y")
format(today, format = "%A")
日期可以相减
startdate <- as.Date("2004-02-13")
enddate <- as.Date("2009-06-22")
days <- enddate - startdate
也可以
today <- Sys.Date()
format(today, format = "%B %d %Y")
dob <- as.Date("1956-10-10")
format(dob, format = "%A")
4.6.1 将日期转换为字符型变量
as.character
4.7 类型转换
is.numeric --> as.numeric
is.character
is.vector
is.data.frame
is.factor
is.logical
4.8 数据排序
order()
newdata <- leadership[order(leadership$age), ] 这是升序,前面加个减号就是降序
newdata <- leadership[order(gender, -age), ] 这是按性别升序,年龄降序排序
4.9 数据集的合并
4.9.1 添加列
横向合并两个数据框,用merge()
newdf<-merge(dfA,dfB,by="ID")
newdf<-merge(dfA,dfB,by=c("ID","Country"))
如果不需要连接,用cbind就可以
4.9.2 添加行
rbind
4.10 数据集取子集
4.10.1 选入变量
选列
data<-df[,c(6:10)]
或按名称选择
myvars <- c("q1", "q2", "q3", "q4", "q5")
newdata <- leadership[myvars]
4.10.2 剔除变量
myvars <- names(leadership) %in% c("q3", "q4") 得到交集
newdata <- leadership[!myvars] 取反,结果等于去除了q3,q4
或者
newdata <- leadership[c(-7, -8)]
4.10.3 选入观测
which函数
4.10.4 subset
newdata <- subset(leadership, age >= 35 | age < 24, select = c(q1, q2, q3, q4))
newdata <- subset(leadership, gender == "M" & age > 25, select = gender:q4)
4.10.5 随机抽样
sample
sample<-df[sample(1:nrow*(df),3,replace=FALSE] 不放回抽样
4.11 使用SQL操作数据框
library(sqldf)
newdf <- sqldf("select * from mtcars where carb=1 order by mpg", row.names = TRUE)
newdf <- sqldf("select avg(mpg) as avg_mpg, avg(disp) as avg_disp,gear from mtcars where cyl in (4, 6) group by gear")
R语言实战读书笔记(四)基本数据管理的更多相关文章
- R语言实战读书笔记(五)高级数据管理
5.2.1 数据函数 abs: sqrt: ceiling:求不小于x的最小整数 floor:求不大于x的最大整数 trunc:向0的方向截取x中的整数部分 round:将x舍入为指定位的小数 sig ...
- R语言实战读书笔记(三)图形初阶
这篇简直是白写了,写到后面发现ggplot明显更好用 3.1 使用图形 attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合 ...
- R语言实战读书笔记(二)创建数据集
2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow ...
- R语言实战读书笔记1—语言介绍
第一章 语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") ...
- R语言实战读书笔记2—创建数据集(上)
第二章 创建数据集 2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字 ...
- R语言实战读书笔记(八)回归
简单线性:用一个量化验的解释变量预测一个量化的响应变量 多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性:用两个或多个量化的解释变量预测一个量化的响应变量 多变量: ...
- R语言实战读书笔记(六)基本图形
#安装vcd包,数据集在vcd包中 library(vcd) counts <- table(Arthritis$Improved)counts # 垂直barplot(counts, main ...
- R语言实战读书笔记(一)R语言介绍
1.3.3 工作空间 getwd():显示当前工作目录 setwd():设置当前工作目录 ls():列出当前工作空间中的对象 rm():删除对象 1.3.4 输入与输出 source():执行脚本
- R语言实战读书笔记(十三)广义线性模型
# 婚外情数据集 data(Affairs, package = "AER") summary(Affairs) table(Affairs$affairs) # 用二值变量,是或 ...
随机推荐
- WinInet:HTTPS 请求出现无效的证书颁发机构的处理
首先,微软提供的WinInet库封装了对网页访问的方法. 最近工作需要从https服务器获取数据,都知道https和http网页的访问方式不同,多了一道证书认证程序,这样就使得https在请求起来比h ...
- JDK各个版本下载页面
http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html 需 ...
- maven mirror repository
简单点来说,repository就是个仓库.maven里有两种仓库,本地仓库和远程仓库.远程仓库相当于公共的仓库,大家都能看到.本地仓库是你本地的一个山寨版,只有你看的到,主要起缓存作用.当你向仓库请 ...
- Appium下Android keyevent整理
keycode 3:首页(Home key) keycode 4:返回键(Back key) keycode 5:电话键(Call key) keycode 6:结束通话键(End Call key) ...
- CodeForces 1B Spreadsheets (字符串处理,注意细节,大胆尝试)
题目 注意模后余数为0时,要把除以26后的新数据减1,为什么这样,要靠大胆尝试.我在对小比赛中坑了一下午啊,直到比赛结束也没写出这道题....要死了.. #include<stdio.h> ...
- HTML5 webSQL
https://www.ibm.com/developerworks/cn/web/1108_zhaifeng_websqldb/ <!DOCTYPE HTML> <html&g ...
- D&F学数据结构系列——前驱和后继
前驱和后继 本文所述为二叉排序树的前驱和后继,如果想了解二叉排序树的概念,可以参考我的博文http://www.cnblogs.com/sage-blog/p/3864640.html 给定一个二叉查 ...
- C# static方法-使用迭代器循环遍历文件中的额行
//封装的方法 //读取文件的值,放入集合中 public static IEnumerable<string> ReadLines(string fileName) { using (T ...
- 关于Try/Catch 代码块
应当放在Try/Catch 代码块中的常见任务包括连接到一个数据库或与其交互.处理文件.调用Web 服务. 老实说,我这人很少有打破沙锅问到底的精神.不过昨晚听一技术人员跟他的项目经理说要在程序中使用 ...
- 跨平台的加密算法XXTEA 的封装
跨平台的加密算法XXTEA 的封装 XXTEA算法的结构非常简单,只需要执行加法.异或和寄存的硬件即可,且软件实现的代码非常短小,具有可移植性. 维基百科地址:http://en.wikipedia. ...