R语言实战读书笔记(四)基本数据管理

4.2 创建新变量

几个运算符:

^或**：求幂

x%%y：求余

x%/%y：整数除

4.3 变量的重编码

with()：

within()：可以修改数据框

4.4 变量重命名

包reshape中有个函数rename，可以改名 rename(df,c(manage='managerID',date='testDate'))

或

names(df)[2]<-'newname'

4.5 缺失值

is.na()：检查缺失值，是返回TRUE，否返回FALSE

na.rm=TRUE选项可以用，比如

y<-sum(x,na.rm=TRUE)

移除缺失值

newdf<-na.omit(df)

4.6 日期值

as.Date()：其中参数input_format的取值，真难记，默认日期是yyyy-mm-dd

%d：数字日期

%a：缩写的星期名

%A：非缩写的星期名

%m：00~12

%b：缩写的月份

%B：非缩写的月份

%y：两位年份

%Y：四位年份

Sys.Date()：当前日期

date()：返回当前日期和时间，为什么不好好起名字呢，非要叫Date和date

可以用format提取一些东西

today <- Sys.Date()
format(today, format = "%B %d %Y")
format(today, format = "%A")

日期可以相减

startdate <- as.Date("2004-02-13")
enddate <- as.Date("2009-06-22")
days <- enddate - startdate

也可以

today <- Sys.Date()
format(today, format = "%B %d %Y")
dob <- as.Date("1956-10-10")
format(dob, format = "%A")

4.6.1 将日期转换为字符型变量

as.character

4.7 类型转换

is.numeric --> as.numeric

is.character

is.vector

is.data.frame

is.factor

is.logical

4.8 数据排序

order()

newdata <- leadership[order(leadership$age), ]　　这是升序，前面加个减号就是降序

newdata <- leadership[order(gender, -age), ]　　这是按性别升序，年龄降序排序

4.9 数据集的合并

4.9.1 添加列

横向合并两个数据框，用merge()

newdf<-merge(dfA,dfB,by="ID")

newdf<-merge(dfA,dfB,by=c("ID","Country"))

如果不需要连接，用cbind就可以

4.9.2 添加行

rbind

4.10 数据集取子集

4.10.1 选入变量

选列

data<-df[,c(6:10)]

或按名称选择

myvars <- c("q1", "q2", "q3", "q4", "q5")
newdata <- leadership[myvars]

4.10.2 剔除变量

myvars <- names(leadership) %in% c("q3", "q4")　　得到交集
newdata <- leadership[!myvars]　　取反，结果等于去除了q3,q4

或者

newdata <- leadership[c(-7, -8)]

4.10.3 选入观测

which函数

4.10.4 subset

newdata <- subset(leadership, age >= 35 | age < 24, select = c(q1, q2, q3, q4))
newdata <- subset(leadership, gender == "M" & age > 25, select = gender:q4)

4.10.5 随机抽样

sample

sample<-df[sample(1:nrow*(df),3,replace=FALSE] 不放回抽样

4.11 使用SQL操作数据框

library(sqldf)
newdf <- sqldf("select * from mtcars where carb=1 order by mpg", row.names = TRUE)
newdf <- sqldf("select avg(mpg) as avg_mpg, avg(disp) as avg_disp,gear from mtcars where cyl in (4, 6) group by gear")

R语言实战读书笔记(四)基本数据管理的更多相关文章

R语言实战读书笔记(五)高级数据管理
5.2.1 数据函数 abs: sqrt: ceiling:求不小于x的最小整数 floor:求不大于x的最大整数 trunc:向0的方向截取x中的整数部分 round:将x舍入为指定位的小数 sig ...
R语言实战读书笔记(三)图形初阶
这篇简直是白写了,写到后面发现ggplot明显更好用 3.1 使用图形 attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合 ...
R语言实战读书笔记(二)创建数据集
2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow ...
R语言实战读书笔记1—语言介绍
第一章语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") ...
R语言实战读书笔记2—创建数据集(上)
第二章创建数据集 2.1 数据集的概念不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字 ...
R语言实战读书笔记(八)回归
简单线性:用一个量化验的解释变量预测一个量化的响应变量多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式多元线性:用两个或多个量化的解释变量预测一个量化的响应变量多变量: ...
R语言实战读书笔记(六)基本图形
#安装vcd包,数据集在vcd包中 library(vcd) counts <- table(Arthritis$Improved)counts # 垂直barplot(counts, main ...
R语言实战读书笔记(一)R语言介绍
1.3.3 工作空间 getwd():显示当前工作目录 setwd():设置当前工作目录 ls():列出当前工作空间中的对象 rm():删除对象 1.3.4 输入与输出 source():执行脚本
R语言实战读书笔记(十三)广义线性模型
# 婚外情数据集 data(Affairs, package = "AER") summary(Affairs) table(Affairs$affairs) # 用二值变量,是或 ...

随机推荐

fiddler 新发现
就一句话,记录一下 urlreplace baidu.com taobao.com //Fiddler2\Scripts\SampleRules.js 这里发现的 case "urlrepl ...
修改MySQL数据库的密码
通过MySQL命令行,可以修改MySQL数据库的密码,下面就为您详细介绍该MySQL命令行,如果您感兴趣的话,不妨一看. 格式:mysql -u用户名 -p旧密码 password 新密码 1.给ro ...
深入浅出ES6（十三）：类 Class
作者 Jason Orendorff github主页 https://github.com/jorendorff 你可能觉得之前讲解的内容略显复杂,今天我们就讲解一些相对简单的内容,不再是生成器 ...
JMeter性能测试介绍学习一
上一节中,我们了解了jmeter的一此主要元件,那么这些元件如何使用到性能测试中呢.这一节创建一个简单的测试计划来使用这些元件.该计划对应的测试需求. 1)测试目标网站是fnng.cnblogs.co ...
一个Form中2个按钮，PHP后台如何判断提交的是哪一个按钮
方法一: <div class="container theme-showcase" role="main"> <form class=&qu ...
Linux下ps -ef和ps aux的区别及格式详解
Linux下显示系统进程的命令ps,最常用的有ps -ef 和ps aux.这两个到底有什么区别呢?两者没太大差别,讨论这个问题,要追溯到Unix系统中的两种风格, System V风格和BSD 风格 ...
【Apache运维基础(5)】Apache的Rewrite攻略（2）
简述 .htaccess文件(或者"分布式配置文件")提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录.作 ...
python下划线变量的含义
_xxx 不能用'from module import *'导入 __xxx__ 系统定义名字 __xxx 类中的私有变量名核心风格:避免用下划线作为变量名的开始. "单下 ...
深入理解MVC与MVP
http://www.cnblogs.com/seaky/archive/2011/04/06/1982533.html 在深入分析MVC和MVP之前,我们有必要回顾下经典的三层架构.分层是计算机学科 ...
qt之透明提示框（模拟qq）（非常漂亮）
Qt实现类似QQ的登录失败的提示框,主要涉及窗口透明并添加关闭按钮,以及图标和信息的显示等. 直接上代码: #include "error_widget.h" ErrorWidge ...

R语言实战读书笔记(四)基本数据管理

R语言实战读书笔记(四)基本数据管理的更多相关文章

随机推荐

热门专题