## 创建leadership数据框
manager <- c(1,2,3,4,5)
date <-c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")
country <- c("US","US","UK","UK","UK")
gender <- c("M","F","F","M","F")
age <- c(32,45,25,39,99)
q1 <- c(5,3,3,3,2)
q2 <- c(4,5,5,3,2)
q3 <- c(5,2,5,4,1)
q4 <- c(5,5,5,NA,2)
q5 <- c(5,5,2,NA,1)
leadership <- data.frame(manager,date,country,gender,age,q1,q2,q3,q4,q5,stringsAsFactors = FALSE)
leadership
##创建新变量
leadership <- transform(leadership,q6=q1+q2,q7=(q1+q2)/2)
##变量的重编码
leadership <- within(leadership,{
agecat <- NA
agecat[age>75] <- "Elder"
agecat[age >=55 & age <=75] <- "Middle Aged"
agecat[age <55] <- "Young"})
leadership
##变量的重命名
install.packages("plyr")
library(plyr)
leadership <- rename(leadership, c(manager="managerID",date="testDate"))
leadership
##缺失值
缺失值是不可比较的
缺失数据需在分析前重新编码为缺失值
is.na(leadership[,6:10])
##在分析中排除缺失值
含有缺失值的算术表达式和函数的计算结果也是缺失值
sum(q4,na.rm=T)
## na.omit()移除所有含有缺失值的观测
leadership
mydata <- na.omit(leadership)
mydata
##日期值
as.Date()函数 将以字符串形式输入R中的日期值转化为以数值形式存储的日期变量
myformat <- "%m/%d/%y"
leadership$testDate <- as.Date(leadership$testDate,myformat)
leadership
Sys.Date()#返回当天的日期
date()#返回当前的日期和时间
DOB <- as.Date("1997-08-21")
today <- Sys.Date()
difftime(today,DOB,units="weeks")
##类型转换
is.datatype() 允许根据数据的具体类型加以不同的方式处理
as.datatype() 分析前先将数据进行转化
##数据排序
order() 默认的排序顺序--升序
在排序变量前加一个减号即可得到降序的排序结果
newdata <- leadership[order(leadership$age),]
newdata
##数据集的合并
向数据框添加列 cbind() #不需要一个公共索引
向数据框添加行 rbind() #注意多余变量的处理
merge(dataframeA,dataframeB,by="") #横向合并,通过一个或多个共有变量进行联结
##数据集取子集
选入(保留)变量、剔除(丢弃)变量 #逻辑向量&比较运算符
选入观测
#subset()函数
newdata <- subset(leadership, age >= 35 | age < 24, select=q1:q4)
newdata

随机抽样:从数据集中(有放回或无放回地)抽取大小为n的一个随机样本
#sample()函数
mysample <- leadership[sample(1:nrow(leadership),3,replace=F),]
mysample

练习题

一.将1、2、...20构成两个5*4阶的矩阵,其中矩阵A是按列输入,矩阵B按行输入

1. 将A和B按照行合并;

2. 将A和B转化为数据框DA和DB,并将他们的列命名为("ID","A1","A2","A3");

3. 以”ID”为条件将DA和DB进行匹配;

4. 在DA中选取“A2”列大于12且小于15的子集。

A=matrix(1:20,nrow=5,byrow=F)
A
B=matrix(1:20,nrow=5,byrow=T)
B

#(1)
rbind(A,B)

#(2)
colnames(A)=c("ID","A1","A2","A3")
DA=data.frame(A)
DA
colnames(B)=c("ID","A1","A2","A3")
DB=data.frame(B)
DB

#(3)
merge(DA,DB,by="ID")

#(4)
newdata=subset(DA,A2>12&A2<15,select=ID:A3)
newdata

二.随机生成服从均值为2,标准差为3的正态分布的长度为5的向量x

  1. 将x降序排列,生成向量y
  2. 采用有放回抽样的方式从y中抽取3个元素
  3. 采用不放回抽样的方式,以概率prob=c(0.1,0.05,0.2,0.5,0.15)从中抽取3个元素。
#均值为2,标准差为3,长度为5的正态分布
x = rnorm(5,2,3)
x

#(1)
y=x[order(-x)]
y

#(2)
y[sample(1:5,3,replace=T)]
y

#(3)
y[sample(1:5,3,replace=F,prob=c(0.1,0.05,0.2,0.5,0.15))]
y

R语言—数据基础及练习的更多相关文章

  1. R语言语法基础二

    R语言语法基础二 重塑数据 增加行和列 # 创建向量 city = c("Tampa","Seattle","Hartford"," ...

  2. R语言数据接口

    R语言数据接口 R语言处理的数据一般从外部导入,因此需要数据接口来读取各种格式化的数据 CSV # 获得data是一个数据帧 data = read.csv("input.csv" ...

  3. R语言语法基础一

    R语言语法基础一 Hello world #这里是注释 myString = "hello world" print(myString) [1] "hello world ...

  4. R语言数据的导入与导出

    1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中. > a <- 1:10 > save(a,file='d://data/ ...

  5. R语言 数据重塑

    R语言数据重塑 R语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间R语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的 ...

  6. R语言数据预处理

    R语言数据预处理 一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date ...

  7. 最棒的7种R语言数据可视化

    最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在 ...

  8. 第五篇:R语言数据可视化之散点图

    散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制 ...

  9. 第四篇:R语言数据可视化之折线图、堆积图、堆积面积图

    折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先 ...

  10. R语言编程艺术(3)R语言编程基础

    本文对应<R语言编程艺术> 第7章:R语言编程结构: 第9章:面向对象的编程: 第13章:调试 ============================================== ...

随机推荐

  1. 组合式api-通过reactive和ref提供响应式数据

    在setup中如果是直接定义遍历数据并不是响应式数据,和vue2中的data选项提供的数据不一样,vue2的data中返回的数据全部都是响应式数据. <script setup> // 这 ...

  2. 聊聊流式数据湖Paimon(二)

    当前的问题 Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖:CDC 数据来自数据库.一般来说,分析需求是不会直接查询数据库的. 容易对 ...

  3. 编译安装openssl-1.1.1和openssh-9.4

    1.安装 openssl-1.1.1 先处理下opensll的版本,以免编译安装Openssh环境异常: yum remove openssl cd /opt wget https://www.ope ...

  4. Mybatis之TypeHandler使用教程

    引言 MyBatis 是一款优秀的持久层框架,它支持定制化 SQL.存储过程以及高级映射.MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集.MyBatis 可以使用简单的 ...

  5. 2023-10-11:用go语言,一个数字n,一定要分成k份, 得到的乘积尽量大是多少? 数字n和k,可能非常大,到达10^12规模。 结果可能更大,所以返回结果对1000000007取模。 来自华为

    2023-10-11:用go语言,一个数字n,一定要分成k份, 得到的乘积尽量大是多少? 数字n和k,可能非常大,到达10^12规模. 结果可能更大,所以返回结果对1000000007取模. 来自华为 ...

  6. 文心一言 VS 讯飞星火 VS chatgpt (50)-- 算法导论6.2 2题

    二.参考过程 MAX-HEAPIFY,写出能够维护相应最小堆的 MIN-HEAPIFY(A,i)的伪代码,并比较 MIN-HEAPIFY 与 MAX-HEAPIFY 的运行时间. 文心一言: MIN- ...

  7. SVN工具基础知识

    SVN工具基础知识 1.简介 1.全称Subversion,是一个开放源代码的版本控制系统,Subversion 在 2000 年由 CollabNet Inc 开发,现 在发展成为 Apache 软 ...

  8. 华为云弹性云服务器ECS搭建FTP服务实践

    摘要:在使用华为弹性云服务器ECS搭建FTP服务的时候,经常会遇到搭建完成后无法访问的问题.本篇通过演示windows IIS搭建FTP方法,讲解ftp主动模式.被动模式原理来说明无法访问的原因及解决 ...

  9. 当 BACnet 遇上 IoT,你将体验到不一样的大楼

    本文分享自华为云社区<当 BACnet 遇上 IoT>,作者:美码师zale . 引言 在十四五规划中,"新基建"无疑是倍受关注的重点领域.而关于"新基建&q ...

  10. 云图说|一张图看懂一站式DevOps利器——华为云DevCloud

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要: 华为云DevCl ...