上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作

首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame( )的具体用法:

Usage
data.frame(..., row.names = NULL, check.rows = FALSE,
check.names = TRUE, fix.empty.names = TRUE,
stringsAsFactors = default.stringsAsFactors())
default.stringsAsFactors()
Arguments
... :these arguments are of either the form value or tag = value. Component names are created based on the tag (if present) or the deparsed argument itself.
row.names :NULL or a single integer or character string specifying a column to be used as row names, or a character or integer vector giving the row names for the data frame.

当然,后面还有很多参数的具体用法,在此不做一一赘述,主要用到的就是前两个。首先,“...”代表了表格数据,就是要构成数据框的数据主体,row.names( )为要构成数据框的行名,那么既然数据框相当于R语言的一个表格,应该既有行名也有列名才对,那么列名又是如何给出的呢?我们知道,很多的数据处理软件以及算法是以数据的列为单位进行的,之前我们构建矩阵的时候,默认也是按列填充(byrow=FALSE),而列名在创建数据框开始我们就已经确定好了的。详见下面代码:

我想要创建一个名为“mydataframe”的数据框,首先确定数据框里面的列有哪些,然后调用函数data.frame( )函数

> C1 <-c(1,2,3,4)
> C2 <-c(5,6,7,8)
> C3 <-c(9,10,11,12)
> C4 <-c(13,14,15,16)
> C5 <-c(17,18,19,20)
> mydataframe <- data.frame(C1,C2,C3,C4,C5,row.names = c("R1","R2","R3","R4"))
> mydataframe
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20

由此可见,数据框是把现有的列拼接成一个表格的一种数据结构,细心的朋友会发现,这个数据框怎么跟上节我们讲过的矩阵长得那么一样!!!再回顾一下上节的矩阵创建:

> mydata <- c(1:20)
> cnames <- c("C1","C2","C3","C4","C5")
> rnames <- c("R1","R2","R3","R4")
> myarray <- matrix(mydata,nrow = 4,ncol = 5,dimnames = list(rnames,cnames))
> myarray
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20

确实,从长相上来说分不出差别,但是矩阵里面的元素必须一致,而数据框可以是各种类型数据的集合这种集合不是无条件乱七八糟的集合,而是以列为单位,不同列的元素类型可以不同,但是同一列的元素类型必须一致。因此,矩阵可以看做特殊的数据框类型那么这么做有什么意义呢?在数据统计中,我们需要有各种各样类型的数据,就拿简单的成绩单来说,就包含了“姓名”,“学号”,“科目”等字符型元素,也包括“分数”等数值型元素,还有“是否通过”等布尔型元素,因此,从广泛意义上来说,dataframe更具有普适性,矩阵多用在数学计算中。说归说,我们来实际创建一个数据框,然后再演示一下它的具体操作:

> names <- c("小明","小红","小兰")
> StudentID <- c("2014","2015","2016")
> subjects <- c("英语","英语","英语")
> scores <- c(87,98,93)
> Result <- data.frame(StudentID,names,subjects,scores)
> Result
StudentID names subjects scores
1 2014 小明 英语 87
2 2015 小红 英语 98
3 2016 小兰 英语 93

由上可见,当没有给数据框指定行名的时候,系统会默认从1开始给每行一个行号,这跟Excel表格有点类似。 还是同往常一样,我们先学习dataframe数据类型的基本操作

数据框元素的访问:既然矩阵是特殊的数据框,那么矩阵元素的访问方式应该也同样适用于dataframe吗?不是这样,我们知道,数据框是以行或者列为单位(行列可以转置),因此访问元素时只能整行或者整列访问。即dataframe[1,](访问第一行),dataframe[,1](访问第一列)采用这种方式访问列时,返回值是按行排列的形式。访问列同样也可以直接使用dataframe(1)访问第一列,或者dataframe(列名)来访问指定的列。也可以连续访问若干列,详见代码:

> Result[1,] #访问第一行
StudentID names subjects scores
1 2014 小明 英语 87
> Result[,1] #访问第一列
[1] 2014 2015 2016
Levels: 2014 2015 2016
> Result[1] #访问第一列
StudentID
1 2014
2 2015
3 2016
> Result["names"] #访问指定标号的列
names
1 小明
2 小红
3 小兰 > Result[1:3,]  #访问1-3行
StudentID names subjects scores
1 2014 小明 英语 87
2 2015 小红 英语 98
3 2016 小兰 英语 93
> Result[1:3]  #访问1-3列
StudentID names subjects
1 2014 小明 英语
2 2015 小红 英语
3 2016 小兰 英语
> Result[c(1,3),]  #只访问1,3行,注意写法 c( )
StudentID names subjects scores
1 2014 小明 英语 87
3 2016 小兰 英语 93
> Result[c(1,4)]  #只访问1,4列,注意写法 c( )
StudentID scores
1 2014 87
2 2015 98
3 2016 93
> Result[c("names","scores")]  #只访问names和scores列,注意写法 c( )
names scores
1 小明 87
2 小红 98
3 小兰 93

由上可得:对数据框操作,必须以向量为单位,使用c( ) or list( ),通过上述了解,我们发现,普通的访问必须带着行名和列名,这有的时候给我们带来不必要的麻烦,比如我要计算成绩平均值,带上列名Score会给我们带来一些困惑,于是有哪些方法可以在访问数据库元素时不带着行名或者列名呢?

方法一:用attach和detach函数,比如要打印所有names,那么可以写成:

> attach(Result)
The following objects are masked _by_ .GlobalEnv:
names, scores, StudentID, subjects
The following objects are masked from Result (pos = 3):
names, scores, StudentID, subjects
> name <- names
> score <-scores
> detach(Result)
> name
[1] "小明" "小红" "小兰"
> score
[1] 87 98 93
> mean(score)
[1] 92.66667

方法二:用with函数

> with(Result,{score <- scores})
> score
[1] 87 98 93

上面谈到了dataframe的创建和读取,如果我需要添加或者删除某一列该怎么办呢?

> Result$age<-c(12,14,13)  #添加age列
> Result
StudentID names subjects scores age
1 2014 小明 英语 87 12
2 2015 小红 英语 98 14
3 2016 小兰 英语 93 13
> Result2 <- Result[-2]  #删除name列
> Result2
StudentID subjects scores age
1 2014 英语 87 12
2 2015 英语 98 14
3 2016 英语 93 13

如果我需要查询成绩等于98的学生的信息该怎么办呢?

> Result[which(Result$scores==98),]
StudentID names subjects scores age
2 2015 小红 英语 98 14

上面说过了,矩阵和数据框也是两种不同的数据类型,我们知道数据类型之间可以互相转换,用is.***( )可以判断某个变量是否为***类型,用as.***( )则将某个变量转换为***类型。那么相应的,矩阵转换为数据框类型则应为:

> myarray
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20
> myarrayframe <- as.data.frame(myarray)
> myarrayframe
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20
> is.data.frame(myarray)
[1] FALSE
> is.data.frame(myarrayframe)
[1] TRUE

跟矩阵matrix操作一样,数据框也有rbind和cbind函数,用法大致相同,有兴趣的朋友可以简单联系一下,这里不再赘述。

最后,我们来谈一下数据框数据处理操作:

上面我们讲到,利用dataframe[ 列号 ]或者dataframe[ 列值 ]可以读取数据框的某一列,返回值仍为数据框类型,但是这部分数据不方便直接利用我们之前讲过的求和,求平均值等方法进行计算分析,因为读取的数据带有“行名/列名”,这个为字符型变量。有的人会问,我在创建数据框的时候,不加行名和列名不就行了?第一,在创建数据框的时候,会默认给你分配行名或者列名,第二,就算不分配行名或者列名,那数据框创建起来还有什么意义?

> mydataframe
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20
> mydataframe["C4"]
C4
R1 13
R2 14
R3 15
R4 16
> mean(mydataframe["C4"])
[1] NA
Warning message:
In mean.default(mydataframe["C4"]) : 参数不是数值也不是逻辑值:回覆NA
> is.data.frame(mydataframe["C4"])
[1] TRUE

方法一:将数据框格式重新转化为矩阵格式,然后按照矩阵索引的方式来找寻要处理的数据组,利用矩阵或者向量中相关函数来进行一定的数据处理。

> myarray2 <- as.matrix(mydataframe)
> is.matrix(myarray2)
[1] TRUE
> myarray2
C1 C2 C3 C4 C5
R1 1 5 9 13 17
R2 2 6 10 14 18
R3 3 7 11 15 19
R4 4 8 12 16 20
> x <- myarray[,3] #读取第3列的值
> x
R1 R2 R3 R4
9 10 11 12
> is.vector(x) #查看x是否为向量类型
[1] TRUE
> mean(x)
[1] 10.5
> sum(x)
[1] 42

方法二:在读取数据框列的时候换用另外一种方法,dataframe$(行名或者列名),返回值是vector类型

> c <- mydataframe$C3
> c
[1] 9 10 11 12
> is.vector(c)
[1] TRUE
> mean(c)
[1] 10.5
> sum(c)
[1] 42

同时,也可以利用dataframe$(新的列名) <- 新的向量,来给dataframe添加新的列,具体操作如下:

> mydataframe$sum <- mydataframe$C1 +mydataframe$C4
> mydataframe$mean <- (mydataframe$C1+mydataframe$C4)/2
> mydataframe
C1 C2 C3 C4 C5 sum mean
R1 1 5 9 13 17 14 7
R2 2 6 10 14 18 16 8
R3 3 7 11 15 19 18 9
R4 4 8 12 16 20 20 10

最推崇的是下一种方法,直接利用transform函数组建新的数据框,具体用法如下:

> x1 <- mydataframe$C1
> x2 <- mydataframe$C3
> mydataframe2 <- transform(mydataframe,sum2=x1+x2,mean2=(x1+x2)/2)
> mydataframe2
C1 C2 C3 C4 C5 sum mean sum2 mean2
R1 1 5 9 13 17 14 7 10 5
R2 2 6 10 14 18 16 8 12 6
R3 3 7 11 15 19 18 9 14 7
R4 4 8 12 16 20 20 10 16 8

R 语言的Dataframe常用操作的更多相关文章

  1. R语言 入门知识--常用操作和例子

    1 R的下载.安转   (转)R有很多的版本,支持目前主流的操作系统MAC.Linux和WINDOWS系列.因为我个人是在WINDOWS下用R的,所以在这里将只介绍WINDOWS下R的下载&安 ...

  2. R语言文件相关的操作

    1. 文件系统介绍 R语言对文件系统的操作,包括文件操作和目录操作,函数API都定义在base包中. 2. 目录操作 2.1 查看目录 查看当前目录下的子目录. # 启动R程序 ~ R # 当前的目录 ...

  3. R语言之数据处理常用包

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...

  4. r语言与dataframe

    什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量. 没错,DataFrame就是类似于Excel表 ...

  5. R语言进行文件夹操作示例(转)

    rm(list=ls())path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A& ...

  6. R语言把DataFrame的一行变成向量

    在R语言里面,DataFrame的一列数据本质上可以认为是一个向量或列表,但是一行数据不是. 今天有一个31列的数据集,由于放在第一行的变量名格式不规范,读入数据的时候不能顺带读入变量名.于是跳过首行 ...

  7. pyspark dataframe 常用操作

    spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持.   在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库.   首先加 ...

  8. Pandas 之 DataFrame 常用操作

    import numpy as np import pandas as pd This section will walk you(引导你) through the fundamental(基本的) ...

  9. R语言描述性统计常用函数

随机推荐

  1. 如何通过REST API登录Portal for ArcGIS

    Portal for ArcGIS 提供了两种登录方式:OAuth 2.0和传统的token登录方式. OAuth 2.0的登录原理在之前的一篇文章中已经描述,所以今天就不重复了.下面将介绍对于不支持 ...

  2. 解决webview调用 goBack() 返回上一页自动刷新闪白的情况

    问题是:重写了onKeyDown()方法使其goBack(),但是遇到的问题是,每次进入webview再次返回原始页面的时候,中间会有一个闪白的出现. 试了好多网上的方法,发现都是扯淡. 后来意识到, ...

  3. go语言练习:条件语句和循环语句

    1.for循环+if条件语句简单例子: package main import "fmt" func main() { var a int for a = 0; a <= 2 ...

  4. go语言练习:幂、函授接收和返回参数、转义字符、变量和常量

    1.实现a^b次方 package main func main() { r2 := power1(2,4) println(r2) } func power1(a uint64, b uint64) ...

  5. Unix操作系统监控详解(一)

    一.描述 监控在检查系统问题运行状况以及优化系统性能工作上是一个不可缺少的部分.通过操作系统监控工具监视操作系统资源的使用情况,间接地反映了各服务器程序的运行情况.根据运行结果分析可以帮助我们快速定位 ...

  6. 使用Doxygen生成C#帮助文档

    一. 什么是Doxygen? Doxygen 是一个程序的文件产生工具,可将程序中的特定批注转换成为说明文件.通常我们在写程序时,或多或少都会写上批注,但是对于其它人而言,要直接探索程序里的批注,与打 ...

  7. java读取txt文件的2中方法---并将内容(每一行以固定的字符分割切成2段)存到map中去

    #java读取txt文件的第一种方法 /** * 方法:readTxt * 功能:读取txt文件并把txt文件的内容---每一行作为一个字符串加入到List中去 * 参数:txt文件的地址 * 返回: ...

  8. python set集合一些基本方法

    set集合是一个无序且不重复的元素集合 这个数据类型没有重复的,而且也没有顺序 一些基本的方法: 添加元素 s1 = {11, 22, 33} s1.add(123)#添加一个新的元素 print(s ...

  9. MySQL基础之 AUTO_INCREMENT

    AUTO_INCREMENT AUTO_INCREMENT是mysql唯一扩展的完整性约束,当为数据库表中插入新纪录时,字段上的值会自动生成唯一的ID,再具体设置AUTO_INCREMENT约束时,一 ...

  10. October 19th 2017 Week 42nd Thursday

    If you remember me, then I don't care if everyone else forgets. 只要你记得我,我不介意整个世界都把我遗忘了. I can't follo ...