在R中整理数据】的更多相关文章

原始数据一般分散杂乱,并含有缺失和错误值,因此在进行数据分析前首先要对数据进行整理. 一.首先,了解原始数据的结构. 可使用如下函数(归属baseR)来查看数据结构: class(dataobject)  查看数据对象的类别 dim(dataobject)  查看数据的维度 names(dataobject)  查看列名 str(dataobject) 查看数据概要 glimpse(dataobject) 查看数据概要 二.将数据变得整洁 可使用下列函数(归属package: tidyr)整理数…
1.去除重复数据 函数:duplicated(x, incomparables = FALSE, MARGIN = 1,fromLast = FALSE, ...),返回一个布尔值向量,重复数据的第一个为FALSE,其他为TRUE. x可以是vector或data.frame.为data.frame时,数据的基本单位是行. 2.*apply系列 2.1以行或列为单位向函数传递参数:apply(X, MARGIN, FUN, ...),返回一个结果向量. x是数据,可以是矩阵,数据框.margin…
总结R中使用 xpath 和 css selectors 获取标签内容(xpath功能强大,而CSS选择器通常语法比较简洁,运行速度更快些) 例:抓取下面标签的内容: <h3 class="lister index unbold text"><span>小明他很忙</span></h3> (1)使用xpath(与python里使用xpath 相似,R中可以使用html_text() 获取标签中的内容,如"<span>…
熟悉MySQL的朋友可以使用sqldf来操作数据框 # 引入sqldf库(sqldf) library(sqldf) # 释放RMySQL库的加载(针对sqldf报错) #detach("package:RMySQL", unload=T) # 读取数据 data <- read.csv("data.csv") # sql查询 results <- sqldf("select distinct(name) from data") #…
上一篇中我们详细介绍推导了主成分分析法的原理,并基于Python通过自编函数实现了挑选主成分的过程,而在Python与R中都有比较成熟的主成分分析函数,本篇我们就对这些方法进行介绍: R 在R的基础函数中就有主成分分析法的实现函数princomp(),其主要参数如下: data:要进行主成分分析的目标数据集,数据框形式,行代表样本,列代表变量 cor:逻辑型变量,控制是否使用相关系数进行主成分分析 scores:逻辑型变量,控制是否计算每个主成分的得分 我们使用了R中自带的数据集USJudgeR…
在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方法进行总结: 1.描述性统计量部分 1.1 计算描述性统计量的常规方法 summary() summary()函数提供了最小值.最大值.四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计: > #挂载鸢尾花数据 > data(iris) > #计算鸢尾花各变量的基本描述统计量 &…
最近初学R语言,在R语言读入EXCEL数据格式文件的问题上遇到了困难,经过在网上搜索解决了这一问题,下面归纳几种方法,供大家分享: 第一:R中读取excel文件中的数据的路径: 假定在您的电脑有一个excel文件,原始的文件路径是:D:\work\data\1 如果直接把这个路径拷贝到R中,就会出现错误,原因是: \是escape character(转义符),\\才是真正的\字符,或者用/ 因此,在R中有两种方法读取该路径: 1:在R中输入一下路径:D:\\work\\data\\1     …
R语言数据导入  数据导入 1.保存和加载R的数据(与R.data的交互:save()函数和load()函数) a <- 1:10 save(a, file = "data/dumData.Rdata")  #data文件为当前工作目录下的文件,必须存在 rm(a) load("data/dumData.Rdata") print(a) 2.导入和加载.csv文件(write.csv()函数和read.csv()函数) var1 <- 1:5 var2…
在SQL server中对数据库的操作: 删除表:drop table 表名修改表:alter table 表名 添加列add 列名 列类型alter table 表名 drop column 列名 删除数据库drop database 数据库名 CRUD操作C——create 添加数据 R——read 读取数据 U——update 修改数据 D——delete 删除数据 1.添加数据insert into 表名 values('第一列值','第二列值')——数据库中用单引号 每一列都要添加 第…
用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份. 对应操作为:拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— year<-strsplit(case_data2$Date,split = "-") # strsplit函数将数据拆分成列表 year1<-]# 将列表转换为矩阵,提取第一列——年份 case_data2$year1<-year1 其他办法…