R(5): sql 数据处理

sqldf程序包是R语言中实用的数据管理辅助工具，但最新版本的包在处理中文时出现乱码，待解决

Usage: sqldf(x, stringsAsFactors = FALSE, row.names = FALSE...)

row.names: 为True时，行名重命名不重新命名
需安装sqldf 包： install.packages("sqldf")

加载如下包：

library(gsubfn)

library(proto)

library(RSQLite)

library(DBI)

library(tcltk)

library(sqldf)

取前几行数据示例

> x <-head(iris,2)

> y <- sqldf("select * from iris limit 2")

> #比较两个数据框是否相同

> identical(x,y)

[1] TRUE

> y

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1          5.1         3.5          1.4         0.2  setosa

2          4.9         3.0          1.4         0.2  setosa

like提取数据子集

> #取出物种列中以se开头的数据子集

> a2r <- subset(iris, grepl("^se", Species))

> a2s <- sqldf("select * from iris where Species like 'se%'")

> all.equal(as.data.frame(a2r), a2s)

[1] TRUE

in 提取子集

> #在iris数据集中，选出量物种是setosa和virginica的行

> a3r <- subset(iris, Species %in% c("setosa", "virginica"))

> a3s <- sqldf("select * from iris where Species in ('setosa', 'virginica')")#注意单引号和双引号

>

> #a3r选的是子集，因而行名还是与原数据集相同

> row.names(a3r) <- NULL

> identical(a3r, a3s)

[1] TRUE

数据合计

> head(iris,2)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1          5.1         3.5          1.4         0.2  setosa

2          4.9         3.0          1.4         0.2  setosa

>  aggregate(iris[1:2], iris[5], mean) #计算物种前两个变量的平均值

     Species Sepal.Length Sepal.Width

1     setosa        5.006       3.428

2 versicolor        5.936       2.770

3  virginica        6.588       2.974

>  sqldf('select Species, avg("Sepal.Length") ,  avg("Sepal.Width")   from iris group by Species')

     Species avg("Sepal.Length") avg("Sepal.Width")

1     setosa               5.006              3.428

2 versicolor               5.936              2.770

3  virginica               6.588              2.974

order by

> head(warpbreaks,2)

  breaks wool tension

1     26    A       L

2     30    A       L

> head(warpbreaks[order(warpbreaks$breaks, decreasing = TRUE), ], 2)

  breaks wool tension

5     70    A       L

9     67    A       L

> sqldf("select * from warpbreaks order by breaks desc limit 2")

  breaks wool tension

1     70    A       L

2     67    A       L

R(5): sql 数据处理的更多相关文章

[2]R语言在数据处理上的禀赋之——可视化技术
本文目录 Java的可视化技术 R的可视化技术二维做图利器plot的参数配置 *权限机制 *plot独有的参数 *plot的type介绍 *title介绍 *公共参数集合--par *par的权限机 ...
数据挖掘R与SQL
本文在Creative Commons许可证下发布对于数据挖掘专业网站 KDnuggets网站的Poll持保留态度,但它的结果毕竟代表了某一类人群的使用偏好,尤其是在语言角度. 我们看排名前5位的语 ...
R语言之数据处理
R语言之数据处理一.向量处理 1.选择和显示向量 data[1] data[3] data[1:3] data[-1]:除第一项以外的所有项 data[c(1,3,4,6)] data[data&g ...
[3]R语言在数据处理上的禀赋——par参数详解(一)
本文目录公共参数列表 par 颜色相关字体相关字体大小相关线条相关符号相关线条和符号大小相关结束本文首发:program-dog.blogspot.com 注1:本文也曾在csdn发布 ...
R语言之数据处理常用包
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
R语言︱噪声数据处理、数据分组——分箱法（离散化、等级化）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 分箱法在实际案例操作过程中较为常见,能够将一些 ...
sql 数据处理时join字段慎重选择--避免出现double数据！
前几天做BI Tabular表格模型的时候,数据中心核对数据发现模型展现数据比实际数据要多,经过核查之后,发现原来我是一个不经意,在做数据选取的时候,inner join的字段CITY_NAME_CN ...
sql数据处理
安装pymysql 读取数据库数据进行pandas操作,并用seaborn和matplotlib进行画图
（转）R空间数据处理与可视化
前言很多朋友说在R里没法使用高德地图,这里给出一个基于leaflet包的解决方法. library(leaflet) # 添加高德地图 m <- leaflet() %>% addTil ...

随机推荐

sql server中如何将两个字段数据合并成一个字段显示（字段与字段添加特殊符号）
之前,我在做统计数据时,需要一个字段显示某月的订单数量和订单金额,要求组合成一个字段,用括号组合. 统计出来的结果大概是这样的,首先我们来创建一些模拟数据 ---创建订单表--- create tab ...
Get gcc built-in macros using command gcc -dM -E - < /dev/null
root@vmuser-virtual-machine:/home/vmuser# gcc -dM -E - < /dev/null #define __SSP_STRONG__ 3#defin ...
Mysql/Mariadb 升级注意事项
因需要使用到分区表,在业务不中断的情况下,可以新增分区,需要将原来的Mariadb10.1.25版本升级到Mariadb10.3.8. 1.升级步骤如下 1)新搭建Mariadb10.3.8版本的DB ...
selenium（三）浏览器操作
from time import sleep from selenium import webdriver #定义浏览器是firefox driver=webdriver.Firefox() #页面打 ...
Criteria 使用指南
转自:http://www.blogjava.net/jerry-zhaoj/archive/2009/03/03/257546.html Restrictions的几个常用限定查询方法如下表所示: ...
Linux内核分析-分析Linux内核创建一个新进程的过程
作者:江军 ID:fuchen1994 实验题目:分析Linux内核创建一个新进程的过程阅读理解task_struct数据结构http://codelab.shiyanlou.com/xref/li ...
python安装大型包时出现错误Unable to find vcvarsall.bat
在windows平台上,据说是安装cpython编写的包时会出现Unable to find vcvarsall.bat这种错误,缺失编译C的环境或组件吧,所以这个包就安装不成功,这个时候简单的方法就 ...
Kali Liunx 2.0震撼来袭（附下载地址、新特性和更新日志）
Kali 2.0昨天已经在BlackHat 2015 USA上正式发布了.无论是粉丝们还是Kali官方都对这个2.0版本抱有极大的期待和热情.这是第一个基于Debian Jessie的Kali版本,此 ...
无监督︱异常、离群点检测一分类——OneClassSVM
OneClassSVM两个功能:异常值检测.解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM:OneClassSV ...
第二篇 makefile的基本结构
makefile用于定义并描述源文件之间的依赖关系,用于说明如何编译各个源文件并生成最终的可执行文件,规则是makefile中的基本组成部分. 一个最基本的依赖规则如下所示: targets代表这个规 ...

R(5): sql 数据处理

R(5): sql 数据处理的更多相关文章

随机推荐

热门专题