R实践第二篇：创建数据集

准备数据是数据分析的第一步，由数据构成集合，我们称作数据集，数据集的结构是行列式的，行表示观测，列表示变量。把数据读入到R中，转换为合适的数据结构，能够提高数据分析的效率。在数据分析中，常用的存储数据的结构有标量、向量、因子和数据框，另外，还有矩阵和列表，多样化的数据结构赋予了R灵活处理数据的能力，本文简单介绍常用的数据结构（标量、向量、因子和数据框）及其使用方法。

一，常用的数据结构

标量通常是常量，每一个标量都有特定的数据类型，常用的数据类型是数值类型，字符类型，逻辑类型和日期类型。

对于逻辑类型，可能的值是TRUE和FALSE，用于逻辑操作的运算符：与（&）、或（|）、非（!）

R语言中经常会遇到一些特殊值：

缺失值 NA（Not Avaiable），是不可用的缩写；
NaN为“不是一个数”，意味着计算没有数学意义；
NULL值，空值，表示一个空的变量，不会占用任何空间，通过is.null(x)来测试变量是否为NULL值；
特殊的数字：Inf、-Inf 表示正无穷，负无穷；

1，向量

向量是用于存储同一类型的一维数组，同一向量中无法存储不同类型的数据，标量是只含一个元素的向量。向量使用c()函数来定义，向量元素的数据类型必须相同。

myvector <- c("a","b","c")

2，因子

因子是一个枚举类型，用于表示类别。因子有字面标签（Lable）和级别（Level）两个属性。函数factor()以一个整数向量的形式存储类别。

参数：levels代表原始类别名称，lables相当于对类别名称进行重命名。

factor(x = character(), levels, labels = levels,

       exclude = NA, ordered = is.ordered(x), nmax = NA)

例如，定义一个向量，把向量转化为因子，对因子的级别进行重命名。

> sex<-c("男","女","男")

> f<-factor(sex,levels=c("男","女"),labels=c("male","female"))

> f

[] male   female male

Levels: male female

通过函数levels(f)和nlevels(f)查看因子的级别和级数：

> levels(f)

[] "male"   "female"

> nlevels(f)

[]

3，数据框

数据框是数据分析中，最常用的存储结构，其最大的特征是：不同的列可以包含不同的数据类型，同一列的数据类型必须相同。

数据框可以通过函数data.frame()创建：

data.frame(..., row.names = NULL, check.rows = FALSE,

           check.names = TRUE, fix.empty.names = TRUE,

           stringsAsFactors = default.stringsAsFactors())

创建数据框的参数注释：

...：用于指定数据框的数据，通常是多个向量，每个变量元素的类型必须相同，所有变量的长度必须相同，可以指定变量的名称，例如，var1=c(1:5),var2=c("a","b","c","d","e")。
row.names：字符串向量，用于指定行的名称
check.rows：逻辑值，检查行名称是否和行的数量匹配
check.names：逻辑值，检查变量的名称，确保变量名称合法
fix.empty.names：逻辑值，当设置为TRUE时，自动为没有名称的变量重命名，默认值是TRUE；当设置为FALSE时，为无名变量保留名称“”；
stringsAsFactors：逻辑值，是否把字符串类型的变量转换为因子类型

二，创建数据框

创建数据框的方法有多种，常用的方法有三种，根据实际的业务场景，选择合适的方法。

1，使用data.frame()函数

这种方法最简单，但创建的数据框包含的数据相对较少。

> age<-c(,,,)

> name<-c("s1","s2","s3","s4")

> stu<-data.frame(age,name)

> stu

  age name

     s1

     s2

     s3

     s4

2，从文件中导入数据

使用read.table()函数，从带分隔符的文本文件中导入数据，该函数的格式是：

mydata <- read.table(file, options)

常用的选项是：

header：逻辑值，表示文件的第一行是否包含变量的标题；
sep：表示在同一行内，用于分割变量值的分隔符，默认值是","；
row.names：字符串类型的向量，用于指定行的名称。可以是一个向量，包含所有数据行的名称，也可以指定一个字符串，该字符串是文件的列名，那么数据集使用该列的值作为行的名称。
col.names：字符串类型的向量，如果文件的第一行不包含变量的标题，使用该参数指定变量的名称；如果参数header=FALSE，col.names参数被省略了，变量会被命名为V1、V2，以此类推。
na.strings：用于表示缺失值的字符串向量，在读取数据时，当变量值匹配这些字符串中的任意一个时，把变量的值转换为NA。
colClass：用于指定每一个变量的数据类型，例如，colClasses=c("numeric","character","NULL")，当类为NULL时，表示跳过该列。
quote：用于对有特殊字符的字符串划定界限的符号，默认值是双引号或单引号。
skip：读取数据前跳过的行数，常用于跳过文件开头的注释行。
stringAsFactors：逻辑值，默认值是TRUE，用于指定是否把字符向量转换为因子。

在处理大型文本数据时，设置colClasses参数，把stringAsFactors设置为FALSE，能够显著提高数据处理的速度。

举个例子，从csv文件中读取数据，文件的第一行是列名：

mydata <- read.table("stu.csv",header=TRUE,sep=",",row.names="StudentID")

三，使用R连接数据库

通过ODBC驱动程序连接数据库，用户需要安装ODBC驱动程序，然后创建ODBC数据源。在R脚本中引用数据源，从数据库中读取数据，对数据进行分析。

1，创建ODBC数据源

step1：从管理员工具中选择ODBC Data Source (64-bit)，添加用户数据源：

step2：选择驱动程序，ODBC Driver 13 for SQL Server

step3：输入ODBC数据源的名称，想要连接的SQL Server的名称：

step4：选择验证模式

在Windows域账户中，选择集成Windows验证模式

step5：选择默认连接的数据库

step6：使用默认的配置

step7：测试数据源，点击OK，创建数据源

step8，查看创建的用户数据源（DSN）

2，引用ODBC数据源

首先需要安装RODBC包，并在R脚本中引用包：

install.packages("RODBC")

library(RODBC)

该包中主要包含三个常用的函数，分别用于连接ODBC数据源，从数据库中执行查询返回数据框，关闭数据源。

channel <- odbcConnect(dsn,uid="",pwd="")

sqlQuery(channel,query)

close(channel)

举个例子，从ODBC数据源中，执行SQL语句，返回数据框，并及时关系连接。

> library(RODBC)

> myconn <- odbcConnect("test odbc")

> mydata <- sqlQuery(myconn,"SELECT [ID] ,[Name] ,[CreateTime] FROM [DB_test].[dbo].[Users]")

> close(myconn)

> mydata

  ID Name          CreateTime

    Vic -- ::

    Joe -- ::

>

四，检查对象的属性

创建数据框之后，需要检查数据框的各个属性，这是对准备的数据做一个初步检查。

1，查看对象的结构

> str(mydata)

'data.frame':     obs. of   variables:

 $ ID        : int

 $ Name      : Factor w/  levels "Joe","Vic":

 $ CreateTime: POSIXct, format: "2017-11-09 15:58:07" "2017-11-09 15:58:07"

2，查看对象的行数量和变量数量

> NROW(mydata)

[]

> NCOL(mydata)

[]

> dim(mydata)

[]

3，查看数据框的变量名

> names(mydata)

[] "ID"         "Name"       "CreateTime"

4，查看数据框的头部或尾部数据行

head(mydata)

tail(mydata)

参考文档：

Connect R to SQL Server 2012 and “14”

R实践第二篇：创建数据集的更多相关文章

《R语言实战》读书笔记--第二章创建数据集
2.1数据集的概念变量的类型是不同的,比如标示符.日期变量.连续变量.名义变量.有序型变量等,记得数据挖掘导论中有专门的描述. R可以处理的数据类型包括了数值型.字符型.逻辑型.复数型(虚数).原生 ...
JavaMail入门第二篇创建邮件
JavaMail API使用javax.mail.Message类来表示一封邮件,Message类是一个抽象类,所以我们需要使用其子类javax.mail.internet.MimeMessage类来 ...
微信js框架第二篇(创建完整界面布局)
接着昨天的继续谈关于微信新出的这个js框架,今天主要谈一个页面的创建到布局的详细步骤. 一.创建一个完整页面页面你可以创建在项目的任何节点,只要你在入口文件正确引入创建该页面的路径就可使 ...
Cocos2d-x3.0游戏实例之《别救我》第二篇——创建物理世界
这篇我要给大家介绍两个知识点: 1. 创建游戏物理世界 2. 没了(小若:我噗) 害怕了?不用操心.这太简单了~! 笨木头花心贡献.啥?花心?不呢.是用心~ 转载请注明,原文地址:http://www ...
使用Asp.Net Core MVC 开发项目实践[第二篇:EF Core]
在项目中使用EF Core还是比较容易的,在这里我们使用的版本是EF Core 2.2. 1.使用nuget获取EF Core包这个示例项目使用的是SQLSERVER,所以还需要下载Microsof ...
R数据挖掘第二篇：基于距离评估数据的相似性和相异性
聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异.相似性和相异性(dissimilarity)是根据数据对象的属性值评估的 ...
Android Studio开发第二篇创建新项目
创建新项目很简单,File-New-New Project,这个没什么好说的跟Eclipse都差不都. 第二步SDK选择,有手机平板还有Wear,TV,汽车Auto,谷歌眼镜等几个种平台,这里就先选择 ...
R语言实战读书笔记2—创建数据集(上)
第二章创建数据集 2.1 数据集的概念不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字 ...
实践详细篇-Windows下使用VS2015编译的Caffe训练mnist数据集
上一篇记录的是学习caffe前的环境准备以及如何创建好自己需要的caffe版本.这一篇记录的是如何使用编译好的caffe做训练mnist数据集,步骤编号延用上一篇 <实践详细篇-Windows下 ...

随机推荐

使用keepAlive对上下拉刷新列表数据和滚动位置细节处理 - vue
[前言] 使用vue处理项目中遇到列表页面时,之前项目中总会有一些细节问题处理得不太好,这里总结一下,以便优化以后的代码.如下: 1. 使用mint-ui中的LoadMore组件上下拉刷新时,有时无法 ...
Hibernate （一）
1 JDBC的优缺点优点: 直接底层操作,提供了简单.便捷的访问数据库的方法,跨平台比较强. 灵活性比较强,可以写复杂的SQL. 缺点: JDBC没有做到面向对象的编程,使得程序员的思考还停留在SQ ...
find与tar的结合使用
新建一个文件,自定义时间点[root@nhserver2 ~]# touch -t 1403010000.00 file1.txt 新建一个文件,自定义时间点[root@nhserver2 ~]# ...
【转】centos安装vim7.4
centos安装vim7.4 系统版本centos6.4; root权限 su - root 卸载 $ rpm -qa | grep vim $ yum remove vim vim-en ...
Python CRM项目八
自定义用户认证目的:实现Django自定义的认证系统,在生产环境都是根据此代码进行定制的步骤: 1.在settings文件中配置要使用的类 #命名规则 app名称.类名 AUTH_USER_MOD ...
substr与substring的用法
substr substr() 方法返回一个字符串中从指定位置开始到指定字符数的字符. 语法 str.substr(start[, length]) 参数 strat 开始提取字符的位置.如果为负值, ...
51NOD 1238 最小公倍数之和 V3 [杜教筛]
1238 最小公倍数之和 V3 三种做法!!! 见学习笔记,这里只贴代码 #include <iostream> #include <cstdio> #include < ...
BZOJ 2388: 旅行规划 [分块凸包等差数列]
传送门题意: 区间加和询问一段区间内整体前缀和的最大值刚才还在想做完这道题做一道区间加等差数列结果发现这道就是.... 唯一的不同在于前缀和一段区间加上等差数列后,区间后面也要加上一个常数!!! ...
BZOJ 1176: [Balkan2007]Mokia [CDQ分治]
题意: 有一个n * n的棋盘,每个格子内有一个数,初始的时候全部为0．现在要求维护两种操作: 1)Add:将格子(x, y)内的数加上A． 2)Query:询问矩阵(x0, y0, x1, y1)内 ...
BZOJ 1856: [Scoi2010]字符串 [Catalan数]
1856: [Scoi2010]字符串 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 1418 Solved: 790[Submit][Status][ ...

R实践 第二篇：创建数据集

R实践 第二篇：创建数据集的更多相关文章

随机推荐

热门专题

R实践第二篇：创建数据集

R实践第二篇：创建数据集的更多相关文章