R语言：利用caret包中的dummyVars函数进行虚拟变量处理

dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量

先举一个简单的例子：

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"))

survey

##        service

## 1 very unhappy

## 2      unhappy

## 3      neutral

## 4        happy

## 5   very happy

# 我们可以直接增加一列rank，用数字代表不同情感

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"),rank=c(1,2,3,4,5))

survey

##        service rank

## 1 very unhappy    1

## 2      unhappy    2

## 3      neutral    3

## 4        happy    4

## 5   very happy    5

显然，对于单个变量进行如上处理并不困难，但是如果面对多个因子型变量都需要进行虚拟变量处理时，将会花费大量的时间。

下面用caret包中的dummyVars函数对因子变量进行哑变量处理。

library(caret)

## Loading required package: lattice

## Loading required package: ggplot2

customers<-data.frame(id=c(10,20,30,40,50),gender=c("male","female","female","male","female"),

                      mood=c("happy","sad","happy","sad","happy"),outcome=c(1,1,0,0,0))

customers

##   id gender  mood outcome

## 1 10   male happy       1

## 2 20 female   sad       1

## 3 30 female happy       0

## 4 40   male   sad       0

## 5 50 female happy       0

# 利用dummyVars函数对customers数据进行哑变量处理

dmy<-dummyVars(~.,data=customers)

# 对自身变量进行预测，并转换成data.frame格式

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome

## 1 10             0           1          1        0       1

## 2 20             1           0          0        1       1

## 3 30             1           0          1        0       0

## 4 40             0           1          0        1       0

## 5 50             1           0          1        0       0

从结果看，outcome并没有进行哑变量处理。

我们查看customers的数据类型

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: num  1 1 0 0 0

可见，outcome的默认类型是numeric，现在这不是我们想要的。接下来将变量outcome转换成factor类型。

customers$outcome<-as.factor(customers$outcome)

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: Factor w/ 2 levels "0","1": 2 2 1 1 1

customers中的变量outcome类型转换后，我们再次用dmy对该数据进行预测，并查看最终结果。

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome0 outcome1

## 1 10             0           1          1        0        0        1

## 2 20             1           0          0        1        0        1

## 3 30             1           0          1        0        1        0

## 4 40             0           1          0        1        1        0

## 5 50             1           0          1        0        1        0

可见，outcome也已经进行了虚拟变量处理。

当然，也可以针对数据中的某一个变量进行虚拟变量（哑变量）处理。如我们需要对customers数据中的变量gender进行哑变量处理，可以执行以下操作：

dmy<-dummyVars(~gender,data=customers)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   gender.female gender.male

## 1             0           1

## 2             1           0

## 3             1           0

## 4             0           1

## 5             1           0

对于两分类的因子变量，我们在进行虚拟变量处理后可能不需要出现代表相同意思的两列（例如：gender.female和gender.male)。这时候我们可以利用dummyVars函数中的fullRank参数，将此参数设置为TRUE。

dmy<-dummyVars(~.,data=customers,fullRank=T)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   id gender.male mood.sad outcome.1

## 1 10           1        0         1

## 2 20           0        1         1

## 3 30           0        0         0

## 4 40           1        1         0

## 5 50           0        0         0

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

R语言：recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
用R语言提取数据框中日期对应年份（列表转矩阵）
用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份. 对应操作为:拆分成列表——列表转矩阵——利用 ...
R语言利用ROCR评测模型的预测能力
R语言利用ROCR评测模型的预测能力说明受试者工作特征曲线(ROC),这是一种常用的二元分类系统性能展示图形,在曲线上分别标注了不同切点的真正率与假正率.我们通常会基于ROC曲线计算处于曲线下方的 ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言使用 multicore 包进行并行计算
R语言是单线程的,如果数据量比较大的情况下最好用并行计算来处理数据,这样会获得运行速度倍数的提升.这里介绍一个基于Unix系统的并行程序包:multicore. 我们用三种不同的方式来进行一个简单的数 ...
用R语言的quantreg包进行分位数回归
什么是分位数回归分位数回归(Quantile Regression)是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位.十分位.百分位等)来得到被解释变量的条件分布的相应的分位数 ...

随机推荐

免费视频播放器videojs中文教程
Video.js是一款web视频播放器,支持html5和flash两种播放方式.更多关于video.js的介绍,可以访问官方网站介绍,我之前也写过一篇关于video.js的使用心得,有兴趣的可以点这里 ...
脚本语言：Xmas（一）
很偶然的一个想法,在从北京回成都的高铁上:我想要一个计算器.于是在火车上花了十来个小时,完成了一个模型:能够处理+-*/的优先级,以及"()",比如:1+(3+2)*4.这已是一年 ...
个人认为最好的Mac端的视频播放软件___movist
http://pan.baidu.com/s/1kVm0Zmn password : y9rn 点击打开链接 http://pan.baidu.com/s/1i4ABval password :kt3 ...
前后端分离之vue2.0+webpack2 实战项目 -- webpack介绍
webpack的一点介绍 Webpack 把任何一个文件都看成一个模块,模块间可以互相依赖(require or import),webpack 的功能是把相互依赖的文件打包在一起.webpack 本 ...
C++ count_if/erase/remove_if 用法详解
每次使用这几个算法时都要去查CPP reference,为了能够加深印象,整理一下基本应用. cout/cout_if: return the number of elements satisfyi ...
[原创] JavaScript实现简单的颜色类标签云
效果预览: 源码分享: <!DOCTYPE html><html><head lang="en"> <meta charset=" ...
[Oracle]Audit（二）--清理Audit数据
在上一篇,初步了解了Audit的作用以及如何使用Audit,本篇记录如何手动清理Audit数据. (一) 概述 Audit的数据主要存储在sys.aud$表中,该表默认位于system表空间中,我们根 ...
JavaScript 小函数积累及性能优化
获取值的类型: var toString = Object.prototype.toString; function getType(o) { return toString.call(o).slic ...
Angular2快速起步——构建一个简单的应用
构建此应用,分为如下几步: 1.环境准备:安装Node.js和npm: 2.创建并配置此项目: 3.创建应用: 4.创建组件并添加到应用程序中: 5.启动应用程序: 6.定义作为该应用的宿主页面: 7 ...
[Day01] Python基础
明天要完成的任务如下: Python 四则运算 Python 数据结构 Python 元算符(in.not in.is.and.or) 用户输入 (input.raw_input) 流程控制缩进 ...

R语言：利用caret包中的dummyVars函数进行虚拟变量处理

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

随机推荐

热门专题