R语言：利用caret包中的dummyVars函数进行虚拟变量处理

dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量

先举一个简单的例子：

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"))

survey

##        service

## 1 very unhappy

## 2      unhappy

## 3      neutral

## 4        happy

## 5   very happy

# 我们可以直接增加一列rank，用数字代表不同情感

survey<-data.frame(service=c("very unhappy","unhappy","neutral","happy","very happy"),rank=c(1,2,3,4,5))

survey

##        service rank

## 1 very unhappy    1

## 2      unhappy    2

## 3      neutral    3

## 4        happy    4

## 5   very happy    5

显然，对于单个变量进行如上处理并不困难，但是如果面对多个因子型变量都需要进行虚拟变量处理时，将会花费大量的时间。

下面用caret包中的dummyVars函数对因子变量进行哑变量处理。

library(caret)

## Loading required package: lattice

## Loading required package: ggplot2

customers<-data.frame(id=c(10,20,30,40,50),gender=c("male","female","female","male","female"),

                      mood=c("happy","sad","happy","sad","happy"),outcome=c(1,1,0,0,0))

customers

##   id gender  mood outcome

## 1 10   male happy       1

## 2 20 female   sad       1

## 3 30 female happy       0

## 4 40   male   sad       0

## 5 50 female happy       0

# 利用dummyVars函数对customers数据进行哑变量处理

dmy<-dummyVars(~.,data=customers)

# 对自身变量进行预测，并转换成data.frame格式

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome

## 1 10             0           1          1        0       1

## 2 20             1           0          0        1       1

## 3 30             1           0          1        0       0

## 4 40             0           1          0        1       0

## 5 50             1           0          1        0       0

从结果看，outcome并没有进行哑变量处理。

我们查看customers的数据类型

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: num  1 1 0 0 0

可见，outcome的默认类型是numeric，现在这不是我们想要的。接下来将变量outcome转换成factor类型。

customers$outcome<-as.factor(customers$outcome)

str(customers)

## 'data.frame':    5 obs. of  4 variables:

##  $ id     : num  10 20 30 40 50

##  $ gender : Factor w/ 2 levels "female","male": 2 1 1 2 1

##  $ mood   : Factor w/ 2 levels "happy","sad": 1 2 1 2 1

##  $ outcome: Factor w/ 2 levels "0","1": 2 2 1 1 1

customers中的变量outcome类型转换后，我们再次用dmy对该数据进行预测，并查看最终结果。

trsf<-data.frame(predict(dmy,newdata=customers))

trsf

##   id gender.female gender.male mood.happy mood.sad outcome0 outcome1

## 1 10             0           1          1        0        0        1

## 2 20             1           0          0        1        0        1

## 3 30             1           0          1        0        1        0

## 4 40             0           1          0        1        1        0

## 5 50             1           0          1        0        1        0

可见，outcome也已经进行了虚拟变量处理。

当然，也可以针对数据中的某一个变量进行虚拟变量（哑变量）处理。如我们需要对customers数据中的变量gender进行哑变量处理，可以执行以下操作：

dmy<-dummyVars(~gender,data=customers)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   gender.female gender.male

## 1             0           1

## 2             1           0

## 3             1           0

## 4             0           1

## 5             1           0

对于两分类的因子变量，我们在进行虚拟变量处理后可能不需要出现代表相同意思的两列（例如：gender.female和gender.male)。这时候我们可以利用dummyVars函数中的fullRank参数，将此参数设置为TRUE。

dmy<-dummyVars(~.,data=customers,fullRank=T)

trfs<-data.frame(predict(dmy,newdata=customers))

trfs

##   id gender.male mood.sad outcome.1

## 1 10           1        0         1

## 2 20           0        1         1

## 3 30           0        0         0

## 4 40           1        1         0

## 5 50           0        0         0

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

R语言：recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算 ...
R语言︱H2o深度学习的一些R语言实践——H2o包
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例笔者寄语:受启发 ...
用R语言提取数据框中日期对应年份（列表转矩阵）
用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份. 对应操作为:拆分成列表——列表转矩阵——利用 ...
R语言利用ROCR评测模型的预测能力
R语言利用ROCR评测模型的预测能力说明受试者工作特征曲线(ROC),这是一种常用的二元分类系统性能展示图形,在曲线上分别标注了不同切点的真正率与假正率.我们通常会基于ROC曲线计算处于曲线下方的 ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
使用R语言的RTCGA包获取TCGA数据--转载
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因 ...
R语言文本挖掘 tm包使用
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1. ...
R语言使用 multicore 包进行并行计算
R语言是单线程的,如果数据量比较大的情况下最好用并行计算来处理数据,这样会获得运行速度倍数的提升.这里介绍一个基于Unix系统的并行程序包:multicore. 我们用三种不同的方式来进行一个简单的数 ...
用R语言的quantreg包进行分位数回归
什么是分位数回归分位数回归(Quantile Regression)是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位.十分位.百分位等)来得到被解释变量的条件分布的相应的分位数 ...

随机推荐

filter滤镜的使用
刚开始学css,开始遇到filter不懂什么意思后来到网上查了,觉得解释的很全面,就把它抠下来,以便自己经常来看看. CSS滤镜的使用方法:filter:filtername(parameters) ...
ELK日志分析系统的应用
收集和分析日志是应用开发中至关重要的一环,互联网大规模.分布式的特性决定了日志的源头越来越分散, 产生的速度越来越快,传统的手段和工具显得日益力不从心.在规模化场景下,grep.awk 无法快速发挥作 ...
MySQL之数据类型（常用）
MySQL-data_type数据类型 1.查看数据类型 mysql> help data type //通过help对数据进行查看,以及使用的方法 2.MySQL常见的数据类型整数in ...
利用 force recovery 解决服务器 crash 导致 MySQL 重启失败的问题
小明同学在本机上安装了 MySQL 5.7.17 配合项目进行开发,并且已经有了一部分重要数据.某天小明在开发的时候,需要出去一趟就直接把电脑关掉了,没有让 MySQL 正常关闭,重启 MySQL 的 ...
转载---关于Spring的69个面试问答
链接:http://www.importnew.com/11657.html 目录 Spring概述依赖注入 Spring Beans Spring注解 Spring的对象访问 Spring面向切面 ...
Reids详解-抄本
1.redis是什么 Redis 是一个基于内存的高性能key-value数据库.是一个开源的.使用C语言编写的.支持网络交互的.可基于内存也可持久化的Key-Value数据库. 2.redis的特点 ...
CF Educational Codeforces Round 10 D. Nested Segments 离散化+树状数组
题目链接:http://codeforces.com/problemset/problem/652/D 大意:给若干个线段,保证线段端点不重合,问每个线段内部包含了多少个线段. 方法是对所有线段的端点 ...
Intellij IDEA注册server
版权声明:本文为博主原创文章,未经博主允许不得转载.转载请注明来源:http://blog.csdn.net/mingjie1212.欢迎交流学习!对于Intellij IDEA 2016.3.4 ...
微软的STRIDE模型
微软的STRIDE模型: https://msdn.microsoft.com/en-us/library/ee823878(v=cs.20).aspx Spoofing identity. An e ...
split()方法
split()方法用于把一个字符串分隔成字符串数组. 它有两个参数: separator:从参数指定的地方分隔字符串,必需: howmany:该参数可指定返回的数组的最大长度.如果设置了该参数,返回的 ...

R语言：利用caret包中的dummyVars函数进行虚拟变量处理

R语言：利用caret包中的dummyVars函数进行虚拟变量处理的更多相关文章

随机推荐

热门专题