One-Hot独热编码

One-Hot独热编码

Dummy Encoding VS One-Hot Encoding
二者都可以对Categorical Variable做处理，定性特征转换为定量特征，
转换为定量特征其实就是将原来每个特征的类别拿出来作为一个新的特征(Dummy Variable)了，
如性别——男，女，定量特征即将男作为一个特征，女作为一个特征，如果数据中的Categorical Variable很多，且每个Variable种类比较多，那么转换后的数据可能会非常稀疏。
两者本身存在差别:
difference:一个定性特征或者成为Categorical Variable,其有n个值，
Dummy Encoding 会将这个Categorical Variable转换为n-1个特征变量，
而OneHot Encoding会转换为n个特征变量。
其中，这种转换在经济学或者回归模型中会存在一个Dummy Variable Trap的问题，
使用Dummy Encoder可以避免这个问题，
对于Dummy Variable Trap问题下面未做介绍。
由于我这里面对的是分类问题，没有过多的调研。

 #方法一(使用pandas.get_dummies进行onehot编码)

 import pandas as pd

 testdata_01= pd.read_csv('D:/suning/learning/testdata.csv')  # 读取数据

 a=pd.get_dummies(testdata_02,columns=['pet'])#onehot encoding

b=pd.get_dummies(testdata_01,columns=['pet'],drop_first=True)#dummy encoding

c=pd.get_dummies(testdata_01,columns=['is_has_car'])#onehot encoding

d=pd.get_dummies(testdata_01,columns=['is_has_car'],drop_first=True)#onehot encoding

e=pd.get_dummies(testdata_01) #onehot encoding

f=pd.get_dummies(testdata_01,drop_first=True)

 #方法二(使用sklearn.preprocessing进行onehotcoder)

 ##sklearn中的OneHotEncoder提供fit(X),transform(X),fit_transform(X)，

 ##其中X是一个二维数组，且数组类型为int，不能直接处理字符串类型的Categorical Varibale

 ##先把字符串类型定性特征转变为连续的数值型变量，再用OneHotEncoder二值化。

 import pandas as pd

 import numpy as np

 from sklearn.preprocessing import LabelEncoder,OneHotEncoder

 a=LabelEncoder().fit_transform(testdata_01['pet'])#把字符串类型定性特征转变为连续的数值型变量

 aaa=OneHotEncoder(sparse=False).fit_transform(np.array(a).reshape(-1,1))#OneHotEncoder二值化

 #结论：pandas.get_dummies可以很方便的对定性特征定量化，且可以批量处理。第二种方法无法批量的对定性特征进行定量化。

 #建议使用第一种方法。

One-Hot独热编码的更多相关文章

【转】数据预处理之独热编码（One-Hot Encoding）
原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487 问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. ...
机器学习实战：数据预处理之独热编码（One-Hot Encoding）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
独热编码OneHotEncoder简介
在分类和聚类运算中我们经常计算两个个体之间的距离,对于连续的数字(Numric)这一点不成问题,但是对于名词性(Norminal)的类别,计算距离很难.即使将类别与数字对应,例如{'A','B','C ...
OneHotEncoder独热编码和 LabelEncoder标签编码
学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别. 首先了解机器学习中的特征类别:连续型特征和离散型特征拿到 ...
数据预处理：独热编码（One-Hot Encoding）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码
一.问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 离散特征的编码分为两种情况: 1.离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one- ...
数据预处理之独热编码（One-Hot Encoding）（转载）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
机器学习数据预处理之独热编码（One-Hot Encoding）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
机器学习：数据预处理之独热编码（One-Hot）
前言 ———————————————————————————————————————— 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等.这些特征值并不是连续的 ...

随机推荐

3_observer
#Observer 成就系统 achievements system 玩家完成某种成就后,通知监督者,监督者做出相应出来 ``` //简单来说就是事件触发的时候, 通知监督者 class Observ ...
stl_multimap.h
stl_multimap.h // Filename: stl_multimap.h // Comment By: 凝霜 // E-mail: mdl2009@vip.qq.com // Blog: ...
node.js 安装及配置（hello world）及 node 的包管理器（npm）
下载地址:Download | Node.js,无脑下一步安装即可: 安装时,会自动将 node 可执行文件路径添加进 Path 内,这样进入 cmd 命令行,以查看 node 的安装版本: > ...
[BZOJ2962][清华集训]序列操作
bzoj luogu 题意有一个长度为\(n\) 的序列,有三个操作: \(I \ \ a\ b\ c\ :\)表示将\([a,b]\)这一段区间的元素集体增加\(c\): \(R \ \ a\ b ...
vue 打包去掉console.log
在webpack.prod.conf.js 文件中将设置修改为先全局找到 UglifyJsPlugin 然后修改为: new UglifyJsPlugin({ uglifyOptions: { ...
[转]由Tencent://Message协议想到的一个解决方案
源代码下载:http://files.cnblogs.com/phinecos/HelloWorldProtocal.rar 前天在BruceZhang的一篇博文<求助:如何在ASP页面中调用W ...
POJ2559：Largest Rectangle in a Histogram
浅谈栈:https://www.cnblogs.com/AKMer/p/10278222.html 题目传送门:http://poj.org/problem?id=2559 贪心的想,最大的子矩阵顶部 ...
JavaScript下的进制转换
JavaScript下的进制转换 //十进制转其他进制 var num = 99; console.log('十进制: ', num); console.log('八进制:', (num).toStr ...
Ubuntu下安装软件
在ubuntu当中,安装应用程序有三种方法,分别是:apt-get,dpkg安装deb和make install安装源码包三种. apt-get方法使用apt-get install来安装应用程序算 ...
UE3优化
转自:http://www.cnblogs.com/NEOCSL/p/3320510.html 优化问题有很多内容可讲,涉及林林总总.今天我总结一下优化注意的地方. 1.从AnimTree和Skele ...

One-Hot独热编码

One-Hot独热编码的更多相关文章

随机推荐

热门专题