背景：

在拿到的数据里，经常有分类型变量的存在，如下：

球鞋品牌：Nike、adidas、 Vans、PUMA、CONVERSE

性别：男、女

颜色：红、黄、蓝、绿

However,sklearn大佬不能直接分析这类变量呀。在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是算法关键部分，而常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。于是，我们要对这些分类变量进行哑变量处理，又或者叫虚拟变量。

缺点：

当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

In summary,

要是one hot encoding的类别数目不太多，可优先考虑。

一.pd.get_dummies()简单&粗暴

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

官网文档：

http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

输入：array-like, Series, or DataFrame

输出：DataFrame

主要参数说明：

data : array-like, Series, or DataFrame

prefix : 给输出的列添加前缀，如prefix="A",输出的列会显示类似

prefix_sep : 设置前缀跟分类的分隔符sepration，默认是下划线"_"

一般，我们输入data就够了。如果要专门关注Nan这类东东，可设置dummy_na=True，专门生成一列数据。

见下面的栗子：（简直不要太容易）

import numpy as np

import pandas as pd

data = pd.DataFrame({"学号":[1001,1002,1003,1004],

                    "性别":["男","女","女","男"],

                    "学历":["本科","硕士","专科","本科"]})

data

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {

    text-align: left;

}

.dataframe tbody tr th {

    vertical-align: top;

}

	学历	学号	性别
0	本科	1001	男
1	硕士	1002	女
2	专科	1003	女
3	本科	1004	男

pd.get_dummies(data)

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {

    text-align: left;

}

.dataframe tbody tr th {

    vertical-align: top;

}

	学号	学历_专科	学历_本科	学历_硕士	性别_女	性别_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix="A")

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {

    text-align: left;

}

.dataframe tbody tr th {

    vertical-align: top;

}

	学号	A_专科	A_本科	A_硕士	A_女	A_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")

.dataframe thead tr:only-child th {
text-align: right;
}

.dataframe thead th {

    text-align: left;

}

.dataframe tbody tr th {

    vertical-align: top;

}

	学号	A+专科	A+本科	A+硕士	B+女	B+男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

二.sklearn的崽一：LabelEncoder 将不连续的数字or文本进行编号

sklearn.preprocessing.LabelEncoder()

官方文档：

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

#输出： array([0,0,3,2,1])

array([0, 0, 3, 2, 1], dtype=int64)

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

le.fit([1, 3, 3, 7])

LabelEncoder()

le.transform([1, 1, 3, 7])

#array([0, 0, 1, 2]...)

le.classes_   #查看分类

#array([1, 2, 6])

le.inverse_transform([0, 0, 1, 2])  #transform的逆向

#array([1, 1, 2, 6])

array([1, 1, 3, 7])

三.sklearn的崽二：OneHotEncoder 对表示分类的数字进行编码，输出跟dummies一样

sklearn.preprocessing.OneHotEncoder(n_values=None, categorical_features=None, categories=None, sparse=True, dtype=<class ‘numpy.float64’>, handle_unknown=’error’)

官方文档：

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

注意：

输入的应该是表示类别的数字，如果输入文本，会报错的。

from sklearn.preprocessing import OneHotEncoder

OHE = OneHotEncoder()

OHE.fit(data)

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-7-ba3b2772e40d> in <module>()

      1 from sklearn.preprocessing import OneHotEncoder

      2 OHE = OneHotEncoder()

----> 3 OHE.fit(data)

F:\Anaconda\lib\site-packages\sklearn\preprocessing\data.py in fit(self, X, y)

   1954         self

   1955         """

-> 1956         self.fit_transform(X)

   1957         return self

   1958 

F:\Anaconda\lib\site-packages\sklearn\preprocessing\data.py in fit_transform(self, X, y)

   2017         """

   2018         return _transform_selected(X, self._fit_transform,

-> 2019                                    self.categorical_features, copy=True)

   2020

   2021     def _transform(self, X):

F:\Anaconda\lib\site-packages\sklearn\preprocessing\data.py in _transform_selected(X, transform, selected, copy)

   1807     X : array or sparse matrix, shape=(n_samples, n_features_new)

   1808     """

-> 1809     X = check_array(X, accept_sparse='csc', copy=copy, dtype=FLOAT_DTYPES)

   1810

   1811     if isinstance(selected, six.string_types) and selected == "all":

F:\Anaconda\lib\site-packages\sklearn\utils\validation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)

    400                                       force_all_finite)

    401     else:

--> 402         array = np.array(array, dtype=dtype, order=order, copy=copy)

    403

    404         if ensure_2d:

ValueError: could not convert string to float: '男'

看到，OneHotEncoder处理不了字符串。要先用

data3 = le.fit_transform(data["性别"])

OHE.fit(data3.reshape(-1,1))

OHE.transform(data3.reshape(-1,1)).toarray()

array([[ 0.,  1.],

       [ 1.,  0.],

       [ 1.,  0.],

       [ 0.,  1.]])

对因变量y不能用OneHotEncoder，要用LabelBinarizer。

对分类型变量，进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder()的更多相关文章

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码 ...
机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) ...
Python学习笔记：利用pd.get_dummies实现哑变量编码
一.理论介绍虚拟变量(dummy variable)也叫哑变量,是一种将多分类变量转换为二分变量的一种形式. 如果多分类变量有k个类别,则可以转化为k-1个二分变量. 需要有一个参照的类别. 在非线 ...
pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别
sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区 ...
贝叶斯--旧金山犯罪分类预测和电影评价好坏 demo
来源引用:https://blog.csdn.net/han_xiaoyang/article/details/50629608 1.引言贝叶斯是经典的机器学习算法,朴素贝叶斯经常运用于机器学习的案 ...
O2O淘宝优惠券代码总结
一.数据集预处理 1.数据读入 import pandas as pd import numpy as np import datetime as date import datetime as dt ...
数据分析-kaggle泰坦尼克号生存率分析
概述 1912年4月15日,泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难.沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员.虽然幸存下来有一些运气因素,但 ...
机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数 ...
机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响第一方面:特征不变,只增加样本的数据第二方面:增加特征数,增加样 ...

随机推荐

爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
Linux下Tomcat开启查看GC信息
本文收录在Linux运维企业架构实战系列一.开启GC日志 1.在Tomcat 的安装路径下,找到bin/catalina.sh 加上下面的配置,具体参数,自己配置: [root@centos7 to ...
#6 ipdb模块源代码解读
前言好久不见,大家最近可好
C#组件系列——又一款日志组件：Elmah的学习和分享
前言:好久没动笔了,都有点生疏,12月都要接近尾声,可是这月连一篇的产出都没有,不能坏了“规矩”,今天还是来写一篇.最近个把月确实很忙,不过每天早上还是会抽空来园子里逛逛.一如既往,园子里每年这个时候 ...
.net 用ajaxFileUpload 上传超过20M文件设置
1.在web.config的 <system.web> 节点里面添加 <httpRuntime targetFramework="4.5.2" execu ...
c#调用com组件，程序发生意外<hr=0x80020009>
引用dll,确认dll没有问题,版本正确,可是一直报发生意外,没有任何其他提示. 解决方案: 看dll引用选项配置复制到本地:设为true,我的就是false; 嵌入互操作类型:false,如果是t ...
Android项目刮刮奖详解（四）
Android项目刮刮奖详解(三) 前言上一期我们已经是完成了刮刮卡的基本功能,本期就是给我们的项目增加个功能以及美化一番目标增加功能用户刮卡刮到一定程度的时候,清除遮盖层在遮盖层放张图片, ...
JavaWeb学习日记----SAX解析XML
1.SAX解析XML文档的方式: 与DOM方式解析不同,DOM方式解析是根据XML的层级结构在内存中分配一个树形结构,把xml的标签,属性和文本都封装成对象.优点是可以很方便实现增删改操作.缺点是,如 ...
Android Studio 学习（七）通知
导入support- -v4 1.进入 file-project structure 2.左边选择app 3.右边选择dependencies 4.左下角可以看到一个加号,点击选择Library de ...
前端js 实现文件下载
https://www.zhangxinxu.com/wordpress/2017/07/js-text-string-download-as-html-json-file/ 侵删 1.H5 down ...

对分类型变量，进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder()

背景：

一.pd.get_dummies()简单&粗暴

二.sklearn的崽一：LabelEncoder 将不连续的数字or文本进行编号

三.sklearn的崽二：OneHotEncoder 对表示分类的数字进行编码，输出跟dummies一样

对分类型变量，进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder()的更多相关文章

随机推荐

热门专题