One-Hot 编码即独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。这样做的好处主要有：1. 解决了分类器不好处理属性数据的问题； 2. 在一定程度上也起到了扩充特征的作用。

将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。离散特征进行one-hot编码，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

基于树的方法是不需要进行特征的归一化，例如随机森林，bagging 和 boosting等。基于参数的模型或基于距离的模型，都是要进行特征的归一化。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

one hot encoding的优点就是它的值只有0和1，不同的类型存储在垂直的空间。缺点就是，当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

one hot 编码及数据归一化
对于非负数类型编码利用onehotEncode
对于字符以及混合类型编码利用labelEncode

# 简单来说 LabelEncoder 是对不连续的数字或者文本进行编号

# sklearn.preprocessing.LabelEncoder()：标准化标签，将标签值统一转换成range(标签值个数-1)范围内

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

out： array([0, 0, 3, 2, 1], dtype=int64)

#OneHotEncoder 用于将表示分类的数据扩维：

from sklearn.preprocessing import OneHotEncode

ohe = OneHotEncoder()

ohe.fit([[1],[2],[3],[4]])

ohe.transform([[2],[3],[1],[4]]).toarray()

out：array([[ 0.,  1.,  0.,  0.],

       [ 0.,  0.,  1.,  0.],

       [ 1.,  0.,  0.,  0.],

       [ 0.,  0.,  0.,  1.]])

- 源码：

 Examples

    --------

    Given a dataset with three features and four samples, we let the encoder

    find the maximum value per feature and transform the data to a binary

    one-hot encoding.

    >>> from sklearn.preprocessing import OneHotEncoder

    >>> enc = OneHotEncoder()

    >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], \

[1, 0, 2]])  # doctest: +ELLIPSIS

    OneHotEncoder(categorical_features='all', dtype=<... 'numpy.float64'>,

           handle_unknown='error', n_values='auto', sparse=True)

    >>> enc.n_values_

    array([2, 3, 4])

    >>> enc.feature_indices_

    array([0, 2, 5, 9])

    >>> enc.transform([[0, 1, 1]]).toarray()

    array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

 Examples

    --------

    `LabelEncoder` can be used to normalize labels.

    >>> from sklearn import preprocessing

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit([1, 2, 2, 6])

    LabelEncoder()

    >>> le.classes_

    array([1, 2, 6])

    >>> le.transform([1, 1, 2, 6]) #doctest: +ELLIPSIS

    array([0, 0, 1, 2]...)

    >>> le.inverse_transform([0, 0, 1, 2])

    array([1, 1, 2, 6])

    It can also be used to transform non-numerical labels (as long as they are

    hashable and comparable) to numerical labels.

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit(["paris", "paris", "tokyo", "amsterdam"])

    LabelEncoder()

    >>> list(le.classes_)

    ['amsterdam', 'paris', 'tokyo']

    >>> le.transform(["tokyo", "tokyo", "paris"]) #doctest: +ELLIPSIS

    array([2, 2, 1]...)

    >>> list(le.inverse_transform([2, 2, 1]))

    ['tokyo', 'tokyo', 'paris']

LabelEncoder和OneHotEncoder 在特征工程中的应用
下面引入scikit learn中的OneHotEncoder的介绍。

http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

一、One-Hot Encoding

One-Hot编码，又称为一位有效编码，主要是采用 $N$ 位状态寄存器来对 $N$ 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

有如下三个特征属性：

二、One-Hot Encoding的处理方法

三、实际的Python代码

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，如下面的例子：

性别：["male"，"female"]
地区：["Europe"，"US"，"Asia"]
浏览器：["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]

对于某一个样本，如["male"，"US"，"Internet Explorer"]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

对于上述的问题，性别的属性是二维的，同理，地区是三维的，浏览器则是4维的，这样，我们可以采用One-Hot编码的方式对上述的样本“["male"，"US"，"Internet Explorer"]”编码，“male”则对应着[1，0]，同理“US”对应着[0，1，0]，“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为：[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

python 数据处理中各种存储方式里数据类型的转换
自己记录,仅供参考在数据处理时经常会遇到数据类型不匹配的事情,为了方便查看各种存储方式中数据类型的改变.我把一些自己常用的整理方式记录下来,希望可以为以后数据类型的处理工作提供便利. 数据常用的基本 ...
Python数据处理PDF
Python数据处理(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1h8a5-iUr4mF7cVujgTSGOA 提取码:6fsl 复制这段内容后打开百度网盘手机A ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
参考《Python数据处理》中英文PDF+源代码
在实际操作中掌握数据处理方法,比较实用.采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.E ...
python数据处理技巧二
python数据处理技巧二(掌控时间) 首先简单说下关于时间的介绍其中重点是时间戳的处理,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00 ...
Python数据处理pdf （中文版带书签）、原书代码、数据集
Python数据处理前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...
Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
解析Python编程中的包结构
解析Python编程中的包结构假设你想设计一个模块集(也就是一个"包")来统一处理声音文件和声音数据.通常由它们的扩展有不同的声音格式,例如:WAV,AIFF,AU),所以你可能 ...
python数据处理书pdf版本|内附网盘链接直接提取|
Python数据处理采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.Excel.XML.J ...

随机推荐

绝对良心的 Java 中发邮件功能
开篇语,是不是感觉这个功能都老掉牙了,网上一大推的文章,随便找个代码就是了,为什么我还要选择专门写一篇呢,因为我遇到了不一样的坑…… 首先,不免俗套的把代码都贴上来,拿去执行吧,记住换上你的账号和授权 ...
nginx启动 [emerg] 12180#12948: invalid number of arguments in "root" directive in D:
注意空格和中文符号修改了就可以了. 还要注意最后需要加分号; https://blog.csdn.net/rodulf/article/details/53557278
JavaScript基础：学习javascript的原因
JavaScript是世界上最流行的脚本语言,因为你在电脑.手机.平板上浏览的所有的网页,以及无数基于HTML5的手机App,交互逻辑都是由JavaScript驱动的. 简单地说,JavaScript ...
new Date 兼容性问题
IOS 11.1.2 iphoneX 下面解析 // 下面的代码会报错 var d = new Date('2018-09-20 19:20:32'); alert(d.getTime()); 必 ...
富文本插件KindEditor
具体用法查看官网http://kindeditor.net/doc.php {% load staticfiles %} <!DOCTYPE html> <html lang=&qu ...
开始一个Django项目的简单方法
DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': '数据库名(你 ...
[BZOJ4864][BeiJing2017Wc]神秘物质(splay)
首先merge就是先delete两次再insert,Max就是整个区间的最大值减最小值,Min就是区间中所有相邻两数差的最小值. Splay支持区间最大值,区间最小值,区间相邻差最小值即可. #inc ...
from setuptools import setup, find_packages ImportError: No module named set
1 from setuptools import setup, find_packages ImportError: No module named set wget http://peak.tele ...
安装gitlab管理自己的代码
安装gitlab的资料网上搜索很多,但发现很多都是比较老的资料了.我把我安装的过程记录一下,应该是最简单的过程了 1. 到 https://about.gitlab.com/downloads/ 下载 ...
http协议之 COOKIE
cookie我们都很了解,这里描述下cookie的几个参数意义 key = "qq", value = "Bobser" .. os.time(), path ...

python 数据处理中的 LabelEncoder 和 OneHotEncoder

一、One-Hot Encoding

二、One-Hot Encoding的处理方法

三、实际的Python代码

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

随机推荐

热门专题