One-Hot 编码即独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。这样做的好处主要有：1. 解决了分类器不好处理属性数据的问题； 2. 在一定程度上也起到了扩充特征的作用。

将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。离散特征进行one-hot编码，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

基于树的方法是不需要进行特征的归一化，例如随机森林，bagging 和 boosting等。基于参数的模型或基于距离的模型，都是要进行特征的归一化。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

one hot encoding的优点就是它的值只有0和1，不同的类型存储在垂直的空间。缺点就是，当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

one hot 编码及数据归一化
对于非负数类型编码利用onehotEncode
对于字符以及混合类型编码利用labelEncode

# 简单来说 LabelEncoder 是对不连续的数字或者文本进行编号

# sklearn.preprocessing.LabelEncoder()：标准化标签，将标签值统一转换成range(标签值个数-1)范围内

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

out： array([0, 0, 3, 2, 1], dtype=int64)

#OneHotEncoder 用于将表示分类的数据扩维：

from sklearn.preprocessing import OneHotEncode

ohe = OneHotEncoder()

ohe.fit([[1],[2],[3],[4]])

ohe.transform([[2],[3],[1],[4]]).toarray()

out：array([[ 0.,  1.,  0.,  0.],

       [ 0.,  0.,  1.,  0.],

       [ 1.,  0.,  0.,  0.],

       [ 0.,  0.,  0.,  1.]])

- 源码：

 Examples

    --------

    Given a dataset with three features and four samples, we let the encoder

    find the maximum value per feature and transform the data to a binary

    one-hot encoding.

    >>> from sklearn.preprocessing import OneHotEncoder

    >>> enc = OneHotEncoder()

    >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], \

[1, 0, 2]])  # doctest: +ELLIPSIS

    OneHotEncoder(categorical_features='all', dtype=<... 'numpy.float64'>,

           handle_unknown='error', n_values='auto', sparse=True)

    >>> enc.n_values_

    array([2, 3, 4])

    >>> enc.feature_indices_

    array([0, 2, 5, 9])

    >>> enc.transform([[0, 1, 1]]).toarray()

    array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

 Examples

    --------

    `LabelEncoder` can be used to normalize labels.

    >>> from sklearn import preprocessing

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit([1, 2, 2, 6])

    LabelEncoder()

    >>> le.classes_

    array([1, 2, 6])

    >>> le.transform([1, 1, 2, 6]) #doctest: +ELLIPSIS

    array([0, 0, 1, 2]...)

    >>> le.inverse_transform([0, 0, 1, 2])

    array([1, 1, 2, 6])

    It can also be used to transform non-numerical labels (as long as they are

    hashable and comparable) to numerical labels.

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit(["paris", "paris", "tokyo", "amsterdam"])

    LabelEncoder()

    >>> list(le.classes_)

    ['amsterdam', 'paris', 'tokyo']

    >>> le.transform(["tokyo", "tokyo", "paris"]) #doctest: +ELLIPSIS

    array([2, 2, 1]...)

    >>> list(le.inverse_transform([2, 2, 1]))

    ['tokyo', 'tokyo', 'paris']

LabelEncoder和OneHotEncoder 在特征工程中的应用
下面引入scikit learn中的OneHotEncoder的介绍。

http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

一、One-Hot Encoding

One-Hot编码，又称为一位有效编码，主要是采用 $N$ 位状态寄存器来对 $N$ 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

有如下三个特征属性：

二、One-Hot Encoding的处理方法

三、实际的Python代码

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，如下面的例子：

性别：["male"，"female"]
地区：["Europe"，"US"，"Asia"]
浏览器：["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]

对于某一个样本，如["male"，"US"，"Internet Explorer"]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

对于上述的问题，性别的属性是二维的，同理，地区是三维的，浏览器则是4维的，这样，我们可以采用One-Hot编码的方式对上述的样本“["male"，"US"，"Internet Explorer"]”编码，“male”则对应着[1，0]，同理“US”对应着[0，1，0]，“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为：[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

python 数据处理中各种存储方式里数据类型的转换
自己记录,仅供参考在数据处理时经常会遇到数据类型不匹配的事情,为了方便查看各种存储方式中数据类型的改变.我把一些自己常用的整理方式记录下来,希望可以为以后数据类型的处理工作提供便利. 数据常用的基本 ...
Python数据处理PDF
Python数据处理(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1h8a5-iUr4mF7cVujgTSGOA 提取码:6fsl 复制这段内容后打开百度网盘手机A ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
参考《Python数据处理》中英文PDF+源代码
在实际操作中掌握数据处理方法,比较实用.采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.E ...
python数据处理技巧二
python数据处理技巧二(掌控时间) 首先简单说下关于时间的介绍其中重点是时间戳的处理,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00 ...
Python数据处理pdf （中文版带书签）、原书代码、数据集
Python数据处理前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...
Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
解析Python编程中的包结构
解析Python编程中的包结构假设你想设计一个模块集(也就是一个"包")来统一处理声音文件和声音数据.通常由它们的扩展有不同的声音格式,例如:WAV,AIFF,AU),所以你可能 ...
python数据处理书pdf版本|内附网盘链接直接提取|
Python数据处理采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.Excel.XML.J ...

随机推荐

Codeforces Round #441 (Div. 2, by Moscow Team Olympiad) F. High Cry（思维统计）
F. High Cry time limit per test 1 second memory limit per test 512 megabytes input standard input ou ...
标准c库函数与Linux下系统函数库区别（即带不带缓冲区的学习）
我们都知道,C语言在UNIX/Linux系统下有一套系统调用(系统函数),比如文件操作open().close().write().read()等,而标准C语言的库函数中也有一套对文件的操作函数fop ...
Chrome 无痕模式
Windows.Linux 或 Chrome 操作系统:按 Ctrl + Shift + n
Swift2.0语言教程之闭包
Swift2.0语言教程之闭包 Swift2.0语言闭包闭包是自包含的函数代码块,可以在代码中被传递和使用.Swift中的闭包与C和Objective-C中的代码块(blocks)以及其他一些编程语 ...
python opencv3 摄像头人脸检测
git:https://github.com/linyi0604/Computer-Vision # coding:utf8 import cv2 def detect(): # 创建人脸检测的对象 ...
css平移动画的实现
参考这位大佬的帖子:https://www.jianshu.com/p/5d8e77ef7f84
Codeforces.809E.Surprise me!(莫比乌斯反演虚树)
题目链接 $Description$ 给定一棵树,求\[\frac{1}{n(n-1)/2}\times\sum_{i\in[1,n],j\in[1,n],i\neq j}\varphi(a_i\ ...
ACM需要掌握算法
数据结构栈,队列,链表哈希表,哈希数组堆,优先队列双端队列可并堆左偏堆二叉查找树 Treap 伸展树并查集集合计数问题二分图的识别平衡二叉树二叉排序树线段树一维线段树二维 ...
python IDLE 自动提示功能
\Python27\Lib\idlelib\目录下 config-extensions.def文件修改等待时间 [AutoComplete] enable=1 popupwait=2000(2000表 ...
Perforce-Server迁移
Author: JinDate: 20140827System: Windows 2008 R2 从Windows 2008 R2迁移到Windows 2008 R2 linux版本迁移官方文档htt ...

python 数据处理中的 LabelEncoder 和 OneHotEncoder

一、One-Hot Encoding

二、One-Hot Encoding的处理方法

三、实际的Python代码

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

随机推荐

热门专题