sklearn.preprocessing.LabelEncoder的使用

在训练模型之前，我们通常都要对训练数据进行一定的处理。将类别编号就是一种常用的处理方法，比如把类别“男”，“女”编号为0和1。可以使用sklearn.preprocessing中的LabelEncoder处理这个问题。

作用

将n个类别编码为0~n-1之间的整数（包含0和n-1）。

例子

假设我们要对性别数据进行编码，则数据可以分为两种情况：无NaN，有NaN。

首先导入要使用的包

import numpy as np

import pandas as pd

from sklearn import preprocessing

无NaN

数据如下

sex = pd.Series(["male", "female", "female", "male"])

使用LabelEncoder进行处理，过程如下

le = preprocessing.LabelEncoder()    #获取一个LabelEncoder

le = le.fit(["male", "female"])      #训练LabelEncoder, 把male编码为0，female编码为1

sex = le.transform(sex)                #使用训练好的LabelEncoder对原数据进行编码

print(sex)

输出：

[1 0 0 1]

可以看到LabelEncoder将源数据中用字符串表示的类别编码成int型的数字，便于训练。

根据编码后的类别还可以获取编码前的类别：

le.inverse_transform([1,0,0,1])

输出：

array(['male', 'female', 'female', 'male'], dtype='<U6')

有NaN

假如数据中包含NaN，如下

sex = pd.Series(["male", "female", "female", np.nan])

这时执行

le = preprocessing.LabelEncoder()    #获取一个LabelEncoder

le = le.fit(["male", "female"])      #训练LabelEncoder, 把male编码为0，female编码为1

sex = le.transform(sex)                #使用训练好的LabelEncoder对原数据进行编码

print(sex)

就会出错

ValueError: y contains previously unseen labels: nan

解决方法也很简单，只要把NaN替换掉就行了

sex.fillna("unknown", inplace=True)

le = preprocessing.LabelEncoder()    #获取一个LabelEncoder

le = le.fit(["male", "female", "unknown"])      #训练LabelEncoder, 把male编码为0，female编码为1, unknown为2

sex = le.transform(sex)                #使用训练好的LabelEncoder对原数据进行编码

print(sex)

输出：

[1 0 0 2]

这里将NaN替换为unkown，将unknown加入le.fit中，这样unknown就会被编码为2了。

总结

sklearn.preprocessing.LabelEncoder可以简单方便地将数据中的类别编码。

sklearn.preprocessing.LabelEncoder的使用的更多相关文章

11.sklearn.preprocessing.LabelEncoder的作用
In [5]: from sklearn import preprocessing ...: le =preprocessing.LabelEncoder() ...: le.fit(["p ...
利用sklearn的LabelEncoder对标签进行数字化编码
from sklearn.preprocessing import LabelEncoder def gen_label_encoder(): labels = ['BB', 'CC'] le = L ...
pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别
sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区 ...
数据规范化——sklearn.preprocessing
sklearn实现---归类为5大类 sklearn.preprocessing.scale()(最常用,易受异常值影响) sklearn.preprocessing.StandardScaler() ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
sklearn.preprocessing.LabelBinarizer
sklearn.preprocessing.LabelBinarizer
sklearn preprocessing （预处理）
预处理的几种方法:标准化.数据最大最小缩放处理.正则化.特征二值化和数据缺失值处理. 知识回顾: p-范数:先算绝对值的p次方,再求和,再开p次方. 数据标准化:尽量将数据转化为均值为0,方差为1的数 ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
sklearn.preprocessing.StandardScaler 离线使用不使用pickle如何做
Having said that, you can query sklearn.preprocessing.StandardScaler for the fit parameters: scale_ ...

随机推荐

js 窗口滚动到一定高度时加载数据
<script type="text/javascript"> //当窗口滚动到一定高度时某块页面开始加载数据 window.onload = function() ...
Kafka-Monitor
kafka Monitor 监测Kafka集群状态 Topic.Consumer Group列表图形化展示 topic 和 consumer 之间的关系图形化展示 consumer 的 Offse ...
pyqt5的使用目录
pyqt5的安装我的第一个例子标签控件QLabel的使用按钮QPushButton 信号与槽 pyqt5模块介绍 pycharm活动模板 QObject 定时器 QWidget类-坐标系 ...
UDP网络程序，客户端和服务端交互原理
创建一个udp客户端程序的流程是简单,具体步骤如下: 创建客户端套接字发送/接收数据关闭套接字 UDP是面向无连接的通讯协议,UDP数据包括目的端口号和源端口号信息,由于通讯不需要连接,所以可以实 ...
windows钩子函数
一什么时候用到钩子?(when)Windows操作系统是建立在事件驱动的消息处理机制之上,系统各部分之间的沟通也都是通过消息的相互传递而实现的.通常情况下,应用程序只能处理当前进程的消息,如果需要对 ...
Python 入门基础20 --面向对象_继承、组合
今日内容组合:自定义类的对象作为类的属性继承:父类与子类.多继承 1.组合将自定义类的对象作为类的属性 class Teacher: def __init__(self, name): self ...
Python 入门基础19 --面向对象、封装
2019.04.17 一.面向对象与面向过程二.名称空间操作三.类与对象的概念四.语法五.对象查找属性的顺序 2019.04.18 1.类与对象的所有概念:__init__方法 2.类的方法与 ...
2018-2019-2 网络对抗技术 20165320 Exp4 恶意代码分析
2018-2019-2 网络对抗技术 20165320 Exp4 恶意代码分析一.实践目标监控你自己系统的运行状态,看有没有可疑的程序在运行分析一个恶意软件,就分析Exp2或Exp3中生成后门软 ...
用NDK调用第三方库
用NDK调用第三方库遇到不少坑,总结一下. 1.添加JNI目录参考: http://www.cnblogs.com/lanqie/p/7442668.html 2.文件介绍: 其中:JniFacto ...
之手算KD-tree
转自:https://zhuanlan.zhihu.com/p/27453420 本文来源于Machine Learning: Clustering & Retrieval | Courser ...

sklearn.preprocessing.LabelEncoder的使用

作用

例子

无NaN

有NaN

总结

sklearn.preprocessing.LabelEncoder的使用的更多相关文章

随机推荐

热门专题