数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的分类编码处理，主要用于将类别型数据转换为可以用于分析或机器学习的形式。
类别型数据是指具有离散、不连续取值的数据，例如性别（男/女）、等级（优/良/中/差）之类数据。
对这些数据进行适当的编码，可以提高数据处理效率和准确度。

1. 原理

分类编码的原理比较简单，常用的两种是顺序编码和独热编码。

1.1. 顺序编码

顺序编码很好理解，就是按照顺序给离散的数据编码，比如下面成绩和班级信息的数据：

data = np.array(

    [

        ["优", "三班"],

        ["及格", "二班"],

        ["良", "一班"],

        ["优", "五班"],

        ["中", "八班"],

        ["良", "六班"],

        ["不及格", "三班"],

        ["优", "十班"],

    ]

)

原始数据是用中文描述的，无法直接用于机器学习算法之中，所以要编码。
scikit-learn库的OrdinalEncoder就是用来顺序编码的。

from sklearn import preprocessing as pp

data = np.array(

    [

        ["优", "三班"],

        ["及格", "二班"],

        ["良", "一班"],

        ["优", "五班"],

        ["中", "八班"],

        ["良", "六班"],

        ["不及格", "三班"],

        ["优", "十班"],

    ]

)

oenc = pp.OrdinalEncoder()

# 顺序编码

oenc.fit_transform(data)

# 运行结果

array([[2., 1.],

       [3., 2.],

       [4., 0.],

       [2., 3.],

       [1., 4.],

       [4., 5.],

       [0., 1.],

       [2., 6.]])

从运行结果可以看出，虽然"优", "良", "中"等成绩等级，"一班", "二班", "三班"等班级信息都被编码成顺序的数字。
但是，并不是按照中文含义的顺序来编码的，比如优对应2，及格对应3，三班对应1，二班却对应2等等。

为了让编码后的数字和原来的中文含义的顺序有对应，我们可以定义编码的顺序。

# 定义中文的顺序

catagories = [

    ["优", "良", "中", "及格", "不及格"],

    ["一班", "二班", "三班", "五班", "六班", "八班", "十班"],

]

oenc = pp.OrdinalEncoder(categories=catagories)

oenc.fit_transform(data)

# 运行结果

array([[0., 2.],

       [3., 1.],

       [1., 0.],

       [0., 3.],

       [2., 5.],

       [1., 4.],

       [4., 2.],

       [0., 6.]])

这样，编码后的数字的顺序就能和中文所代表的含义对应起来了。

1.2. 独热编码

上面示例中的成绩等级和班级信息都有顺序，如果对没有顺序含义的信息进行顺序编码的话，
就会赋予给信息添加了顺序的含义，对于后续算法的应用可能会产生影响。

这时，就可以用独热编码的方式来处理，比如对于下面的科目信息：

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

这些科目信息之间是没有顺序概念的，语文不一定排在数学前面，化学也不一定要排在英语后面。
这时，用独热编码就比较合适了。

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

enc = pp.OneHotEncoder()

enc.fit_transform(data).toarray()

# 运行结果

array([[0., 0., 0., 0., 1.],

       [0., 1., 0., 0., 0.],

       [0., 0., 0., 1., 0.],

       [0., 0., 1., 0., 0.],

       [1., 0., 0., 0., 0.]])

从中可以看出，语文编码成了数组[0., 0., 0., 0., 1.]，数学编码成了[0., 1., 0., 0., 0.]数组等等。
科目信息之间不存在顺序。

2. 作用

分类编码是数据挖掘和机器学习领域中非常重要的一个环节，主要的作用有：

转换数据格式：将类别型数据转换为数值型数据，从而使其能够被计算机处理和建模。
提高处理效率：分类编码可以将多个类别型变量转换为多个数值型变量，从而简化了数据处理过程，提高了数据处理效率。
提高性能：分类编码可以通过独热编码等方式，将类别型变量转换为多个二元特征，从而增加了模型的非线性能力和表达能力，从而提高了模型的性能。
降低复杂度：分类编码可以将多个类别型变量转换为多个数值型变量，从而降低了模型的复杂度。这有利于减少模型的过拟合，提高模型的泛化能力。
处理不平衡类别：分类编码可以通过生成额外的特征或者使用其他技术来处理不平衡类别的数据。
去除噪声和冗余特征：分类编码可以通过删除不相关或冗余的特征来减少数据的噪声和冗余，从而提高数据的质量和模型的性能。

3. 总结

本篇介绍了两种编码方式，顺序编码（OrdinalEncoder）和独热编码（OneHotEncoder），但scikit-learn库提供的编码方式并不只有这两种。

还有目标编码（TargetEncoder），标签编码（LabelEncoder）等等，可以参考官方文档中的使用方法，在合适的场景中使用。

【scikit-learn基础】--『预处理』之分类编码的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
『TensorFlow』TFR数据预处理探究以及框架搭建
一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...
『TensorFlow』SSD源码学习_其五：TFR数据读取&数据预处理
Fork版本项目地址:SSD 一.TFR数据读取创建slim.dataset.Dataset对象在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
『计算机视觉』Mask-RCNN
一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...
『TensotFlow』RNN/LSTM古诗生成
往期RNN相关工程实践文章『TensotFlow』基础RNN网络分类问题『TensotFlow』RNN中文文本_上『TensotFlow』基础RNN网络回归问题『TensotFlow』RNN中 ...

随机推荐

MAUI+Masa Blazor APP 各大商店新手发布指南（三）vivo篇
目录前言准备材料审核流程测试报告隐私测试报告隐私行为数据其他问题总结前言上架vivo商店,使用厂家的离线推送当然是一个重要原因,与小米不同,vivo的推送服务可以在应用未上架的情况 ...
Hadoop核心概念
大数据开发总体架构: Hadoop是大数据开发所使用的一个核心框架.使用Hadoop可以方便的管理分布式集群,将海量数据分布式的存储在集群中,并使用分布式并行程序来处理这些数据. Hadoop由许多子 ...
2017-A
2017-A 题目描述: 输入一个字符串,要求输出能把所有的小写字符放前面,大写字符放中间,数字放后面,并且中间用空格隔开,如果同种类字符间有不同种类的字符,输出后也要用字符隔开. 例: 输入 12a ...
EtherCAT转Modbus网关做为 MODBUS 从站配置
EtherCAT转Modbus网关做为 MODBUS 从站配置案例兴达易控EtherCAT转Modbus网关可以用作MODBUS从站的配置.这种网关允许将Modbus协议与EtherCAT协议进行转 ...
TIM-有感BLDC转速解析
TIM-有感BLDC转速解析 1.基本概念解析霍尔传感器的原理:通电线圈产生的磁场会使得转子所在位置会产生磁场,其中离得最近的霍尔传感器的磁场最强,进而导致最近霍尔传感器会产生最大的电压信号,这个最 ...
Kraft模式下Kafka脚本的使用
Kafka集群版本:V3.5.1 名称 Node1 Node2 Node3 IP 172.29.145.157 172.29.145.182 172.29.145.183 (1)查看Kraft集群中 ...
数据链路层传输协议（点到点）：停等协议、GBN、SR协议
数据链路层的传输协议:停等协议.GBN.SR 停止等待协议(单窗口的滑动窗口协议) 滑动窗口协议:GBN.SR GBN协议 GBN发送方需响应的三件事 1. 上层调用(网络层) 上层要发送数据时,发送 ...
使用VSCode新建解决方案，添加ClassLib类库工程
最近准备全面转向VSCode开发C#代码,所以第一件事就是使用VSCode新建解决方案,添加工程. 通过ChatGPT找到的大致的实现方案: 首先,打开VS Code的终端,然后导航到您想要创建解决方 ...
Atcoder Regular Contest 165
B. Sliding Window Sort 2 被题目名里的滑动窗口误导了,于是卡 B 40min /fn Description 给定长度为 \(n\) 的排列 \(P\) 和一个整数 \(K\) ...
http协议与apache
http协议与apache 1.httpd协议两台主机通信需要socket文件 yum insatll -y nc [root@localhost ~]#nc -l 8000 #主机1 ...

【scikit-learn基础】--『预处理』之 分类编码