数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的分类编码处理,主要用于将类别型数据转换为可以用于分析或机器学习的形式。
类别型数据是指具有离散、不连续取值的数据,例如性别(男/女)、等级(优/良/中/差)之类数据。
对这些数据进行适当的编码,可以提高数据处理效率和准确度。

1. 原理

分类编码的原理比较简单,常用的两种是顺序编码独热编码

1.1. 顺序编码

顺序编码很好理解,就是按照顺序给离散的数据编码,比如下面成绩和班级信息的数据:

data = np.array(
[
["优", "三班"],
["及格", "二班"],
["良", "一班"],
["优", "五班"],
["中", "八班"],
["良", "六班"],
["不及格", "三班"],
["优", "十班"],
]
)

原始数据是用中文描述的,无法直接用于机器学习算法之中,所以要编码。
scikit-learn库的OrdinalEncoder就是用来顺序编码的。

from sklearn import preprocessing as pp

data = np.array(
[
["优", "三班"],
["及格", "二班"],
["良", "一班"],
["优", "五班"],
["中", "八班"],
["良", "六班"],
["不及格", "三班"],
["优", "十班"],
]
)
oenc = pp.OrdinalEncoder() # 顺序编码
oenc.fit_transform(data) # 运行结果
array([[2., 1.],
[3., 2.],
[4., 0.],
[2., 3.],
[1., 4.],
[4., 5.],
[0., 1.],
[2., 6.]])

从运行结果可以看出,虽然"优", "良", "中"等成绩等级,"一班", "二班", "三班"等班级信息都被编码成顺序的数字。
但是,并不是按照中文含义的顺序来编码的,比如优对应2及格对应3三班对应1二班却对应2等等。

为了让编码后的数字和原来的中文含义的顺序有对应,我们可以定义编码的顺序。

# 定义中文的顺序
catagories = [
["优", "良", "中", "及格", "不及格"],
["一班", "二班", "三班", "五班", "六班", "八班", "十班"],
] oenc = pp.OrdinalEncoder(categories=catagories)
oenc.fit_transform(data) # 运行结果
array([[0., 2.],
[3., 1.],
[1., 0.],
[0., 3.],
[2., 5.],
[1., 4.],
[4., 2.],
[0., 6.]])

这样,编码后的数字的顺序就能和中文所代表的含义对应起来了。

1.2. 独热编码

上面示例中的成绩等级班级信息都有顺序,如果对没有顺序含义的信息进行顺序编码的话,
就会赋予给信息添加了顺序的含义,对于后续算法的应用可能会产生影响。

这时,就可以用独热编码的方式来处理,比如对于下面的科目信息:

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

这些科目信息之间是没有顺序概念的,语文不一定排在数学前面,化学也不一定要排在英语后面。
这时,用独热编码就比较合适了。

data = np.array([["语文"], ["数学"], ["英语"], ["物理"], ["化学"]])

enc = pp.OneHotEncoder()
enc.fit_transform(data).toarray() # 运行结果
array([[0., 0., 0., 0., 1.],
[0., 1., 0., 0., 0.],
[0., 0., 0., 1., 0.],
[0., 0., 1., 0., 0.],
[1., 0., 0., 0., 0.]])

从中可以看出,语文编码成了数组[0., 0., 0., 0., 1.],数学编码成了[0., 1., 0., 0., 0.]数组等等。
科目信息之间不存在顺序。

2. 作用

分类编码是数据挖掘和机器学习领域中非常重要的一个环节,主要的作用有:

  1. 转换数据格式:将类别型数据转换为数值型数据,从而使其能够被计算机处理和建模。
  2. 提高处理效率:分类编码可以将多个类别型变量转换为多个数值型变量,从而简化了数据处理过程,提高了数据处理效率。
  3. 提高性能:分类编码可以通过独热编码等方式,将类别型变量转换为多个二元特征,从而增加了模型的非线性能力和表达能力,从而提高了模型的性能。
  4. 降低复杂度:分类编码可以将多个类别型变量转换为多个数值型变量,从而降低了模型的复杂度。这有利于减少模型的过拟合,提高模型的泛化能力。
  5. 处理不平衡类别:分类编码可以通过生成额外的特征或者使用其他技术来处理不平衡类别的数据。
  6. 去除噪声和冗余特征:分类编码可以通过删除不相关或冗余的特征来减少数据的噪声和冗余,从而提高数据的质量和模型的性能。

3. 总结

本篇介绍了两种编码方式,顺序编码(OrdinalEncoder)和独热编码(OneHotEncoder),但scikit-learn库提供的编码方式并不只有这两种。

还有目标编码(TargetEncoder),标签编码(LabelEncoder)等等,可以参考官方文档中的使用方法,在合适的场景中使用。

【scikit-learn基础】--『预处理』之 分类编码的更多相关文章

  1. Python基础『一』

    内置数据类型 数据名称 例子 数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...

  2. Python基础『二』

    目录 语句,表达式 赋值语句 打印语句 分支语句 循环语句 函数 函数的作用 函数的三要素 函数定义 DEF语句 RETURN语句 函数调用 作用域 闭包 递归函数 匿名函数 迭代 语句,表达式 赋值 ...

  3. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  4. 『TensorFlow』TFR数据预处理探究以及框架搭建

    一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...

  5. 『TensorFlow』SSD源码学习_其五:TFR数据读取&数据预处理

    Fork版本项目地址:SSD 一.TFR数据读取 创建slim.dataset.Dataset对象 在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...

  6. 『cs231n』计算机视觉基础

    线性分类器损失函数明细: 『cs231n』线性分类器损失函数 最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...

  7. 『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支

    下图Github地址:Mask_RCNN       Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

  8. 『计算机视觉』Mask-RCNN

    一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...

  9. 『TensorFlow』SSD源码学习_其一:论文及开源项目文档介绍

    一.论文介绍 读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层feature map 多层feat ...

  10. 『TensotFlow』RNN/LSTM古诗生成

    往期RNN相关工程实践文章 『TensotFlow』基础RNN网络分类问题 『TensotFlow』RNN中文文本_上 『TensotFlow』基础RNN网络回归问题 『TensotFlow』RNN中 ...

随机推荐

  1. 在.NET Framework中使用RocketMQ(阿里云版)实战【第二章】

    章节 第一章:https://www.cnblogs.com/kimiliucn/p/17662052.html 第二章:https://www.cnblogs.com/kimiliucn/p/176 ...

  2. 应用程序接口(API)安全的入门指南

    ​  什么是 API?​ 对于初学者来说,API 是指为两个不同的应用之间实现流畅通信,而设计的应用程序编程接口.它通常被称为应用程序的"中间人".由于我们需要保护用户的持有数据. ...

  3. 纯干货!一文get昇腾Ascend C编程入门全部知识点

    本文分享自华为云社区<昇腾Ascend C编程入门教程>,作者:昇腾CANN . 2023年5月6日,在昇腾AI开发者峰会上,华为正式发布了面向算子开发场景的昇腾Ascend C编程语言. ...

  4. Antd Form表单中Input输入框 在IE9下按下任何按键都会报校验失败

    antd Form表单中Input输入框 在IE9下按下任何按键都会报校验失败,导致输入框输入不了任何内容! 可能你的react及react-dom版本由于过高导致antd组件不能兼容,需要对reac ...

  5. Python 搭建 FastAPI 项目

    一般网上的文章都是以脚本的方式写Demor的,没找到自己想要的那种项目结构型的示例(类似Java SpringBoot 创建 Model,通过 pom 进行关联配置的那种) 看了一些源码,再结合自己的 ...

  6. Azure Data Factory(七)数据集验证之用户托管凭证

    一,引言 上一篇文章中,我们讲解了 Azure Data Factory 在设置数据集类型为  Dataverse 的时候,如何连接测试.今天我们继续讲解认证方式这一块内容,打开 Link Servi ...

  7. IDEFICS 简介: 最先进视觉语言模型的开源复现

    引言 Code Llama 是为代码类任务而生的一组最先进的.开放的 Llama 2 模型,我们很高兴能将其集成入 Hugging Face 生态系统!Code Llama 使用与 Llama 2 相 ...

  8. Solution -「CSP 2019」Partition

    Description Link. 给出一个数列,要求将其分成几段,使每段的和非严格递增,求最小的每段的和的平方和. Solution 注意到 \(a_{i}\) 为正,对于正数有这样的结论: \[a ...

  9. 将Python程序打包成Linux可执行文件

    将Python程序打包成Linux可执行文件 安装环境 首先我们要安装pip,命令如下: sudo apt install python3-pip 使用的工具是pyinstaller,打开终端输入su ...

  10. Vue2系列(lqz)——Vue生命期钩子、组件

    文章目录 Vue声明期钩子 组件 1 fetch和axios 1.1 fetche使用 1.2 axios的使用 2 计算属性 2.1 通过计算属性实现名字首字母大写 2.2 通过计算属性重写过滤案例 ...