Python学习笔记：利用pd.get_dummies实现哑变量编码

一、理论介绍

虚拟变量（dummy variable）也叫哑变量，是一种将多分类变量转换为二分变量的一种形式。

如果多分类变量有k个类别，则可以转化为k-1个二分变量。

需要有一个参照的类别。

在非线性关系的模型中，特别重要。

在模型分析时，虚拟变量都是同进同出，要么都在模型中，要么都不在模型中，不能只保留一个。

二、函数介绍

pandas 中可以利用 get_dummies() 函数进行哑变量编码。

使用语法：

pd.get_dummies(data,  # 输入的数据框

              prefix=None, # 列名的前缀

              prefix_sep='_', # 分割符

              dummy_na=False, # 增加一列空缺值

              columns=None, # 指定要实现转换的列名

              sparse=False,

              drop_first=False, # 删除第一个类别值

              dtype=None)

三、实操

1.Series转换

import pandas as pd

import numpy as np

s = pd.Series(list('abca'))

pd.get_dummies(s)

'''

   a  b  c

0  1  0  0

1  0  1  0

2  0  0  1

3  1  0  0

'''

2.dummy_na 空缺值

s1 = ['a','b',np.nan]

pd.get_dummies(s1)

'''

   a  b

0  1  0

1  0  1

2  0  0

'''

pd.get_dummies(s1, dummy_na=True)

'''

   a  b  NaN

0  1  0    0

1  0  1    0

2  0  0    1

'''

3.prefix

prefix='' 参数设置编码后的变量名，默认为：原始列名_取值。

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],

                   'C': [1, 2, 3]})

pd.get_dummies(df)

'''

   C  A_a  A_b  B_a  B_b  B_c

0  1    1    0    0    1    0

1  2    0    1    1    0    0

2  3    1    0    0    0    1

'''

pd.get_dummies(df, prefix=['col1', 'col2'])

'''

   C  col1_a  col1_b  col2_a  col2_b  col2_c

0  1       1       0       0       1       0

1  2       0       1       1       0       0

2  3       1       0       0       0       1

'''

4.drop_first

drop_first 参数删除第一个类别，避免多重共线性。

pd.get_dummies(pd.Series(list('abcaa')))

pd.get_dummies(pd.Series(list('abcaa')), drop_first=True) # 删掉第一个

5.dtype

# 设置类型

pd.get_dummies(pd.Series(list('abc')), dtype=float) # 浮点数 1.0 0.0

6.其他

# 合并至原始数据

df = df.join(pd.get_dummies(df.A))

pd.get_dummies(df, columns=['A'])

参考链接：什么是哑变量(虚拟变量)，应用中应注意什么问题？

参考链接：pandas.get_dummies

参考链接：pandas.get_dummies 的用法

参考链接：Python对离散变量处理：哑变量编码和one-hot编码

Python学习笔记：利用pd.get_dummies实现哑变量编码的更多相关文章

Python学习笔记（三）——类型与变量
一.输入与输出 print("string"); print("string1","string2","string3" ...
我的Python学习笔记（三）：私有变量
一.私有变量的定义在Python中,有以下几种方式来定义变量: xx:公有变量 _xx:单前置下划线,私有化属性或方法,类对象和子类可以访问,from somemodule import *禁止导入 ...
python学习笔记(3)--函数、参数、变量、递归
1.函数基本语法和特性背景摘要现在老板让你写一个监控程序,监控服务器的系统状况,当cpu\memory\disk等指标的使用量超过阀值时即发邮件报警,你掏出了所有的知识量吗,写出了以下代码 whi ...
【Python学习笔记之二】浅谈Python的yield用法
在上篇[Python学习笔记之一]Python关键字及其总结中我提到了yield,本篇文章我将会重点说明yield的用法在介绍yield前有必要先说明下Python中的迭代器(iterator)和生 ...
Python学习笔记九
Python学习笔记之九为什么要有操作系统管理硬件,提供接口. 管理调度进程,并且将多个进程对硬件的竞争变得有序. 操作系统发展史第一代计算机:真空管和穿孔卡片没有操作系统,所有的程序设计直接 ...
Deep learning with Python 学习笔记（11）
总结机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据来自动开发程序［即模型(model)］.将数据转换为程序的这个过程叫作学习(learning) 深 ...
Deep learning with Python 学习笔记（10）
生成式深度学习机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 ...
Deep learning with Python 学习笔记（8）
Keras 函数式编程利用 Keras 函数式 API,你可以构建类图(graph-like)模型.在不同的输入之间共享某一层,并且还可以像使用 Python 函数一样使用 Keras 模型.Ker ...
Deep learning with Python 学习笔记（7）
介绍一维卷积神经网络卷积神经网络能够进行卷积运算,从局部输入图块中提取特征,并能够将表示模块化,同时可以高效地利用数据.这些性质让卷积神经网络在计算机视觉领域表现优异,同样也让它对序列处理特别有效. ...

随机推荐

javaAPI2
---------------------------------------------------------------------------------------------------- ...
Can references refer to invalid location in C++?
在C++中,引用比指针更加的安全,一方面是因为引用咋定义时必须进行初始化,另一方面是引用一旦被初始化就无法使其与其他对象相关联. 但是,在使用引用的地方仍然会有一些例外. (1)Reference t ...
redis入门到精通系列（八）：redis的高可用--主从复制详解
(一)主从复制介绍前面所讲的关于redis的操作都属于单机操作,单机操作虽然操作简单,但是处理能力有限,无法高可用.所谓高可用性,就是指当一台服务器宕机的时候,有备用的服务器能顶替上,在单机操作上这 ...
安装火狐浏览器报错找不到VCRUNTIME140_1.DLL
产生原因参考及下载地址:https://cn.dll-files.com/vcruntime140_1.dll.html vcruntime140_1.dll 相关的错误可能源于多种不同原因.比如,错 ...
greeting-150
拿到程序例行检查,可以看出程序是32位的程序将程序放入ida中进入主函数查看但是我们将程序运行一次后发现程序还运行了nao的程序说明程序在中间还引用了nao函数,通过代码审计我们可以很直接的看到 ...
TPT Fusion平台升级，AUTOSAR及ViL测试功能重装上线
TPT简介 TPT是针对嵌入式系统基于模型的测试工具,特别是针对控制系统的软件功能测试.TPT支持众多业内主流的工具平台和测试环境,可以完成V模式要求所有阶段(MiL-SiL-PiL-HiL-ViL) ...
CF108A Palindromic Times 题解
Content 现在是 \(h\) 时 \(m\) 分,请求出在此之后(不包含此时)的第一个回文时间. 数据范围:\(0\leqslant h\leqslant 23,0\leqslant m\leq ...
CF670A Holidays 题解
Content 假设 \(1\) 年有 \(n\) 天,而每周同样会有 \(5\) 天工作日和 \(2\) 天休假.求一年最小的休假天数和最大休假天数. 数据范围:\(1\leqslant n\leq ...
查看服务backlog大小 Send-Q
ss -ntl 如下图 LISTEN 状态: Recv-Q 表示的当前等待服务端调用 accept 完成三次握手的 listen backlog 数值,也就是说,当客户端通过 con ...
django信号机制 (每个操作前后django都预留了两个钩子，便于统一化添加功能)
信号 Django中提供了"信号调度",用于在框架执行操作时解耦.通俗来讲,就是一些动作发生的时候,信号允许特定的发送者去提醒一些接受者. 典型应用场景:在所有数据库相关操作(读/ ...