Pandas分类数据和顺序数据转换为标志变量

#导入pandas库

import pandas as pd

#OneHotEncoder用来将数值型类别变量转换为0-1的标志性变量

#LabelEncoder用来将字符串型变量转换为数值型变量

from sklearn.preprocessing import OneHotEncoder,LabelEncoder 

#生成数据

df=pd.DataFrame({'id':[321313,246852,447902],

                'sex':['male','Female','Female'],

                'level':['high','low','middle'],

                'score':[1,2,3]})

print(df)

       id     sex   level  score

0  321313    male    high      1

1  246852  Female     low      2

2  447902  Female  middle      3

#拆分id和数据列

id_data=df[['id']] #获得id列

raw_convert_data=df.iloc[:,1:] #指定要转换的列

print(raw_convert_data)

      sex   level  score

0    male    high      1

1  Female     low      2

2  Female  middle      3

#将数值型分类向量转换为标志变量

model_enc=OneHotEncoder() #建立标志转换模型对象

df_new2=model_enc.fit_transform(raw_convert_data).toarray() #标志转换

#合并数据

df_all=pd.concat((id_data,pd.DataFrame(df_new2)),axis=1) #重新组合为新数据框

print(df_all) #打印输出转换后的数据框

       id    0    1    2    3    4    5    6    7

0  321313  0.0  1.0  1.0  0.0  0.0  1.0  0.0  0.0

1  246852  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0

2  447902  1.0  0.0  0.0  0.0  1.0  0.0  0.0  1.0

# 使用pandas的get_dummies做标志转换

df_new3 = pd.get_dummies(raw_convert_data)

df_all2 = pd.concat((id_data, pd.DataFrame(df_new3)), axis=1)  # 重新组合为数据框

print(df_all2)  # 打印输出转换后的数据框

       id  score  sex_Female  sex_male  level_high  level_low  level_middle

0  321313      1           0         1           1          0             0

1  246852      2           1         0           0          1             0

2  447902      3           1         0           0          0             1

Pandas分类数据和顺序数据转换为标志变量的更多相关文章

Pandas分类数据
通常实时的数据包括重复的文本列.例如:性别,国家和代码等特征总是重复的.这些是分类数据的例子. 分类变量只能采用有限的数量,而且通常是固定的数量.除了固定长度,分类数据可能有顺序,但不能执行数字操作. ...
【笔记】Pandas分类数据详解
[笔记]Pandas分类数据详解 Pandas Pandas分类数据详解|轻松玩转Pandas(5) 参考:Pandas分类数据详解|轻松玩转Pandas(5)
北京市行政村边界shp数据/北京市乡镇边界/北京市土地利用分类数据/北京市气象数据/降雨量分布数据/太阳辐射数据
数据下载链接:数据下载链接北京是一座有着三千多年历史的古都,在不同的朝代有着不同的称谓,大致算起来有二十多个别称.北京地势西北高.东南低.西部.北部和东北部三面环山,东南部是一片缓缓向渤海倾斜的 ...
广西省行政村边界shp数据/广西省乡镇边界/广西省土地利用分类数据/广西省气象数据/降雨量分布数据/太阳辐射数据
数据下载链接:数据下载链接广西壮族自治区,地处中国南部,北回归线横贯中部,属亚热带季风气候区.南北以贺州--东兰一线为界,此界以北属中亚热带季风气候区,以南属南亚热带季风气候区. 数据范围:全 ...
利用 pandas 进行数据的预处理——离散数据哑编码、连续数据标准化
数据的标准化数据标准化就是将不同取值范围的数据,在保留各自数据相对大小顺序不变的情况下,整体映射到一个固定的区间中.根据具体的实现方法不同,有的时候会映射到 [ 0 ,1 ],有时映射到 0 附近的 ...
pandas实战——对星巴克数据的分析
一.实验对象实验对象为星巴克在全球的门店数据,我们可以使用pandas对其进行简单的分析,如分析每个国家星巴克的数量,根据门店数量对国家进行排序等. 二.数据分析 1.读取数据并获取数据行列数首先 ...
其它课程中的python---5、Pandas处理数据和读取数据
其它课程中的python---5.Pandas处理数据和读取数据一.总结一句话总结: 记常用和特例:慢慢慢慢的就熟了,不用太着急,慢慢来库的使用都很简单:就是库的常用函数就这几个,后面用的时候学 ...
db file sequential read （数据文件顺序读取）
转载:http://www.dbtan.com/2010/04/db-file-sequential-read.html db file sequential read (数据文件顺序读取): db ...
bisect模块(使用二分法将数据按顺序插入一个列表)
bisect模块功能:使用二分法将数据按顺序插入一个列表该模块主要有两个函数: 1.insort_right ====>按从小到大顺序将数据插入一个列表 2.bisect_right ...

随机推荐

sqlserver定时作业，定时执行存储过程
首先,我想说,我真的是渣了,一个这个玩意弄了半天,算了,直接切入正题吧. 第一步: 先写好存储过程用了两张表,你们自己建立吧 <br data-filtered="filtered& ...
JavaFX教程
JavaFX是Java的下一代图形用户界面工具包.JavaFX是一组图形和媒体API,我们可以用它们来创建和部署富客户端应用程序. JavaFX允许开发人员快速构建丰富的跨平台应用程序.JavaFX通 ...
linux下文件编码格式转换方法（gb18030/utf-8）
文章转载自:http://www.firekyrin.com/archives/249.html linux下文件编码格式转换方法(gb18030/utf-8) 在Linux做开发或者系统管理遇到乱 ...
mybatis之返回值总结
mybatis框架让我们能在编程中只需要编写一个接口,然后再编写mapper映射文件,无需编写接口的实现类就可以实现从数据库检索数据.这是mybatis通过动态代理,把mapper映射文件的内容转化为 ...
[已解决]报错: TLS handshake timeout
为了永久性保留更改,您可以修改 /etc/docker/daemon.json 文件并添加上 registry-mirrors 键值. { "registry-mirrors": ...
tomcat部署项目后，项目没有成功部署到tomcat里面，或者部署的是之前项目
用svn下载java项目到本地,导入eclipse里面,然后部署到tomcat里,启动tomcat,一闪而过,在浏览器中打开,报404错(找不到页面),其实是项目没有成功部署到tomcat,可以打开t ...
在Ubuntu下安装deb包需要使用dpkg命令
Dpkg 的普通用法: 1.sudo dpkg -i <package.deb> 安装一个 Debian 软件包,如你手动下载的文件. 2.sudo dpkg -c <package ...
C语言注意事项
#include <stdio.h> int main() { /*********************************************** * 指针使用注意事项: * ...
Oracle使用存储过程返回查询游标
如果报表逻辑非常复杂的话, 可以把报表逻辑放到存储过程里,加工一个全局临时表.前端查询的时候只查询临时表即可.只是第一次查询需要忍受加工的时间. --创建存储过程,返回SYS_REFCURSOR CR ...
Codeforces 1105E 最大独立集状态DP 中途相遇法
题意:你有一个字符串, 有两种操作,一种是改变字符串,一种是某个用户询问这个字符串,如果一个用户每次查询字符串的时候都是他的用户名,他就会高兴.问最多有多少个用户会高兴? 题意:容易发现,在两个1操作 ...

Pandas分类数据和顺序数据转换为标志变量

Pandas分类数据和顺序数据转换为标志变量的更多相关文章

随机推荐

热门专题