『Sklearn』特征向量化处理

叠加态的猫 2024-10-14 13:28:26 原文

『Kaggle』分类任务_决策树&集成模型&DataFrame向量化操作

1

2

3

4

5

6

7

8

9

'''特征提取器'''

from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)

print(X_train.to_dict(orient='record'))

X_train = vec.fit_transform(X_train.to_dict(orient='record'))

print(X_train)

print(vec.feature_names_)

X_test = vec.transform(X_test.to_dict(orient='record'))

　　

涉及两个操作，

DataFrame字典化
字典向量化

1.DataFrame字典化

1

2

3

4

5

6

7

8

9

10

import numpy as np

import pandas as pd

index = ['x', 'y']

columns = ['a','b','c']

dtype = [('a','int32'), ('b','float32'), ('c','float32')]

values = np.zeros(2, dtype=dtype)

df = pd.DataFrame(values, index=index)

df.to_dict(orient='record')

2.字典向量化

DictVectorizer：将dict类型的list数据，转换成numpy array，具有属性vec.feature_names_，查看提取后的特征名。

具体效果如下，

>>> from sklearn.feature_extraction import DictVectorizer

>>> v = DictVectorizer(sparse=False)

>>> D = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]

>>> X = v.fit_transform(D)

>>> X

array([[ 2.,  0.,  1.],

       [ 0.,  1.,  3.]])

>>> v.transform({'foo': 4, 'unseen_feature': 3})

array([[ 0.,  0.,  4.]])

数字的特征不变，没有该特征的项给赋0，对于未参与训练的特征不予考虑。

对应到本程序，

print(X_train.to_dict(orient='record'))：

[{'sex': 'male', 'pclass': '3rd', 'age': 31.19418104265403},

...... ....... ....... ......

{'sex': 'female', 'pclass': '1st', 'age': 31.19418104265403}]

提取特征，

X_train = vec.fit_transform(X_train.to_dict(orient='record'))
print(X_train)：

[[ 31.19418104 0. 0. 1. 0. 1. ]
[ 31.19418104 1. 0. 0. 1. 0. ]
[ 31.19418104 0. 0. 1. 0. 1. ]
...,
[ 12. 0. 1. 0. 1. 0. ]
[ 18. 0. 1. 0. 0. 1. ]
[ 31.19418104 0. 0. 1. 1. 0. ]]

数字的年龄没有改变，其他obj特征变成了onehot编码的特征，各列意义可以查看的，

print(vec.feature_names_)：

['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

一个直观例子：

v = DictVectorizer(sparse=False)
v.fit_transform([{'a':1},{'a':2},{'a':3}])
Out[7]:
array([[ 1.],
       [ 2.],
       [ 3.]])
v.feature_names_
Out[8]:
['a']
v.fit_transform([{'a':'1'},{'a':'2'},{'a':'3'}])
Out[9]:
array([[ 1., 0., 0.],
       [ 0., 1., 0.],
       [ 0., 0., 1.]])
v.feature_names_
Out[10]:
['a=1', 'a=2', 'a=3']

注意，v.feature_names_输出顺序和v.fit_transform()生成顺序是一一对应的，

v.fit_transform([{'a':'2q'},{'a':'1v'},{'a':'3t'},{'a':'3t'}])
Out[17]:
array([[ 0., 1., 0.],
       [ 1., 0., 0.],
       [ 0., 0., 1.],
       [ 0., 0., 1.]])
v.feature_names_
Out[18]:
['a=1v', 'a=2q', 'a=3t']

然后，

np.argmax(np.array([[ 0., 1., 0.],
       [ 1., 0., 0.],
       [ 0., 0., 1.],
       [ 0., 0., 1.]]),axis=1)
Out[19]:
array([1, 0, 2, 2])

进一步的，也就是说v.feature_names_输出顺序对应于v.fit_transform()的非onehot排序。

『Sklearn』特征向量化处理的更多相关文章

『Sklearn』框架自带数据集接口
自带数据集类型如下: # 自带小型数据集# sklearn.datasets.load_<name># 在线下载数据集# sklearn.datasets.fetch_<name&g ...
『Sklearn』数据划分方法
原理介绍 K折交叉验证: KFold,GroupKFold,StratifiedKFold, 留一法: LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,Lea ...
『TensorFlow』读书笔记_降噪自编码器
『TensorFlow』降噪自编码器设计之前学习过的代码,又敲了一遍,新的收获也还是有的,因为这次注释写的比较详尽,所以再次记录一下,具体的相关知识查阅之前写的文章即可(见上面链接). # Aut ...
『TensorFlow』读书笔记_VGGNet
VGGNet网络介绍 VGG系列结构图, 『cs231n』卷积神经网络工程实践技巧_下 1,全部使用3*3的卷积核和2*2的池化核,通过不断加深网络结构来提升性能. 所有卷积层都是同样大小的filte ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
『TensotFlow』RNN中文文本_上
中文文字预处理流程文本处理读取+去除特殊符号按照字段长度排序辅助数据结构生成生成 {字符:出现次数} 字典生成按出现次数排序好的字符list 生成 {字符:序号} 字典生成序号list ...
『cs231n』通过代码理解风格迁移
『cs231n』卷积神经网络的可视化应用文件目录 vgg16.py import os import numpy as np import tensorflow as tf from downloa ...
『计算机视觉』Mask-RCNN_锚框生成
Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mask-RCNN_推断网络其一:总览『计算机视觉』M ...
『计算机视觉』Mask-RCNN_推断网络其六：Mask生成
一.Mask生成概览上一节的末尾,我们已经获取了待检测图片的分类回归信息,我们将回归信息(即待检测目标的边框信息)单独提取出来,结合金字塔特征mrcnn_feature_maps,进行Mask生成工 ...

随机推荐

Linux服务器---安装squid
安装squid proxy就是软件代理或者代理服务器,而squid就是一种常用的proxy服务 1.安装squid [root@localhost wj]# rpm -qa | grep squid ...
中国用户通过rchange用银联充值到PerfectMoney再给BTC-E充值进行搬砖的方法
最近迷上了比特币这个疯狂的东西,相信很多技术人员都感兴趣. 比特币.莱特币钱包下载和把数据迁移到C盘以外其他盘的方法. 莱特币和山寨币的原理跟比特币基本上一样,可以参考这个方法进行,莱特币的钱包数据迁 ...
Android查缺补漏（View篇）--布局文件中的“@+id”和“@id”有什么区别？
Android布局文件中的"@+id"和"@id"有什么区别? +id表示为控件指定一个id(新增一个id),如: <cn.codingblock.vie ...
MySQL数据库----表与表之间的关系
表1 foreign key 表2 则表1的多条记录对应表2的一条记录,即多对一利用foreign key的原理我们可以制作两张表的多对多,一对一关系多对多: 表1的多条记录可以对应表2的一条记录 ...
WindowsServer-性能计数器
https://jingyan.baidu.com/article/59703552e764e48fc00740dd.html
Python Web学习笔记之并发和并行的区别和实现
你吃饭吃到一半,电话来了,你一直到吃完了以后才去接,这就说明你不支持并发也不支持并行.你吃饭吃到一半,电话来了,你停了下来接了电话,接完后继续吃饭,这说明你支持并发.你吃饭吃到一半,电话来了,你一边打 ...
20145335郝昊《网络攻防》Exp4 Adobe阅读器漏洞攻击
20145335郝昊<网络攻防>Exp4 Adobe阅读器漏洞攻击实验内容初步掌握平台matesploit的使用有了初步完成渗透操作的思路本次攻击对象为:windows xp sp ...
Python3基础 str while+iter+next 字符串的遍历
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
【第八章】 springboot + mybatis + 多数据源
在实际开发中,我们一个项目可能会用到多个数据库,通常一个数据库对应一个数据源. 代码结构: 简要原理: 1)DatabaseType列出所有的数据源的key---key 2)DatabaseConte ...
3G下的无压缩视频传输（基于嵌入式linux） (转载)
本课题研究嵌入式系统在数据采集,3G无线通信方面的应用,开发集视频采集.地理信息采集.无线传输.客户机/服务器模式于一体的车载终端,实现终端采集视频与GPS信息的传输,支持服务器端显示视频与GPS信息 ...