特征抽取: sklearn.feature_extraction.DictVectorizer

sklearn.featture_extraction.DictVectorizer:
　　将特征与值的映射字典组成的列表转换成向量。
　　DictVectorizer通过使用scikit-learn的estimators，将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵。
　　当特征的值是字符串时，这个转换器将进行一个二进制One-hot编码。One-hot编码是将特征所有可能的字符串值构造成布尔型值。例如: 特征f有一个值ham，一个值spam，转换后会变成两个特征f=ham和f=spam。
　　注意，转换器只会将字符串形式的特征值转换成One-hot编码，数值型的不会转换。
　　一个字典中样本没有的特征在结果矩阵中的值是0.

构造参数:
　　class sklearn.feature_extraction.DictVectorizer(dtype=<class‘numpy.float64’>, separator=’=’, sparse=True, sort=True)

　　dtype：callable, 可选参数, 默认为float。特征值的类型，传递给Numpy.array或者Scipy.sparse矩阵构造器作为dtype参数。
　　separator: string, 可选参数, 默认为"="。当构造One-hot编码的特征值时要使用的分割字符串。分割传入字典数据的键与值的字符串，生成的字符串会作为特征矩阵的列名。
　　sparse: boolearn, 可选参数,默认为True。transform是否要使用scipy产生一个sparse矩阵。DictVectorizer的内部实现是将数据直接转换成sparse矩阵，如果sparse为False，再把sparse矩阵转换成numpy.ndarray型数组。
　　sort：boolearn,可选参数,默认为True。在拟合时是否要多feature_names和vocabulary_进行排序。

属性:
　　vocabulary_：特征名称和特征列索引的映射字典。
　　feature_names_: 一个包含所有特征名称的，长度为特征名称个数的列表。
方法:
　　fit(X,y=None): 计算出转换结果中feature name与列索引之间的对照字典vocabulary_，同时会计算出特征名称列表　feature_names_。这里的参数y没有任何作用。
　　fit_transform(X,y=None): 包含fit函数的功能，并且会将X转换成矩阵。
　　get_feature_names(): 返回feature_names_
　　get_params(deep=True): 返回当前DictVectorizer对象的构造参数。
　　inverse_transform(X[,dict_type]): 将矩阵还原成特征字典列表。还原出来的字典跟原数据并不是完全一样。传入的X必须是这个DictVectorizer经过transform或者fit_transform产生的X。
　　restrict(support, indicies=False): 根据传入的support参数，对特征矩阵进行筛选。
　　set_params(**params): 设置DictVectorizer的参数
　　transform(X): 将X转换为numpy.ndarray或者Scipy.sparse

使用样例:

    from sklearn.feature_extraction import DictVectorizer

    # 设置sparse=False获得numpy ndarray形式的结果

    v = DictVectorizer(sparse=False)

    D = [{"foo": 1, "bar": 2}, {"foo": 3, "baz": 1}]

    # 对字典列表D进行转换，转换成特征矩阵

    X = v.fit_transform(D)

    # 特征矩阵的行代表数据，列代表特征，0表示该数据没有该特征

    print(X)

    # 获取特征列名

    print(v.get_feature_names())

    # inverse_transform可以将特征矩阵还原成原始数据

    print(v.inverse_transform(X) == D)

    # 直接进行转换，不先进行拟合的话，无法识别新的特征

    print(v.transform([{"foo": 4, "unseen_feature": 3}]))

输出:

[[2. 0. 1.]

 [0. 1. 3.]]

['bar', 'baz', 'foo']

True

[[0. 0. 4.]]

配合特征选择:

    from sklearn.feature_selection import SelectKBest, chi2

    # 得到一个筛选器，使用卡方统计筛选出最好的2个特征

    support = SelectKBest(chi2, k=2).fit(X, [0, 1])

    # 进行筛选，筛选的结果会自动覆盖原有的特征矩阵

    print(v.restrict(support.get_support()))

    print(v.get_feature_names())

输出:

DictVectorizer(dtype=<class 'numpy.float64'>, separator='=', sort=True,

        sparse=False)

['bar', 'foo']

特征抽取: sklearn.feature_extraction.DictVectorizer的更多相关文章

sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.DictVectorizer:将字典组成的列表转换成向量.(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据,列代表特征,0表 ...
特征抽取: sklearn.feature_extraction.FeatureHasher
sklearn.feature_extraction.FeatureHasher(n_features=1048576, input_type="dict", dtype=< ...
sklearn.feature_extraction.text 的TfidfVectorizer函数
TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可). from sklearn.feature_extr ...
sklearn.feature_extraction.text.CountVectorizer 学习
CountVectorizer: CountVectorizer可以将文本文档集合转换为token计数矩阵.(token可以理解成词) 此实现通过使用scipy.sparse.csr_matrix产生 ...
sklearn特征抽取
特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本,图像等众抽取能够被机器学习算法直接处理的特征向量. 1.特征抽取方法之 Loading Features fr ...
AI学习---特征工程【特征抽取、特征预处理、特征降维】
学习框架特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程: 帮助我们使得算法性能更好发挥性能而已 sklearn主 ...
sklearn中模型抽取
特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本,图像等众抽取能够被机器学习算法直接处理的特征向量. 1.特征抽取方法之 Loading Features fr ...
《机学一》特征工程1 ——文本处理：sklearn抽取、jieba中文分词、TF和IDF抽取
零.机器学习整个实现过程: 一.机器学习数据组成特征值: 目标值: 二.特征工程和文本特征提取 1.概要: 1.特征工程是什么 2.特征工程的意义:直接影响预测结果 3.scikit-learn库 ...
机器学习1-sklearn&字典特征抽取
sklearn数据集数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fe ...

随机推荐

DP(第三版(较简单))
突然很想找点DP题(被虐虐) 前言我竟然还能想起来当时是怎么做的233,题都是随便找的,跟以前的代码重了就重了吧,反正风格变了qaq [2017-11-18]其实本来打算写好多好多的水题来着,不过要 ...
洛谷 P1855 榨取kkksc03 题解
P1855 榨取kkksc03 题目描述洛谷2的团队功能是其他任何oj和工具难以达到的.借助洛谷强大的服务器资源,任何学校都可以在洛谷上零成本的搭建oj并高效率的完成训练计划. 为什么说是搭建oj呢 ...
P1453 城市环路
题目背景一座城市,往往会被人们划分为几个区域,例如住宅区.商业区.工业区等等.B市就被分为了以下的两个区域——城市中心和城市郊区.在着这两个区域的中间是一条围绕B市的环路,环路之内便是B市中心. 题 ...
D2. Remove the Substring (hard version)（思维）
D2. Remove the Substring (hard version) time limit per test 2 seconds memory limit per test 256 mega ...
switchcase的用法
<script> var level = prompt("请输入员工评级"); var salary = 5000; switch (level) { case &qu ...
Redis哨兵日常实践
一.日常操作指定一个从做新主有时候需要将当前主节点机器下线,并指定一个高一些性能的从节点接替将其它从节点的slave-priority配置为0,然后在随意一台 Setinel 执行sentine ...
Unity2017 熊猫跑酷
1.背景随着移动互联网的快速发展,现在的人们对手机的依赖程度越来越大,以至于为于手机用户量身定做的手机游戏大行其道.正是基于这样的背景,城市跑酷--这个好玩的游戏诞生了 2.机遇手机触屏时代的到来 ...
Vulnerability Scanning Tools
Category:Vulnerability Scanning Tools - OWASP https://www.owasp.org/index.php/Category:Vulnerability ...
MAC下快速打开指定目录（转）
使用了这么长时间MAC,打开文件查找目录总是感觉还是不如windows来的爽快 1.通过快捷键搜索 command + 空格,输入关键词 2.通过控制台打开 1) 跳转到指定路径 cd ...
Cannot find module 'laravel-elixir'问题解决方法
在用gulp 安装elixir的时候报了这样的错误: Laravel elixir npm error Cannot find module 'laravel-elixir/ingredients/c ...

特征抽取: sklearn.feature_extraction.DictVectorizer

特征抽取: sklearn.feature_extraction.DictVectorizer的更多相关文章

随机推荐

热门专题