TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具。TfidfVectorizer 相当于 CountVectorizer + TfidfTransformer。

下面先说 CountVectorizer。

CountVectorizer

CountVectorizer 的作用是将文本文档转换为计数的稀疏矩阵。下面举一个具体的例子来说明(代码来自于官方文档)。

from sklearn.feature_extraction.text import CountVectorizer

# 定义一个 list，其中每个元素是一个文档(一个句子)

corpus = [

    'This is the first document.',

    'This document is the second document.',

    'And this is the third one.',

    'Is this the first document?',

]

vectorizer = CountVectorizer()

# 将文本数据转换为计数的稀疏矩阵

X = vectorizer.fit_transform(corpus)

# 查看每个单词的位置

print(vectorizer.get_feature_names())

#输出为 ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

# 由于 X 存储为稀疏矩阵，需要转换为 array 才能查看

print(X.toarray())

# 输出为

# [[0 1 1 1 0 0 1 0 1]

#  [0 2 0 1 0 1 1 0 1]

#  [1 0 0 1 1 0 1 1 1]

#  [0 1 1 1 0 0 1 0 1]]

其中 vectorizer.get_feature_names()包含了数据中出现的所有单词去重后的集合，相当于一个词典。当然你也可以给 CountVectorizer 提供一个单独的词典，否则 CountVectorizer 会自己从数据中学习到词典。

X.toarray()是查看文档转化后的计数矩阵。比如矩阵的第一行[0 1 1 1 0 0 1 0 1]对应于文档中的第一句This is the first document.，表示词典中对应位置的单词出现的次数。

This is the first document转为为计数矩阵后如下：

and	document	first	is	one	second	the	third	this
0	1	1	1	0	0	1	0	1

其他句子也是类似的规则，这里不再赘述。

原来文档元素个数是 4，每个元素是一个句子，长度不固定。X.toarray()的维度是 (4,9)，

可以看到转化之后的计数矩阵的元素是 4，每个元素的长度固定为 9，这里的 9 就是字典的长度。

TfidfTransformer

使用计算 tf-idf。tf 表示词频率，而 tf-idf 表示词频率乘以逆文档频率。这是信息检索中常用的一种术语权重方案，在文档分类中也得到了很好的应用。如果你还不了解 tf-idf，请阅读阮一峰老师的这篇文章。

使用 TfidfTransformer 如下，输出的 tf-idf 矩阵维度也是 (4,9)

from sklearn.feature_extraction.text import TfidfTransformer

transform = TfidfTransformer()

Y = transform.fit_transform(X)    # 这里的输入是上面文档的计数矩阵

print(Y.toarray())                # 输出转换为tf-idf后的 Y 矩阵

输出为：

[[0.         0.46979139 0.58028582 0.38408524 0.         0.

  0.38408524 0.         0.38408524]

 [0.         0.6876236  0.         0.28108867 0.         0.53864762

  0.28108867 0.         0.28108867]

 [0.51184851 0.         0.         0.26710379 0.51184851 0.

  0.26710379 0.51184851 0.26710379]

 [0.         0.46979139 0.58028582 0.38408524 0.         0.

  0.38408524 0.         0.38408524]]

TfidfVectorizer

TfidfVectorizer 相当于 CountVectorizer 和 TfidfTransformer 的结合使用。上面代码先调用了 CountVectorizer，然后调用了 TfidfTransformer。使用 TfidfVectorizer 可以简化代码如下：

# 把每个设备的 app 列表转换为字符串，以空格分隔

apps=deviceid_packages['apps'].apply(lambda x:' '.join(x)).tolist()

vectorizer=CountVectorizer()

transformer=TfidfTransformer()

# 原来的 app 列表 转换为计数的稀疏矩阵。

cntTf = vectorizer.fit_transform(apps)

# 得到 tf-idf 矩阵

tfidf=transformer.fit_transform(cntTf)

# 得到所有的 APP 列表，相当于词典

word=vectorizer.get_feature_names()

如果你觉得这篇文章对你有帮助，不妨点个赞，让我有更多动力写出好文章。

我的文章会首发在公众号上，欢迎扫码关注我的公众号张贤同学。

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程的更多相关文章

文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作.在介绍向量化之前,我们先来了解下词袋模型. 1.词袋模型(Bag of words,简称 BoW ) 词袋模型假设我们不考虑文本中词与词 ...
Git和Github简单教程
原文链接:Git和Github简单教程网络上关于Git和GitHub的教程不少,但是这些教程有的命令太少不够用,有的命令太多,使得初期学习的时候需要额外花不少时间在一些当前用不到的命令上. 这篇文章 ...
FusionCharts简单教程(三)-----如何自定义图表上的工具提示
最近有蛮多人总是问我这个FusionCharts制表的问题,帮助他们解决之后,在昨晚发现以前整理的笔记中有这个简单教程,而且以前也发表了几篇这个博文,所以就将其全部上传上来供别人参考.如有不正确之处望 ...
FusionCharts简单教程(八)-----使用网格组件
有时候我们会觉得使用图像不够直接,对于数据的显示没有表格那样直接明了.所以这里就介绍如何使用网格组件.将网格与图像结合起来.网格组件能够将FusionCharts中的单序列数据以列表的 ...
Qt Quick 简单教程
上一篇<Qt Quick 之 Hello World 图文详解>我们已经分别在电脑和 Android 手机上运行了第一个 Qt Quick 示例—— HelloQtQuickApp ,这篇 ...
Git和Github简单教程(收藏)
原文链接:Git和Github简单教程目录: 零.Git是什么一.Git的主要功能:版本控制二.概览三.Git for Windows软件安装四.本地Git的使用五.Github与Git的 ...
mysql安装简单教程(自动安装/配置安装)
mysql安装简单教程(自动安装/配置安装) 1.1前言: 由于特殊原因,在最近2-3个月里mysql真是安装了无数遍,每次安装都要上网找教程,每个教程基本都不一样,因此还是自己写下来比较好,毕竟自己 ...
平衡树简单教程及模板（splay, 替罪羊树, 非旋treap）
原文链接https://www.cnblogs.com/zhouzhendong/p/Balanced-Binary-Tree.html 注意是简单教程,不是入门教程. splay 1. 旋转: 假设 ...
LayaAir引擎开发HTML5最简单教程(面向JS开发者)
LayaAir引擎开发HTML5最简单教程(面向JS开发者) 一.总结一句话总结:开发游戏还是得用游戏引擎来开发,其实很简单啦切记:开发游戏还是得用游戏引擎来开发,其实很简单,引擎很多东西都帮你做 ...

随机推荐

大数据框架Hive优化方法
常规调优手段 Fetch抓取某些情况查询不必用MapReduce计算,比如select*,可以直接读取文件本地模式有时数据量比较小,hive可以通过本地模式在单台机器上处理所有任务,对于小数据集 ...
互联网找的e是无理数的初等证明
e的两种计算方式 $e=lim_{n \to \infty}(1+\frac{1}{n})^n$ $e=\sum_{n=0}^{+\infty}\frac{1}{n!}$ \(即,e=\fra ...
使用AB对Nginx压测和并发预估
简介 ab命令会创建多个并发访问线程,模拟多个访问者同时对某一URL地址进行访问.它的测试目标是基于URL的. # 1.ab每次只能测试一个URL,适合做重复压力测试 # 2.参数很多,可以支持添加c ...
《Python编程快速上手 —让繁琐工作自动化》|百度网盘免费下载|Python自动化办公
Python编程快速上手—让繁琐工作自动化提取码:u8vj 如今,人们面临的大多数任务都可以通过编写计算机软件来完成. Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言.通过 P ...
2016A06寒假作业　全排列
又是一个全排列哈, 注意注意,这个题不是十三个数字都需要,但原理是一样的一开始把for的边界写错了(每次其实应该从k开始,还没看出来orz) #include <iostream> #i ...
org.springframework.beans.factory.UnsatisfiedDependencyException异常
注解配置不完整如Service实现类没有加 * @Service * @Transactional
MacOS英语学习
总结于B站Mac云课堂:https://www.bilibili.com/video/BV1vf4y1U7SZ 各个软件的链接: Edge:https://www.microsoft.com/zh-c ...
Zuul token FIlter 验证失败结果输出
1.背景用 postman 测试 zuul 网关路由成功和失败的时候,发现路由成功的时候,返回的结构体是 json 格式,但是路由失败的时候,返回的是空. 结构体居然不一样,这对调用方来说也要 ...
PHP array_search() 函数
实例在数组中搜索键值 "red",并返回它的键名: <?php$a=array("a"=>"red","b" ...
浅谈树形结构的特性和应用（上）:多叉树，红黑树，堆，Trie树，B树，B+树...
上篇文章我们主要介绍了线性数据结构,本篇233酱带大家康康无所不在的非线性数据结构之一:树形结构的特点和应用. 树形结构,是指:数据元素之间的关系像一颗树的数据结构.我们看图说话: 它具有以下特点: ...

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程

CountVectorizer

TfidfTransformer

TfidfVectorizer

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的简单教程的更多相关文章

随机推荐

热门专题