文本数据预处理的第一步通常是进行分词，分词后会进行向量化的操作。在介绍向量化之前，我们先来了解下词袋模型。

1.词袋模型（Bag of words，简称 BoW ）

词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。

词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正，再将特征进行标准化。再进行一些其他的特征工程后，就可以将数据带入机器学习模型中计算。

词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）。

词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。

在词袋模型统计词频的时候，可以使用 sklearn 中的 CountVectorizer 来完成。下面具体说明。

2.词频向量化

CountVectorizer 类会将文本中的词语转换为词频矩阵，例如矩阵中包含一个元素a[i][j]，它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数，通过get_feature_names()可获取词袋中所有文本的关键字，通过 toarray()可看到词频矩阵的结果。

官方文件中提到其参数很多默认值就很好，无需再改动，详细参数设置参见：点击打开链接。例子如下：

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(min_df=1)

corpus = [      'This is the first document.',

    		'This is the second second document.',

    		'And the third one.',

		'Is this the first document?',

		]

X = vectorizer.fit_transform(corpus)

feature_name = vectorizer.get_feature_names()

print (X)

print (feature_name)

print (X.toarray())

输出：

   (0, 1)        1

  (0, 2)        1

  (0, 6)        1

  (0, 3)        1

  (0, 8)        1

  (1, 5)        2

  (1, 1)        1

  (1, 6)        1

  (1, 3)        1

  (1, 8)        1

  (2, 4)        1

  (2, 7)        1

  (2, 0)        1

  (2, 6)        1

  (3, 1)        1

  (3, 2)        1

  (3, 6)        1

  (3, 3)        1

  (3, 8)        1

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

[[0 1 1 ..., 1 0 1]

 [0 1 0 ..., 1 0 1]

 [1 0 0 ..., 1 1 0]

 [0 1 1 ..., 1 0 1]]

在输出中，左边的括号中的第一个数字是文本的序号i，第2个数字是词的序号j，注意词的序号是基于所有的文档的。第三个数字就是我们的词频。

可以看到一共有9个词，所以4个文本对应的都是9维的特征向量。

由于大部分文本都只会用词汇表中很少一部分的词，因此词向量中有大量的0，也就是说词向量是稀疏的。因此在实际应用中一般使用稀疏矩阵来存储。

3.TF-IDF处理

然而有些词在文本中尽管词频高，但是并不重要，这个时候就可以用TF-IDF技术。

TF-IDF（Term Frequency–Inverse Document Frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF。

（1）词频（Term Frequency，TF）指的是某一个给定的词语在该文件中出现的频率。即词w在文档d中出现的次数count(w, d)和文档d中总词数size(d)的比值。

tf(w,d) = count(w, d) / size(d)

这个数字是对词数 (term count) 的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）

（2）逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。即文档总数n与词w所出现文件数docs(w, D)比值的对数。　

idf = log(n / docs(w, D))

TF-IDF根据 tf 和 idf 为每一个文档d和由关键词w[1]…w[k]组成的查询串q计算一个权值，用于表示查询串q与文档d的匹配度：

tf-idf(q, d) = sum { i = 1..k | tf-idf(w[i], d) } = sum { i = 1..k | tf(w[i], d) * idf(w[i]) }

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

4.用sklearn进行TF-IDF预处理

第一种方法是在用 CountVectorizer 类向量化之后再调用 TfidfTransformer 类进行预处理。第二种方法是直接用 TfidfVectorizer 完成向量化与 TF-IDF 预处理。

4.1 CountVectorizer 结合 TfidfTransformer

依旧用上面的文本，实现如下：

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import CountVectorizer 

corpus = [          'This is the first document.',

		'This is the second second document.',

		'And the third one.',

		'Is this the first document?',

		]

vectorizer=CountVectorizer()

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

print (tfidf)

输出的各个文本各个词的 TF-IDF 值如下：

  (0, 8)        0.438776742859

  (0, 3)        0.438776742859

  (0, 6)        0.358728738248

  (0, 2)        0.541976569726

  (0, 1)        0.438776742859

  (1, 8)        0.272301467523

  (1, 3)        0.272301467523

  (1, 6)        0.222624292325

  (1, 1)        0.272301467523

  (1, 5)        0.853225736145

  (2, 6)        0.28847674875

  (2, 0)        0.552805319991

  (2, 7)        0.552805319991

  (2, 4)        0.552805319991

  (3, 8)        0.438776742859

  (3, 3)        0.438776742859

  (3, 6)        0.358728738248

  (3, 2)        0.541976569726

  (3, 1)        0.438776742859

4.2 用 TfidfVectorizer

实现代码如下：

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf2 = TfidfVectorizer()

re = tfidf2.fit_transform(corpus)

print (re)

输出：

  (0, 8)        0.438776742859

  (0, 3)        0.438776742859

  (0, 6)        0.358728738248

  (0, 2)        0.541976569726

  (0, 1)        0.438776742859

  (1, 8)        0.272301467523

  (1, 3)        0.272301467523

  (1, 6)        0.222624292325

  (1, 1)        0.272301467523

  (1, 5)        0.853225736145

  (2, 6)        0.28847674875

  (2, 0)        0.552805319991

  (2, 7)        0.552805319991

  (2, 4)        0.552805319991

  (3, 8)        0.438776742859

  (3, 3)        0.438776742859

  (3, 6)        0.358728738248

  (3, 2)        0.541976569726

  (3, 1)        0.438776742859

统计个数和计算频率两种方法虽然非常实用，但是也由其局限性导致词汇量可能变得非常大。词汇量过大又将导致需要非常大的矢量来编码文档，从而对内存产生很大的要求，同时拖慢算法的速度。卤煮会在后续的博客中介绍优化方法。

参考资料：

http://scikit-learn.org/stable/modules/feature_extraction.html#common-vectorizer-usage

http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html#top

https://zhangzirui.github.io/posts/Document-14%20(sklearn-feature).md

文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer的更多相关文章

sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成训练文件
import sys import codecs # 1. 参数设置 MODE = "PTB_TRAIN" # 将MODE设置为"PTB_TRAIN", &qu ...
【tensorflow2.0】处理文本数据
一,准备数据 imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签. 训练集有20000条电影评论文本,测试集有5000条电影评论文本,其中正面评论和负面评论都各占一半. 文本数据预处理较为 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
sklearn中的数据预处理和特征工程
小伙伴们大家好~o(￣▽￣)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是 ...
sklearn中的数据预处理----good!! 标准化归一化在何时使用
RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimiz ...

随机推荐

openwrt生成的镜像放在哪里
答:1.打包好之后是放在build_dir/target-$(cross-compile-toolchan-name)/linux-$(chip-series-name)_$(chip-arch)/t ...
独家git clone 加速方法
git clone 独家方法最近需要下载网上很多github库,所以git clone 4kb/s 的速度可以把人逼疯,为了加速git clone才有了这篇博客网上有很多加速的方案比如 blog ...
【异常记录(五)】C# 无法发送具有此谓词类型的内容正文错误
今天请求接口直接调了以前写好的方法,结果报了(405)不支持方法的错误,一看是GET写成POST了,改成GET之后,又报了无法发送具有此谓词类型的内容正文错误的错误原来之前的方法里面有GetRequ ...
POJ 2186 Popular Cows（强连通分量Kosaraju）
http://poj.org/problem?id=2186 题意: 一个有向图,求出点的个数(任意点可达). 思路: Kosaraju算法的第一次dfs是后序遍历,而第二次遍历时遍历它的反向图,从标 ...
maven spring MVC 及tomcat
eclipse+tomcat8+springMVC环境搭建https://blog.csdn.net/code_fighter/article/details/79169058 Eclipse+Tom ...
[转载]查看JDK及Java框架的源代码
1.点 "window"-> "Preferences" -> "Java" -> "Installed JRE ...
ubuntu16.04 安装power shell
ubuntu16.04 安装power shell # Download the Microsoft repository GPG keys wget -q https://packages.micr ...
【Linux】结合Python 简易实现监控公司网站，邮件发送异常
背景由于一些原因,博主负责测试的网站的服务器切换到了香港,切换后出现了多次访问超时的情况于是主动请缨写一个自动监测的脚本,本来准备完全使用shell来写,后来发现shell发送邮件只能在测试机之间 ...
英语每日阅读---5、VOA慢速英语(翻译+字幕+讲解):美国人口普查局表示美国人受教育程度提升
英语每日阅读---5.VOA慢速英语(翻译+字幕+讲解):美国人口普查局表示美国人受教育程度提升一.总结一句话总结: a.Thirty-four percent - college degree: ...
5分钟弄懂Docker
尽管之前久闻Docker的大名了,但是天资愚钝,对其到底是个啥东西一直摸不清,最近花了一段时间整理了一下,算是整理出一点头绪来. 官网的介绍是这样的: Docker is an open platfo ...

文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer