TF-IDF与主题模型 - NLP学习（3-2）

在上一篇博文中，简单地阐述了如何将文本向量化及词袋模型的。文本向量化是为了将文本转换成机器学习算法可以直接处理的数字，直白点说就是这些转换后数字代表了文本的特征（此过程称之为特征提取或者特征编码），可以直接为机器学习模型所用。词袋模型（Bag-of-Words: BOW）则指的是统计单词在一个文本中出现的次数的表现形式（occurence of words within a specific document），主要是考量文本的两个方面：

展现文本中出现的已知的词汇 --- 词汇量；
量化单词的存在。

而之所以称之为词袋主要是因为该方式忽略了文本本来的有序性和结构性。一般词袋模型主要是用来衡量文档的相似性，因为两个类似的文档所含有的类似的文本内容。紧接着，就可以用BOW来做进一步分析，如语意分析等。在这篇博文中，将主要阐述如何从词袋模型过度到TF-IDF词袋模型，接着解释TF-IDF是如何被运用到主题模型中的。

主题模型

1.1 齐波夫定律（Zipf's Law）

在正式介绍TF-IDF之前，先看看什么是齐波夫定律，因为这样子有助于理解TF-IDF的含义。下面是关于英文的介绍：

“Zipf's Law describes that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table.”

上面这段话表述的是：给定一个文档，任何一个单词出现的频次是与其在频次表（很多地方用的频率，这里用频次是为了做一定的区分，频率想表述的是一种占比关系，频次则说明次数的问题）上的位置（排名）成反比的。比如说一个单词出现在频次表上的第一位，那么它出现的次数基本（非严格意义）是排在第二位的单词出现的次数的2倍，第三位的3倍，以此推断下去。上面有说非严格意义的意思是说，并不是精准的两倍三倍的差距，而是说在一个文本足够大的情况下是如此。

1.2 主题模型（Topic Modelling）

知道一个文本各个单词的出现的频次可以提供给机器学习算法一些初步的特征，但是单单知道单词的频次并不能赋予我们做更多的事，也无从得知某个单词对于该文档的重要性。这里正式引入逆文本频率指数（IDF：Inverse Doccument Frequency），通过了解IDF来引出最终所需要的TF-IDF整个计算公式和运用。TF-IDF的意思是：如果一个单词（文本标识符）出现在一个文档中的次数越多，但是却很少出现在其他文档中，那么就可以假设这个单词在这个特定的文本中的分量是很重要的。具体的计算公式如下：

IDF = total number of documents (文本集含有的文本总数) / the number of documents contain a term (含有特定单词的文本数)

举个例子，假设我们现在有一个文本集，这个文本集一共含有5个不同的文本内容，其中3个文本含有‘China’这个单词，那么IDF('China') = 5 / 3 = 1.67。但是直接拿IDF来衡量一个单词在一个文本中的重要性，那样子显然会碰到一个问题，那就是数量级问题。比如我们有一个文本集，该文本集有100万个文档，在这100个文档中寻找apple这个单词，已知只有一个文本含有apple这个单词，又已知有10个文档含有orange这单词，那么可以得到这两个单词的IDF分别为：100万和10万，通过这个例子可以看到量级差别太巨大，并不适合比较，所以在处理这样子情况下建议引入log()和exp()函数来让单词的出现的频次和文档频次处于统一水平，这样子做的好处是后期计算得到的TF-IDF值会是均匀分布（uniformly distributed）。通过引入log，这个时候之前关于查找apple和orange的例子就会变成:

IDF('apple') = log(1000000/1) = 6

IDF('orange') = log(1000000/10) = 5

综上，假设一个标识符 t 出现在一个文本集 D 中的特定文档 d 的频率可以定义为：

TF(t, d) = number of t appears in document d /total tokens in document d

IDF(t, D) = log(number of documents / number of documents containing t)

TF-IDF(t, d, D) = TF * IDF

从上述公式可以看出，如果一个单词出现在特定文档的次数越多，那么IDF的值也会相应的增大，紧接着TF-IDF的权重也会变大。这也就是说明了TF-IDF的值可以帮助理解一个文档想要表达的或者帮助理解主题模型，因为按照之前的假设，一个单词出现次数越多越能表达一个文档想要表达的意思（注意停顿词等的影响要去除）。下面代码简单描述了如何计算TF-IDF向量：

 import copy

 from nltk.tokenize import TreebankWordTokenizer

 from collections import OrderedDict

 docs = ["The faster Harry got to the store, the faster and faster Harry would get home."]

 docs.append("Harry is hairy and faster than Jill.")

 docs.append("Jill is not as hairy as Harry.")

 tokenizer = TreebankWordTokenizer()

 doc_tokens = []

 for doc in docs:

     doc_tokens += [sorted(tokenizer.tokenize(doc.lower()))]

 all_doc_tokens = sum(doc_tokens, [])

 lexicon = sorted(set(all_doc_tokens))

 zero_vector = OrderedDict((token, 0) for token in lexicon)

 document_tfidf_vectors = []

 for doc in docs:

     vec = copy.copy(zero_vector)

     tokens = tokenizer.tokenize(doc.lower())

     token_counts = Counter(tokens)

     for key, value in token_counts.items():

         docs_containing_key = 0

         for _doc in docs:

             if key in _doc:

                 docs_containing_key += 1

         tf = value / len(lexicon)

         if docs_containing_key:

             idf = len(docs) / docs_containing_key

         else:

             idf = 0

         vec[key] = round(tf * idf, 4)

     document_tfidf_vectors.append(vec)

TF-IDF与主题模型 - NLP学习（3-2）的更多相关文章

LDA算法 (主题模型算法) 学习笔记
转载请注明出处: http://www.cnblogs.com/gufeiyang 随着互联网的发展,文本分析越来越受到重视.由于文本格式的复杂性,人们往往很难直接利用文本进行分析.因此一些将文本数值 ...
NLP传统基础（2）---LDA主题模型---学习文档主题的概率分布（文本分类/聚类）
一.简介 https://cloud.tencent.com/developer/article/1058777 1.LDA是一种主题模型作用:可以将每篇文档的主题以概率分布的形式给出[给定一篇文档 ...
算法工程师进化-NLP之主题模型
1 引言主题模型是文本挖掘的重要工具,近年来在学术界和工业届都获得了非常多的关注.学术界的工作主要集中在建模层面,即提出各种各样的主题模型来适应不同的场景,因此缺乏指导主题模型在工业场景落地的资源和 ...
NLP学习（2）----文本分类模型
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
NLP学习（1）---Glove模型---词向量模型
一.简介: 1.概念:glove是一种无监督的Word representation方法. Count-based模型,如GloVe,本质上是对共现矩阵进行降维.首先,构建一个词汇的共现矩阵,每一行是 ...
LDA（ Latent Dirichlet Allocation）主题模型学习报告
1 问题描述 LDA由Blei, David M..Ng, Andrew Y..Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一 ...
用scikit-learn学习LDA主题模型
在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型.除了scikit-learn, 还有spark MLlib和gensim库 ...
Familia：百度NLP开源的中文主题模型应用工具包
参考:Familia的Github项目地址.百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具.语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet A ...

随机推荐

mysql——约束
非空约束: create table temp( id int not null, name varchar() not null default 'adc', sex char null )//给i ...
c c++面试----c工程开发之链接
多数c语言的初学者对c工程开发过程各个阶段的作用理解不到位,而这方面的的知识又是实际开发过程中经常用到的技能点,所以就成为面试考察中一个重要的考察方面.例如:头文件的作用.头文件的内容:链接的作用和意 ...
ETO的公开赛T2《宏聚变》题解(BY 萌萌哒123456 )
我们注意到这道题中最多有 $(n+q)$ 个数被加入,而每个数最多被删除一次,因此每次操作 $O(logn)$的复杂度是可以接受的. 我们对于$1..100000$之间每个数分别开一个set,维护这个 ...
【操作系统作业—lab1】linux shell脚本遍历目标文件夹和所有文件 | 包括特殊字符文件名的处理
要求:写一个linux bash脚本来查看目标文件夹下所有的file和directory,并且打印出他们的绝对路径. 运行command:./myDir.sh input_path output_ ...
git 上传到码云
创建分支在码云里创建好分支命令行进入项目所在的目录显示码云上的分支 git pull 选择将要编辑的分支(index-fenzhi) git checkout index-fenzhi 查看分支 ...
云监控自定义HTTP状态码说明
您在使用站点监控时,返回的6XX状态码均为云监控自定义HTTP状态码,具体含义如下表所示: 状态码含义备注 610 HTTP连接超时监测点探测您的网站时出现连接超 ...
使用公共的存储过程实现repeater的分页
当一个项目repeater分页多的时候使用公共的存储过程实现分页,是不错的选择 ALTER PROC [dbo].[P_Common_proc] -- 通用分页存储过程 @TableName varc ...
【rip-基础配置】
配置rip,默认rip id为 1:rip有version1和version2两个版本;宣告与rip直连的网段; 优化rip: [interface_name] rip poison-reverse ...
总结laravel假数据填充步骤
定义好模型 xxx.php 定义好数据生成的规则 database/factories/XxxlFactory.php 写入生成数据的代码,控制好生成的数据数目,对生成后的数据做出修改 databas ...
CentOS下禁止防火墙
CentOS下禁止防火墙 1.使用如下命令安装iptables-services. yum install -y iptables-services 2.关闭防火墙. service iptables ...

TF-IDF与主题模型 - NLP学习（3-2）

TF-IDF与主题模型 - NLP学习（3-2）的更多相关文章

随机推荐

热门专题