关键字提取算法TF-IDF

在文本分类的学习过程中，在“如何衡量一个关键字在文章中的重要性”的问题上，遇到了困难。在网上找了很多资料，大多数都提到了这个算法，就是今天要讲的TF-IDF。

总起

　　TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。

　　TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式：

　　其中：

　　　　TF(i,j)：关键词j在文档i中的出现频率。

　　　　n(i,j)：关键词j在文档i中出现的次数。

　　比如，一篇文章一共100个词汇，其中“机器学习”一共出现10次，那么他的TF就是10/100=0.1。

　　这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性（出现频率越高就越重要），其实不然，单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。这里我们要引出IDF，来帮助我们解决这个问题。

IDF

　　IDF，英文全称：Inverse Document Frequency，即“反文档频率”。先看什么是文档频率，文档频率DF就是一个词在整个文库词典中出现的频率，就拿上一个例子来讲：一个文件集中有100篇文章，共有10篇文章包含“机器学习”这个词，那么它的文档频率就是10/100=0.1，反文档频率IDF就是这个值的倒数，即10。因此得出它的计算公式:

其中：

　　IDF(i)：词语i的反文档频率

　　|D|：语料库中的文件总数

　　|j:t(i)属于d(j)|出现词语i的文档总数

　　+1是为了防止分母变0。

　　于是这个TF*IDF就能用来评估一个词语的重要性。

　　还是用上面这个例子，我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词，研究某篇500词文章，“机器学习”出现了20次，“而且”出现了20次，那么他们的TF都是20/500=0.04。再来看IDF，对于语料库的100篇文章，每篇都出现了“而且”，因此它的IDF就是log1=0,他的TF*IDF=0。而“机器学习”出现了10篇，那么它的IDF就是log10=1,他的TF*IDF=0.04>0，显然“机器学习”比“而且”更加重要。

总结

　　这算法看似简单，实际上在SEO搜索引擎优化啊，文本分类方面用的挺多的，面试时也常常作为信息论知识储备来出题。

关键字提取算法TF-IDF的更多相关文章

关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank
关键词: TF-IDF实现.TextRank.jieba.关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据数据处 ...
关键字提取算法之TF-IDF扫盲
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或 ...
关键词提取TF-IDF算法/关键字提取之TF-IDF算法
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与信息探勘的常用加权技术.TF的意思是词频(Term - frequency), ...
TF-IFD算法及python实现关键字提取
TF-IDF算法: TF:词频(Term Frequency),即在分词后,某一个词在文档中出现的频率. IDF:逆文档频率(Inverse Document Frequency).在词频的基础上给每 ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...
25.TF&IDF算法以及向量空间模型算法
主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean mo ...

随机推荐

appium定位toast消息的使用
定位使用xpath后,定位消息文本,然后使用text获取消息文本做断言.toast_loc = ("xpath", ".//*[contains(@text,'切换运营商 ...
Intel 处理器架构演进转
Intel 处理器架构演进 Posted on 2018-02-13 | Edited on 2018-09-23 | In Computer Architecture | Comments: ...
mac电脑使用技巧和相关快捷键
移动与选取 1. 光标移动刚从 Windows 转过来的时候可能会发现,Mac 上没有 Home 和 End 键.其实,直接这样就好了: Cmd + ← 移至行首 (Home)Cmd + → 移 ...
eclipse Maven Dependencies 黑色背景说明
记录工作点点滴滴,大到系统设计,源码分析,小到IDE设置. 这里要说的是eclipse中Maven Dependencies 为什么有些jar用黑色背景,如下图所示: 网上很多人说jar包在本地仓库不 ...
tomcat 请求处理流程分析（基于nio）
在这里我先简单的说下bio和nio的区别这里我以电话客服的情况来解释 bio 一个客户对应一个客服, 假如客户比较麻烦,中途不挂电话,或者去做其他事情了,而客服资源会被一直占用导致的后果是系统处理 ...
Vmware Workstation添加centos 7系统网络问题（无IP情况）
简单配置命令行输入ip addr 查询不到IP的情况,如下: 解决办法: 1. vi /etc/sysconfig/network-scripts/ifcfg-ens33 2. 最后一行,ONBO ...
eclipse中修改maven本地仓库方式
1.安装maven,教程可参考:https://jingyan.baidu.com/article/4f7d5712a1306c1a21192746.html 2.安装成功后,可以打开eclipse新 ...
affiliate的使用方式
什么是affiliate https://www.zhihu.com/question/24262490 通俗的理解就是,我们寻找合作伙伴,让合作伙伴帮忙做宣传,我们会根据他们的宣传力度发放相关的奖励 ...
TCP的三次握手与四次挥手
TCP的连接建立是一个三次握手过程,目的是为了通信双方确认开始序号,以便后续通信的有序进行主要步骤: 服务器一定处于Listen状态,否则客户端发过来的连接会被拒绝.注:服务器和客户端的角色是相对的 ...
去除最后一个li的样式
推荐::::方法一,使用:first-child 纯css的:first-child伪类就可以胜任此任务,操作很方便,代码量忽略不计.支持IE7+,不支持IE6 :first-child /:l ...

关键字提取算法TF-IDF

关键字提取算法TF-IDF的更多相关文章

随机推荐

热门专题