文本相似度 — TF-IDF和BM25算法

1，$TF-IDF$算法

　　$TF$是指归一化后的词频，$IDF$是指逆文档频率。给定一个文档集合$D$，有$d_1, d_2, d_3, ......, d_n \in D$。文档集合总共包含$m$个词（注：一般在计算$TF-IDF$时会去除如“的”这一类的停用词），有$w_1, w_2, w_3, ......, w_m \in W$。我们现在以计算词$w_i$在文档$d_j$中的$TF-IDF$指为例。$TF$的计算公式为：

　　　　$ TF = \frac{freq(i, j)} {max_{len}(j)} $

　　在这里$freq(i, j)$ 为$w_i$在$d_j$中出现的频率，$max_{len}(j)$为$d_j$长度。

　　$TF$只能时描述词在文档中的频率，但假设现在有个词为”我们“，这个词可能在文档集$D$中每篇文档中都会出现，并且有较高的频率。那么这一类词就不具有很好的区分文档的能力，为了降低这种通用词的作用，引入了$IDF$。

　　$IDF$的表达式如下：

　　　　$IDF = \log (\frac {len(D)} {n(i)})$

　　在这里$len(D)$表示文档集合$D$中文档的总数，$n(i)$表示含有$w_i$这个词的文档的数量。

　　得到$TF$和$IDF$之后，我们将这两个值相乘得到$TF-IDF$的值：

　　　　$TF-IDF = TF * IDF$　

　　$TF$可以计算在一篇文档中词出现的频率，而$IDF$可以降低一些通用词的作用。因此对于一篇文档我们可以用文档中每个词的$TF-IDF$组成的向量来表示该文档，再根据余弦相似度这类的方法来计算文档之间的相关性。

2，$BM25$算法

　　$BM25$算法通常用来做搜索相关性评分的，也是ES中的搜索算法，通常用来计算$query$和文本集合$D$中每篇文本之间的相关性。我们用$Q$表示$query$，在这里$Q$一般是一个句子。在这里我们要对$Q$进行语素解析（一般是分词），在这里以分词为例，我们对$Q$进行分词，得到$q_1, q_2,......, q_t$这样一个词序列。给定文本$d \in D$，现在以计算$Q$和$d$之间的分数（相关性），其表达式如下：

　　　　$Score(Q, d) = \sum_{i = 1}^t w_i * R(q_i, d)$

　上面式子中$w_i$表示$q_i$的权重，$R(q_i, d)$为$q_i$和$d$的相关性，$Score(Q, d)$就是每个语素$q_i$和$d$的相关性的加权和。

　　$w_i$的计算方法有很多，一般是用$IDF$来表示的，但这里的$IDF$计算和上面的有所不同，具体的表达式如下：

　　　　$w_i = IDF(q_i) = \log \frac {N - n(q_i) + 0.5} {n(q_i) + 0.5}$

　　上面式子中$N$表示文本集合中文本的总数量，$n(q_i)$表示包含$q_i$这个词的文本的数量，$0.5$主要是做平滑处理。

　　$R(q_i, d)$的计算公式如下：

　　　　$R(q_i, d) = \frac {f_i * (k_1 + 1)} {f_i + K} * \frac {qf_i * (k_2 + 1)} {qf_i + k_2}$

　　其中

　　　　$K = k_1 * (1 - b + b * \frac {dl} {avg dl})$

　　上面式子中$f_i$为$q_i$在文本$d$中出现的频率，$qf_i$为$q_i$在$Q$中出现的频率，$k_1, k_2, b$都是可调节的参数，$dl, avg dl$分别为文本$d$的长度和文本集$D$中所有文本的平均长度。

　　一般$qf_i = 1$，取$k_2 = 0$，则可以去除后一项，将上面式子改写成：

　　　　$R(q_i, d) = \frac {f_i * (k_1 + 1)} {f_i + K}$

　　通常设置$k_1 = 2, b = 0.75$。参数$b$的作用主要是调节文本长度对相关性的影响。

文本相似度 — TF-IDF和BM25算法的更多相关文章

信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...
Okapi BM25算法
引言 Okapi BM25,一般简称 BM25 算法,在 20 世纪 70 年代到 80 年代,由英国一批信息检索领域的计算机科学家发明.这里的 BM 是"最佳匹配"(Best M ...
文本相似度-BM25算法
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms app ...
.NET下文本相似度算法余弦定理和SimHash浅析及应用
余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度. 我们简单表述如下文本1:我/爱/北京/ ...
文本相似度算法——空间向量模型的余弦算法和TF-IDF
1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...
Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
55.TF/IDF算法
主要知识点: TF/IDF算法介绍查看es计算_source的过程及各词条的分数查看一个document是如何被匹配到的一.算法介绍 relevance score算法,简单来说 ...

随机推荐

Lenovo System x3650 设置管理接口地址
1.开启服务器. 2.显示<F1> Setup提示后,按 F1.(此提示在屏幕上仅显示几秒钟.必须迅速按 F1.) 如果同时设置了开机密码和管理员密码,则必须输入管理员密码才能访问完整的 ...
【机器学习笔记一】协同过滤算法 - ALS
参考资料 [1]<Spark MLlib 机器学习实践> [2]http://blog.csdn.net/u011239443/article/details/51752904 [3]线性 ...
还原堆栈信息，分析地形系统使用ASTC格式的纹理导致Crash的问题
0x00 前言在这篇文章中,我们选择了过去一周Unity官方社区交流群中比较有代表性的几个问题,总结在这里和大家进行分享.主要涵盖了IL2CPP.Scripting.Virtual Reality. ...
学python走过的坑三不能实现的浏览器缩放功能
公司一个项目,在启动web页面时,默认应该是打开项目页面,然后浏览器启动时总是打开一个广告页面,经理让写一个脚本,让电脑每次开机自启浏览器,且加载项目页面.浏览器自启和打开项目页面轻松搞定,这时问题来 ...
从壹开始前后端分离【 .NET Core2.0 +Vue2.0 】框架之十 || AOP面向切面编程浅解析：简单日志记录 + 服务切面缓存
代码已上传Github+Gitee,文末有地址上回<从壹开始前后端分离[ .NET Core2.0 Api + Vue 2.0 + AOP + 分布式]框架之九 || 依赖注入IoC学习 + ...
redis的list类型！！！！
list类型 list类型是按照插入顺序排序的字符串链表,可在(left)头部和(right)尾部插入值,效率高. list增操作若插入时,该键不存在,则会创建.若所有元素被移除,该键也会被删除. ...
js数组去重常用方法
js数组去重是面试中经常会碰到的问题,无论是前端还是node.js数组常见的有两种形式,一种是数组各元素均为基本数据类型,常见的为数组字符串格式,形如['a','b','c'];一种是数组各元素不定, ...
图解TCP三次握手
参考:https://blog.csdn.net/u012804886/article/details/80998114
Sql Server 的参数化查询
为什么要使用参数化查询呢?参数化查询写起来看起来都麻烦,还不如用拼接sql语句来的方便快捷.当然,拼接sql语句执行查询虽然看起来方便简洁,其实不然.远没有参数化查询来的安全和快捷. 今天刚好了解了一 ...
90后的青春，定格在被淡忘的QQ空间里
QQ空间,这个曾经陪我们从童年到少年再到成年,从2G时代再到如今的4G末,占据了我们太多的青春回忆,如今好友空间动态更新的不在像从前那样频繁.依稀记得当年的好友买卖,抢车位再或者情侣空间,现在想想那时 ...

文本相似度 — TF-IDF和BM25算法

文本相似度 — TF-IDF和BM25算法的更多相关文章

随机推荐

热门专题