概率排序原理

以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似性来进行相关性估计的，而概率检索模型是一种直接对用户需求进行相关性的建模方法，一个query进来，将所有的文档分为两类 -- 相关文档、不相关文档，这样就转为了一个相关性的分类问题。

对于某个文档D来说，P(R|D)表示该文档数据相关文档的概率，则P(NR|D)表示该文档属于不相关文档的概率，如果query属于相关文档的概率大于不相关文档P(R|D)>P(RN|D)，则认为这个文档是与用户查询相关相关的。

现在使用贝叶斯公式将其转一下：

在搜索排序过程中不需要真正的分类，只需要保证相关性由高到底排序即可，所以只需要P(D|R) / P(D|NR)降序即可，
这样就最终转为计算P(D|R)，P(D|NR)的值即可。

二元独立模型(BIM)

为了能够使得上述两个计算因子可行，二元独立模型做出了两个假设：

1. 二元假设

类似于布尔模型中的文档表示方法，一篇文档在由特征（或者单词）进行表示的时候，以特征（或者单词）出现和不出现两种情况来表示，不考虑词频等其他因素。

2. 词汇独立性假设

指文档里出现的单词之间没有任何关联，任意一个单词在文档的分布概率不依赖于其他单词是否出现。因为词汇之间没有关联，所以可以将文档概率转换为单词概率的乘积。

上述提到的文档D表示为{1,0,1,0,1}，用pi来表示第i个单词在相关文档出现的概率，则在已知相关文档集合的情况下，观察到D的概率为:

第1,3,5表示这个单词在D中出现，所以其贡献概率为pi，而第2,4这两个单词并没有在D中出现，所以其贡献的概率为1−pi。

同理在不相关文档中观察到的概率为：

最终得到的相关性概率估算为：

现在将其推广之后可以有通用的式子：

di=1表示在文档中出现的单词，di=0表示没在文档中出现的单词。

在这里进一步对上述公式进行等价变换之后有：

其中上面式子第三步的第二部分表示各个单词在所有文档中出现的概率，所以这个式子的值和具体文档并没有什么关系，在排序中不起作用，才可以简化到第4步。

为了方便计算，将上述连乘公式取log：

有了上述最终可计算的式子之后，我们就只需要统计文档D中的各个单词在相关文档/不相关文档中出现的概率即可：

上面的表格表示各个单词在文档集合中的相关文档/不相关文档出现数量，同时为了避免log(0)出现，加上平滑之后可以计算得到：

则最终可以得到如下公式：

其代表的含义是：对于同时出现在用户查询Q和文档D中的单词，累加每个单词的估值，其和就是文档D和查询的相关性度量。

在不确定哪些文档是相关的，哪些文档是不相关的的时候，可以给公式的估算因子直接赋予固定值，则该公式将会退化为IDF因子。

BM25模型

BIM模型基于二元独立假设推导而出，即对于单词特征，只考虑是否在文档中出现过，而不考虑单词的权值。BM25模型在BIM模型的基础上，考虑了单词在查询中的权值及单词在文档中的权值，拟合出综合上述考虑因素的公式，并通过实验引入一些经验参数。

BM25模型的具体计算公式如下所示：

上面的式子中:

第1个组成部分即为上一小节的二元独立模型BIM计算得分，如果赋予一些默认值的话，等价于IDF因子的作用。
第2个组成部分是查询词在文档D中的权值，其中fi代表了单词在文档D中的词频，K因子代表了对文档长度的考虑，其计算公式为
1. k1为经验参数，作用是对查询词在文档中的词频进行调节。如果设为0，则第2部分整体变为1，即不考虑词频的因素，退化成了BIM模型；如果设为较大值，则第2部分计算因子基本与词频fi保持线性增长，即放大了词频的权值。根据经验，一般讲k1设置为1.2。
2. b为调节因子，将b设为0时，文档长度因素将不起作用，经验表明一般b=0.75。
3. dl代表当前文档D的长度。
4. avdl代表文档集合中所有文档的平均长度。
第3个组成部分是查询词自身的权值，qfi表示查询词在用户查询中的词频，如果查询较短小的话，这个值一般是1，k2也为调节因子，是针对查询中的词频进行调节，因为查询往往很短，所以不同查询词的词频都很小，词频之间差异不大，为了放大这部分的差异，k2一般取值为0~1000。

综合来看，BM25模型计算公式其实融合了4个考虑因素：IDF因子，文档长度因子，文档词频，和查询词频。并对3个自由调节因子（k1，k2，b）进行权值的调整。

例子：

假设当前以“乔布斯 IPAD2”这个查询词为例，来计算在某文档D中BM25相关性的值，由于不知道文档集中相关与不相关的分类，所以这里直接将相关文档个数r置为0，则将得到的BIM因子为:

其他数值假定如下:

文档的集合总数：N=100000
包含乔布斯的文档个数为：n乔布斯=1000
包含IPAD2的文档个数为：nIPAD2=100
文档D中出现乔布斯的词频为：f乔布斯=8
文档DD中出现IPAD2的词频为：fIPAD2=8
查询词频均为：qfi=1
调节因子k1=1.2k
调节因子k2=200
调节因子b=0.75
设文档D的长度为平均长度的1.5倍(dl/avdl=1.5)，即K=1.2×(0.25+0.75×1.5)=1.65

则最终可以计算到的BM25结果为:

每个文档按上述公式计算得到相关性排序即可。

BM25F模型

在BM25模型中，文档被当做一个整体进行进行词频的统计，而忽视了不同区域的重要性，BM25F模型正是抓住了这点进行了相应的改进。

BM25F模型在计算相关性时候，会对文档分割成不同的域来进行加权统计，非常适用于网页搜索，因为在一个网页有标题信息、meta信息、页面内容信息等，而标题信息无疑是最重要的，其次是meta信息，最后才是网页内容，BM25F在计算相关性的，会将网页分为不用的区域，在各个区域分别统计自己的词频。

所以BM25F模型的计算公式为：

BM25F的第1部分还是BIM的值。

其中与BM25主要的差别体现在因子上，它是单词i在各个区域不同的得分，计算公式如下:

上面的公式表示:

文档D来个不同的u个域
各个域对应的权重为Wk
fui为第i个单词在各个域中的 fui / Bu 的加权和
fui表示词频
Bu表示各个域的长度情况
ulu为实际域的实际长度，uvulu表示域的平均长度
bu则为各个域长度的调节因子

概率检索模型及BM25的更多相关文章

概率检索模型：BIM+BM25+BM25F
1. 概率排序原理以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而概率检索模型是一种直接对用户需求进行相关性的建模方法,一个query进来,将所有的文档分 ...
[IR课程笔记]概率检索模型
几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每 ...
概率主题模型简介 Introduction to Probabilistic Topic Models
此文为David M. Blei所写的<Introduction to Probabilistic Topic Models>的译文,供大家参考. 摘要:概率主题模型是一系列旨在发现隐藏在 ...
转：概率主题模型简介 --- ---David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文
概率主题模型简介 Introduction to Probabilistic Topic Models 转:http://www.cnblogs.com/siegfang/archive/2 ...
LDA概率主题模型
目录 LDA 主题模型几个重要分布模型 Unigram model Mixture of unigrams model PLSA模型 LDA 怎么确定LDA的topic个数? 如何用主题模型解决推 ...
概率图形模型（PGM）学习笔记（四）-贝叶斯网络-伯努利贝叶斯-贝叶斯多项式
之前忘记强调重要的差异:链式法则的条件概率和贝叶斯网络的链式法则之间的差异条件概率链式法则 P\left({D,I,G,S,L} \right) = P\left( D \right)P\left( ...
概率图形模型（PGM）学习笔记（一）动机和概述
在本文中,基于Daphne Koller完成课程. PDM(ProbabilisticGraphiccal Models) 称为概率图模型. 以下分别说明3个词相应的意义. 概率 -给出了不确定性的明 ...
马尔可夫随机场（Markov random fields) 概率无向图模型马尔科夫网（Markov network)
上面两篇博客,解释了概率有向图(贝叶斯网),和用其解释条件独立.本篇将研究马尔可夫随机场(Markov random fields),也叫无向图模型,或称为马尔科夫网(Markov network) ...
原创:史上对BM25模型最全面最深刻的解读以及lucene排序深入讲解
垂直搜索结果的优化包括对搜索结果的控制和排序优化两方面,其中排序又是重中之重.本文将全面深入探讨垂直搜索的排序模型的演化过程,最后推导出BM25模型的排序.然后将演示如何修改lucene的排序源代码, ...

随机推荐

Android SDK教程
Android SDK 网络问题解析 Android 客户端网络不稳定,会导致App 有时候无法及时收到 Push 消息. 很多开发者认为这是因为 JPush 推送不稳定.延迟,甚至有时候认为 JPu ...
wap问答系统工作总结
一直想找个锻炼自己的机会,但是又很恐慌,怕自己能力太差,把握不住机会,把事情弄糟. 终于,要做wap问答系统了,本来说是几个人一块儿做,我分析了下页面,发现共同的部分还是比较多的,有点想法,要不我接过 ...
Java代码审查工具findbugs的使用总结
findbugs简介 Findbugs是一个Java代码静态分析工具,可以用它来检查源代码中可能出现的问题,以期尽可能在项目的初始阶段将代码问题解决. FindBugs检查的是类或者JAR文件即字节代 ...
Java面试07|Redis数据库
1.Redis持久化的几种方式 (1)RDB(Redis DataBase)持久化 (2)AOF(Append Only File)持久化 2.Redis的缓存失效策略主要涉及到expire对主键过 ...
wemall app商城源码Android之支付宝接口公用函数
wemall-mobile是基于WeMall的Android app商城,只需要在原商城目录下上传接口文件即可完成服务端的配置,客户端可定制修改.本文分享wemall app商城源码Android之 ...
1029: [JSOI2007]建筑抢修
1029: [JSOI2007]建筑抢修 Time Limit: 4 Sec Memory Limit: 162 MBSubmit: 2382 Solved: 1033[Submit][Statu ...
轻松理解JavaScript之AJAX
摘要 AJAX技术是网页构建的必备技能之一,本文希望能帮助大家轻松的学习这项技术一.什么是ajax? ajax(异步javascript xml) 能够刷新局部网页数据而不是重新加载整个网页. 二. ...
java-信息安全（一）-BASE64，MD5，SHA，HMAC
概述信息安全基本概念: BASE64 编码格式 MD5(Message Digest algorithm 5,信息摘要算法) SHA(Secure Hash Algorithm,安全散列算法) HM ...
Python中的变量
多个变量赋值 Python允许你同时为多个变量赋值.例如: a = b = c = 1 以上实例,创建一个整型对象,值为1,三个变量被分配到相同的内存空间上. 您也可以为多个对象指定多个变量.例如: ...
redux核心思路和代码解析
最近在公司内部培训的时候,发现很多小伙伴只是会用redux.react-redux.redux-thunk的api,对于其中的实现原理和数据真正的流向不是特别的清楚,知其然,也要知其所以然,其实red ...