[IR] Probabilistic Model

If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model.

Can we use probabilities to quantify our uncertainties?

Ranking method:

Rank by probability of relevance of the document w.r.t. information need.

P(relevant | document i, query)

Bayes’ Optimal Decision Rule: x is relevant（相关的）iff p(R|x) > p(NR|x)

C - cost of retrieval of relevant document

C’- cost of retrieval of non-relevant document

C ⋅ p(R | d) + C ′ ⋅ (1− p(R | d)) ≤ C ⋅ p(R | d′ ) + C ′ ⋅ (1− p(R | d′ ))

for all d’ not yet retrieved, then d is the next document to be retrieved

How do we compute all those probabilisties?

二值独立模型 - Binary Independence Model

(q位置没有变，odds 优势率)

分母约去。

Query相关的话，文档Vecdor如此的概率是多少？需要估计。

思考：针对一个Query，某单词是否该出现在文档中呢？

假设 (重要)：

p_i= p ( x_i = 1 | R , q );

r_i = p ( x_i = 1 | NR , q );

（去掉x_i = 0后，乘的变多了，多了x_i=1, q_i=1的部分。在前一个连乘中乘以倒数，达到平衡。）

两个常量：

　　query能获得有效返回的概率。

　　every query 与vocabulary中的each word的相关的概率。　

一个变量：

　　Retrieval Status Value

So, how do we compute c_i ’s from our data ?

For each term i look at this table of document counts:

(Term与doc的关系：出现但不一定相关；相关但不一定出现，比如computer与IBM)

p_i = s / (S-s)

r_i = (n-s) / (N-n-S+s)

Add 1⁄2 Smoothing

结论：一篇新文档出现，遂统计every Term与该doc的关系，得到C_i。

Okapi BM25: 一个非二值的模型 (略)

[IR] Probabilistic Model的更多相关文章

Intro to Probabilistic Model
概率论复习概率(Probability) 频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率) ...
本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯徐亦达老板 Dirichlet Process 学习 ...
[IR] Information Extraction
阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Gallo ...
PGM：概率图模型Graphical Model
http://blog.csdn.net/pipisorry/article/details/51461878 概率图模型Graphical Models简介完全通过代数计算来对更加复杂的模型进行建 ...
[IR] Word Embeddings
From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/deta ...
深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning
目录 Probabilistic Graphical Models Statistical and Algorithmic Foundations of Deep Learning 01 An ove ...
FAQ: Machine Learning: What and How
What: 就是将统计学算法作为理论,计算机作为工具,解决问题.statistic Algorithm. How: 如何成为菜鸟一枚? http://www.quora.com/How-can-a-b ...
### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
[ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...

随机推荐

AutoMapper完成Dto与Model的转换
在实际的软件开发项目中,我们的“业务逻辑”常常需要我们对同样的数据进行各种变换. 例如,一个Web应用通过前端收集用户的输入成为Dto,然后将Dto转换成领域模型并持久化到数据库中.相反,当用户请求数 ...
mysql忘记密码重置（mac）
setp1: 苹果->系统偏好设置->最下边点mysql 在弹出页面中关闭mysql服务(点击stop mysql server) step2:进入终端输入:cd /usr/local/ ...
关于OBJ/LIB格式,我以前有个总结
1.VC,GCC obj,lib格式为coff 可相互通用2.vc,gcc的obj,lib可通过coff2omfn转成OMF格式,但VC在编译时要加/Zl选项3.VC,GCC的typelib可通过co ...
android: SQLite 数据库的最佳实践
6.5.1 使用事务前面我们已经知道,SQLite 数据库是支持事务的,事务的特性可以保证让某一系列的操作要么全部完成,要么一个都不会完成.那么在什么情况下才需要使用事务呢?想象以下场景, ...
解决中64位Win7系统上PLSQL无法连接ORACLE的方法(PLSQL无法识别ORACLE_HOME的配置)
最近新安装了64位的Win7系统,工作中需要用oracle数据库,而数据库是公司IT的DBA进行管理和维护的. 我们只需要连接上去进行使用就可以了,于是我就在自己的机器上安装了oracle clien ...
BeginInvoke与EndInvoke方法解决多线程接收委托返回值问题
BeginInvoke与EndInvoke方法解决多线程接收委托返回值问题原文:http://www.sufeinet.com/thread-3707-1-1.html 大家可以先看看我上 ...
騰訊RTX的API開發,給RTX開個天窗
好多人可能沒聽說RTX這個軟件,在此我簡單說明一下,這個軟件是騰訊為企業開發的一個內部聊天軟件,服務端不是在騰訊那邊,而是需要企業自己安裝到自己公司內部的服務器上,以供企業內部員工交流使用,功能和QQ ...
java string转为xml
一.使用最原始的javax.xml.parsers,标准的jdk api // 字符串转XML String xmlStr = \"......\"; StringReader s ...
Hadoop map和reduce数量估算
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数.首先分析一下job的maptask数,当一个job提交时,jobclient首先分析 ...
android CheckBox的运用
CheckBox定义一个同意协议的按钮,只要同意button才可以点击 XML代码 <CheckBox android:id="@+id/checkbox1" android ...

[IR] Probabilistic Model

Ranking method:

[IR] Probabilistic Model的更多相关文章

随机推荐

热门专题