[IR] Probabilistic Model
If user has told us some relevant and some irrelevant documents, then we can proceed to build a probabilistic classifier, such as a Naive Bayes model.
Can we use probabilities to quantify our uncertainties?
Ranking method:
Rank by probability of relevance of the document w.r.t. information need.
P(relevant | document i, query)

Bayes’ Optimal Decision Rule: x is relevant(相关的)iff p(R|x) > p(NR|x)
C - cost of retrieval of relevant document
C’- cost of retrieval of non-relevant document
C ⋅ p(R | d) + C ′ ⋅ (1− p(R | d)) ≤ C ⋅ p(R | d′ ) + C ′ ⋅ (1− p(R | d′ ))
for all d’ not yet retrieved, then d is the next document to be retrieved
- How do we compute all those probabilisties?
- 二值独立模型 - Binary Independence Model

(q位置没有变,odds 优势率)
分母约去。
Query相关的话,文档Vecdor如此的概率是多少?需要估计。

思考:针对一个Query,某单词是否该出现在文档中呢?

假设 (重要):
pi = p ( xi = 1 | R , q );
ri = p ( xi = 1 | NR , q );

(去掉xi = 0后,乘的变多了,多了xi =1, qi =1的部分。在前一个连乘中乘以倒数,达到平衡。)
两个常量:
query能获得有效返回的概率。
every query 与vocabulary中的each word的相关的概率。
一个变量:
Retrieval Status Value

So, how do we compute ci ’s from our data ?

For each term i look at this table of document counts:
(Term与doc的关系:出现但不一定相关;相关但不一定出现,比如computer与IBM)

pi = s / (S-s)
ri = (n-s) / (N-n-S+s)

Add 1⁄2 Smoothing

结论:一篇新文档出现,遂统计every Term与该doc的关系,得到Ci。
- Okapi BM25: 一个非二值的模型 (略)

[IR] Probabilistic Model的更多相关文章
- Intro to Probabilistic Model
概率论复习 概率(Probability) 频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率) ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- [IR] Information Extraction
阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Gallo ...
- PGM:概率图模型Graphical Model
http://blog.csdn.net/pipisorry/article/details/51461878 概率图模型Graphical Models简介 完全通过代数计算来对更加复杂的模型进行建 ...
- [IR] Word Embeddings
From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/deta ...
- 深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning
目录 Probabilistic Graphical Models Statistical and Algorithmic Foundations of Deep Learning 01 An ove ...
- FAQ: Machine Learning: What and How
What: 就是将统计学算法作为理论,计算机作为工具,解决问题.statistic Algorithm. How: 如何成为菜鸟一枚? http://www.quora.com/How-can-a-b ...
- ### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
- [ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...
随机推荐
- scrollTop 鼠标往下移动到一定位置显示隐藏
<div class="mouse_scroll"> <img src="./mouse.png"></div> & ...
- 强烈推荐android studio用的几个插件
http://blog.csdn.net/liang5630/article/details/46366901 android studio常用插件,可极大简化开发,增强开发效率. 不懂安装studi ...
- 由1433端口入侵,浅谈sqlserver安全 (转)
前几日笔者在家里的PC上安装了Windows7旗舰版的操作系统,顺便搭了sqlserver2008和vs2010的开发环境,本打算业余时 间可以方便开发.学习.可是不尽人意啊!用了不到两天,居然突然出 ...
- SMON功能(二):合并空闲区间
SMON的作用还包括合并空闲区间(coalesces free extent) 触发场景 早期Oracle采用DMT字典管理表空间,不同于今时今日的LMT本地管理方式,DMT下通过对FET$和UET$ ...
- 连接UI到代码
本章,你将连接FoodTracker应用程序的UI到代码并定义一些可执行的动作.当你完成时,你的应用程序将是这个样子: 学习目标在课程结束时,你将能够:1.解释一个storyboard中的场景和vie ...
- IOS中的网络编程
在移动互联网时代,几乎所有应用都需要用到网络下载,比如图片的加载,音乐的下载,安装包的下载,等等,下面我们来看看如何进行下载 一.文件的下载我们用get来请求数据,并对请求的二进制数据进行解析存入文件 ...
- ABAP程序中关于长文本的处理方法
现象描述 长文本在SAP的运用主要体现在一些notes的记录,或者一些比较长的文本的存取,比如工作流的审批意见,采购申请和采购订单的附加说明等等.如下图: 处理过程 1:SAP中所有的长文本都存在两张 ...
- jQuery 通配符
通配符: $("input[id^='code']");//id属性以code开始的所有input标签 $("input[id$='code']");//id属 ...
- Apache Internal Server Error
当使用 Apache 作为服务器,使用 cgi 程序接收来自 web 端的访问时,出现如下错误: Internal Server Error The server encountered an int ...
- iOS开发——项目实战总结&Block使用注意点浅析
Block使用注意点浅析 1.在使用block前需要对block指针做判空处理. 不判空直接使用,一旦指针为空直接产生崩溃. if (!self.isOnlyNet) { if (succBlock ...