[IR课程笔记]统计语言模型

Basic idea

1.一个文档（document）只有一个主题（topic）

2.主题指的是这个主题下文档中词语是如何出现的

3.在某一主题下文档中经常出现的词语，这个词语在这个主题中也是经常出现的。

4.在某一主题下文档中不经常出现的词语，这个词语在这个主题中也是不经常出现的。

5.由此，概率计算方法可以近似为：

Ranking

当给定查询q时，怎么根据统计语言模型进行排序呢?有三种排序方法，分别是：1.Query-likelihood 2.Document-likelihood

3.Divergence (差异) of query and document models

查询q = (q_1,q_2,...,q_k),M_D表示在统计语言模型下的文档。

1.Query-likelihood

Example:

Q = “人民创造” D1 = “在漫长的历史进程中中国人民辛勤劳动不懈探索勇于创造中国人民热爱和平 ”

P(“人民”|MD1)=2/18, P(“创造”|MD1)=1/18

P(Q|MD1) = P(“人民”|MD1)*P(“创造”|MD1) = 2/18 * 1/18

2.Document-likelihood

存在的问题：a.文档的长度相差很大，很难比较 b.由于文档中出现的词很多没有出现在查询中，将会出现零频问题 c.将会出现无意义的作弊网页

解决这些问题的方法：

3.Divergence (差异) of query and document models

上式中w指的是同时出现在q和d中的词语，它的意义是用Q对D进行编码，所需要的位数

零频问题

解决方法：1.拉普拉斯平滑：把每个词的词频都加1。

2.Lindstone correction：把每个词都加一个很小的值ε。

3.Absolute Discounting：把词频不等于0的词减去一个很小的值ε，再把这些值平均分配到词频为1的词上去。

[IR课程笔记]统计语言模型的更多相关文章

[IR课程笔记]向量空间模型（Vector Space Model）
VSM思想把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线 ...
[IR课程笔记]Web search
一. 搜索引擎组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideratio ...
[IR课程笔记]Query Refinement and Relevance Feedback
相关反馈的两种类型: “真实”的相关反馈: 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈,返回一些不同的,更好的结果 “假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. ...
[IR课程笔记]Hyperlink-Induced Topic Search(HITS)
两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对 ...
[IR课程笔记]Page Rank
主要目的: 在网络信息检索中,对每个文档的重要性作出评价. Basic Idea: 如果有许多网页链接到某一个网页,那么这个网页比较重要. 如果某个网页被一个权重较大的网页链接,那么这个网页比较重要. ...
[IR课程笔记]概率检索模型
几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每 ...
操作系统学习笔记----进程/线程模型----Coursera课程笔记
操作系统学习笔记----进程/线程模型----Coursera课程笔记进程/线程模型 0. 概述 0.1 进程模型多道程序设计进程的概念.进程控制块进程状态及转换.进程队列进程控制----进 ...
深度学习课程笔记（二）Classification： Probility Generative Model
深度学习课程笔记(二)Classification: Probility Generative Model 2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw ...
ng-深度学习-课程笔记-0: 概述
课程概述这是一个专项课程(Specialization),包含5个独立的课程,学习这门课程后做了相关的笔记记录. (1) 神经网络和深度学习 (2) 改善深层神经网络:超参数调试,正则化,优化 ( ...

随机推荐

AC日记——旅行洛谷 P3313
题目描述 S国有N个城市,编号从1到N.城市间用N-1条双向道路连接,满足从一个城市出发可以到达其它所有城市.每个城市信仰不同的宗教,如飞天面条神教.隐形独角兽教.绝地教都是常见的信仰. 为了方便,我 ...
IOS-<input>表单元素只能读，设置readonly时光标仍然可见的解决办
在HTML中,如果把一个<input>的readonly属性设置为"readonly",表示这个表单元素不能编辑. 但是,鼠标点击之后,这个表单元素还是有光标存在的. ...
Python语言介绍
一.python介绍python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语 ...
Jmeter骚操作—文件上传、下载
最近很多同学都在问jmeter上传.下载文件的脚本怎么做,要压测上传.下载文件的功能,脚本怎么做,网上查了都说的很含糊,这次呢,咱们就好好的把jmeter的上传下载文件好好缕缕,都整明白了,怎么个过程 ...
latex beamer 插入代码
有网友在beamer中使用mcode也就是 listings 输出源代码时遇到如下错误: Runaway argument?! Paragraph ended before \lst@next was ...
2014 ACM/ICPC 亚洲区北京站
题目链接 2014北京区域赛 Problem A Problem B 直接DFS+剪枝剪枝条件:当前剩余的方块数量cnt < 2 * max{a[i]} - 1,则停止往下搜. 因为这样搜下 ...
stun简介
转载 http://blog.csdn.net/mazidao2008/article/details/4934257 STUN(Simple Traversal of UDP over NATs,N ...
Codeforces 235 E Number Challenge
Discription Let's denote d(n) as the number of divisors of a positive integer n. You are given three ...
Mac item2 配色，大小写敏感及常用快捷键
http://blog.csdn.net/lainegates/article/details/38313559 目录(?)[-] 配色大小写敏感快捷揵 item2是mac下非常好用的一款终端 ...
用hashmap实现自己的缓存
@SuppressWarnings({"unchecked", "rawtypes"})public class DefaultCache implements ...

[IR课程笔记]统计语言模型

[IR课程笔记]统计语言模型的更多相关文章

随机推荐

热门专题