[IR课程笔记]概率检索模型】的更多相关文章

几个符号意义: R:相关文档集 NR:不相关文档集 q:用户查询 dj:文档j 1/0风险情况 PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序. 贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档: 基于检索代价的概率排序原理: crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D) 如何计算概率 文档d可以表示为向量(d1…
概率排序原理 以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而概率检索模型是一种直接对用户需求进行相关性的建模方法,一个query进来,将所有的文档分为两类 -- 相关文档.不相关文档,这样就转为了一个相关性的分类问题. 对于某个文档D来说,P(R|D)表示该文档数据相关文档的概率,则P(NR|D)表示该文档属于不相关文档的概率,如果query属于相关文档的概率大于不相关文档P(R|D)>P(RN|D),则认为这个文档是与用户查询相关相关的. 现在使用…
1. 概率排序原理 以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而概率检索模型是一种直接对用户需求进行相关性的建模方法,一个query进来,将所有的文档分为两类 -- 相关文档.不相关文档,这样就转为了一个相关性的分类问题. 对于某个文档D来说,P(R|D)表示该文档数据相关文档的概率,则P(NR|D)表示该文档属于不相关文档的概率,如果query属于相关文档的概率大于不相关文档P(R|D)>P(NR|D),则认为这个文档是与用户查询相关相关的. 现…
VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量. 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core concept):把词语的类型分类,按照其在不同分类上的“倾斜程度”决定向量的值.but,很难决定基向量. 2.把出现过的term(词语)都当作是一个基向量,假定所有的基向量都是相互正交相互独立的.以下我们…
1 基础模型(Basic models) 一个机器翻译的例子,比如把法语翻译成英语,如何构建一个神经网络来解决这个问题呢? 首先用RNN构建一个encoder,对法语进行编码,得到一系列特征 然后用RNN构建一个decoder,将编码后的特征信息,解码成英语,以此来生成对应的英语翻译 一个图像生成字幕的例子 首先用CNN构建一个encoder,对图像进行编码,得到一系列特征 然后用RNN构建一个decoder,将编码后的特征信息,解码成文本,以此来生成对图像的字幕描述 2 选择最可能的句子(Pi…
主要目的: 在网络信息检索中,对每个文档的重要性作出评价. Basic Idea: 如果有许多网页链接到某一个网页,那么这个网页比较重要. 如果某个网页被一个权重较大的网页链接,那么这个网页比较重要. 随机游走模型: 过程:1.在所有网页中,随机选择一个网页作为游走的开端. 2.然后在当前网页上的超链接中,随机选择一个超链接跳转到下一个网页. 3.大量重复1.2的过程. 重要度计算方法: Pr(pi|p1)表示从编号为1的网页跳转到编号为i的网页的概率,其计算方式为 Pr(Pi|P1) = 1/…
相关反馈的两种类型: “真实”的相关反馈: 1. 系统返回结果 2. 用户提供一些反馈 3. 系统根据这些反馈,返回一些不同的,更好的结果 “假定”的相关反馈 1. 系统得到结果但是并不返回结果 2. 系统根据这些结果改善query 3. 根据改善后的query得到结果并返回 Rocchio's Modified Query Modified query vector = Original query vector + Mean of relevant documents found by or…
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现的. 4.在某一主题下文档中不经常出现的词语,这个词语在这个主题中也是不经常出现的. 5.由此,概率计算方法可以近似为: Ranking 当给定查询q时,怎么根据统计语言模型进行排序呢?有三种排序方法,分别是:1.Query-likelihood 2.Document-likelihood 3.Di…
一.  搜索引擎 组成部分: 1. 网络爬虫(web crawler) 2. 索引系统(indexing system) 3. 搜索系统 (searching system) consideration: 1.Economics  2.Scalability 3. Legal issue 二. 网络爬虫(web crawler) web crawler 需要考虑两个问题: politeness (遵守robots协议以及不要频繁访问同一个主机) performance (多线程) 工作过程: 首…
两个假设 1. 好的hub pages: 好的对某个主题的hub pages 链接许多好的这个主题的authoritative pages. 2. 好的authoritative pages: 好的对某个主题的authoritative pages 被许多好的这个主题的hub pages链接. 注:循环定义 算法过程: 1.找出root set :用户输入一个query,根据query中的term,在文档集中找出包含至少一个term的的文档,使他们构成root set. 2. 找出base se…