论文--Topic-Sensitive PageRank
背景
- 原有的PageRank方法:通过web上链接结构信息得到页面之间相对的重要性,和特定的查询内容无关
论文涉及到的其他算法
- HITS
- Hilltop,处理常见的流行查询 popular query
- 基本的PageRank算法,我们使用如下迭代来计算ranks得分$$\forall{v}Rank_{i+1}(v)=\sum_{u\in{B_{v}}}Rank_i(u)/N_u$$直到rank向量达到一个稳定的阈值
论文关注点
- 选取与查询相关的多个话题的PageRank向量集合,通过计算得到一个更精确的与特定话题相关的查询结果,每次都给各个页面赋予一个和此特定话题相关的得分
- 新方法保证了基于链接的评分与查询挂钩,并且有较小的实时查询处理时间
- 利用Open Directory和一元语言模型来对话题进行表示
- 我们可以从各个维度来得到某个用户某个查询q的context,譬如说查询历史记录,层次目录结构,用户保持的书签等。
论文研究方法
概要:每个页面都有一个得分的集合,针对每一个特定的topic
步骤:
- 找到一系列基本的topic集合,计算出一系列的PageRank Vectors。基本的类集合是从ODP数据集中得到。
- 第二步是在查询时进行的。
1). 首先确定查询q的上下文q'(分为两种情况);
2). 计算得到每一个类在q'下的条件概率$$P(c_j|q')$$(利用贝叶斯公式);在使用$$P(c_j)$$时可以根据用户而决定特定的值
3). 对于每个文档d,我们可以计算他的query-sensitive得分 $$s_{qd}=\sum_jP(c_j|q')\cdot{rank_{jd}}$$
实验结果
数据来源:the latest Web crawl from the Stanford WebBase, 2001
4.1 Similarity Measure for Induced Rankings
评价指标:$$OSim(\tau_1,\tau_2)$$,衡量两个方法之间的URLs的重复的多少
Kendall's $$\tau$$ distance measure: is the probability that $\tau_1'$$ and $\tau_2'$$ agree on the relative ordering of a randomly selected pair of distinct nodes $$(u,v)\in{U\times{U}}$$
4.2 Effect of ODP-Biasing
研究了主题的选择以及bias factor $\alpha$ 对rankings的影响
1. $\alpha$的选择对评分的结果不是很sensitive
2. 应用不同的topically-biased PageRank vectors到同一个查询,结果相差较大
4.3 Query-Sensitive Scoring
我们研究了如何高效的利用PageRank Vectors来提高ranking precision
对于每个方法采取Top10个结果,并组织5个志愿者人工判定,结果表明topic-sensitive PageRank方法的结果比原有的PageRank方法好很多
4.4 Context-Sensitive Scoring
通过query term的上下文来决定使用的topic PageRank vector
基于context的查询方法有更好的返回结果,返回内容大都跟query term的具体意义相关
未来计划
提高改进页面和话题之间权重得分的计算方法,分别在独立的或者同IR评分结合的两个角度进行评价
论文--Topic-Sensitive PageRank的更多相关文章
- PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
- 论文解读(PPNP)《Predict then Propagate: Graph Neural Networks meet Personalized PageRank》
论文信息 论文标题:Predict then Propagate: Graph Neural Networks meet Personalized PageRank论文作者:Johannes Gast ...
- 论文《Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling》
Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling 一.主要贡献 1. pro ...
- 张洋:浅析PageRank算法
本文引自http://blog.jobbole.com/23286/ 很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看 ...
- 【转】基于LDA的Topic Model变形
转载自wentingtu 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人.我主要关注了下面这位大牛和他的学生:David M. B ...
- 主题:PageRank解释
转自:http://www.iteye.com/topic/95079 PageRank解释 通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重 ...
- PageRank与社交网络模型评估
SNS社交网络在近几年流行起来,并呈现出火爆的增长趋势.在仿制国外Facebook.twitter等成功先例的基础上,国内的人人网.新浪微博等一系列社交网络正风生水起. 这些社交网站表面上看起来十分普 ...
- 浅析PageRank算法
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念.前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看 ...
- PageRank算法第一篇
摘要by crazyhacking: 一 搜索引擎的核心问题就是3个:1.建立资料库,通过爬虫系统实现:2.建立一种数据结构,可以根据关键词找到含有这个词的页面.通过索引系统(倒排索引)实现.3排序系 ...
随机推荐
- JS禁止右键查看源码,禁止复制,复制内容到剪切板
有时候我们希望自己的网页源码不被查看,这时需要关掉鼠标的右击事件;有时候我们也希望禁止选择页面内容Ctrl+C复制. 1.禁止右键查看源码; <script> //设置右键事件 funct ...
- 蒙特卡罗定位(Particle Filter Localization)笔记
善始善终,这篇文章是Coursera课程Robotics: Estimation and Learning最后一周的课程总结.里面的小哥讲得不是很清晰,留下的作业很花功夫(第二周课程也是酱紫). 这周 ...
- Python之matplotlib库学习
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中. 它的文档相当完备, ...
- STM32F103X datasheet学习笔记---USART
1.前言 通用同步异步收发器(USART)提供了一种灵活的方法与使用工业标准NRZ异步串行数据格式的外部设备之间进行全双工数据交换. USART利用分数波特率发生器提供宽范围的波特率选择. 它支持同步 ...
- ARMV8 datasheet学习笔记4:AArch64系统级体系结构之VMSA
1. 前言 2. VMSA概述 2.1 ARMv8 VMSA naming VMSAv8 整个转换机中,地址转换有一个或两个stage VMSAv8-32 由运行AArch32的异常级别来管理 VMS ...
- linux服务器last查看关机记录
1.查看重启记录 last reboot命令 [root@test ~]# last reboot reboot system boot -.el6.x Mon May : - : (+:) rebo ...
- WCF错误远程服务器返回了意外响应: (413) Request Entity Too Large。解决方案
这个问题出现的原因是 调用wcf服务的时候传递的参数 长度太大 wcf数据传输采用的默认的大小是65535字节. ---------------------------------------- ...
- Bootstrap3.0学习第二轮(栅格系统原理)
详情请查看 http://aehyok.com/Blog/Detail/8.html 个人网站地址:aehyok.com QQ 技术群号:206058845,验证码为:aehyok 本文文章链接:ht ...
- Innodb ,MyISAM
1. InnoDB不支持FULLTEXT类型的索引. 2. InnoDB 中不保存表的具体行数,也就是说,执行select count(*) from table时,InnoDB要扫描一遍整个表来计算 ...
- 转载:Nginx是什么(1.1)《深入理解Nginx》(陶辉)
原文:https://book.2cto.com/201304/19609.html 人们在了解新事物时,往往习惯通过类比来帮助自己理解事物的概貌.那么,我们在学习Nginx时也采用同样的方式,先来看 ...