Searching the Web   (Arvind Arasu etc.)

1. 概述

2000年,23%网页每天更新,.com域内网页40%每天更新。网页生存半衰期是10天。描述方法可用Poisson过程。

28%的网页构成强连通核心,22%处于核心的上游,22%处于核心的下游,其他的部分无法互联。

2. 抓取

优先抓高质量网页。综合三者:按需要(和query匹配度),按热度(链入度),按区域(比如.com优先)

做法:先抓K个网页,后续使用队列缓存待抓取url和质量分。

在stanford内网所有网页上试验,目标是快速获取高质量网页,质量策略PageRank>backlink>breadth>random。

循环抓取同时度量网页新鲜度(age),优先抓取较快更新的网页,过慢或过快更新优先级都不高。更新越快越频繁抓取。

3. 存储

分布式存储,增删改查功能,支持随机读(在线查询)和顺序读(离线索引)。

分布式存储:hash分桶

批量跟新(一月一批量写),部分更新(部分site)

主副本设计:利于读写分离

url规范化,生成id和签名(checksum/crc)

4. 索引

多个索引库:链接库(决定网页质量),文本库(决定查询匹配度),定制库(site包含关系)

倒排索引:标题和加粗的term权重更高

词典:所有term

增量构建

索引格式需谨慎设计

分布式索引:doc划分(单机失败易恢复,负载分摊均匀,较理想),term划分

doc划分方法下:分发器把网页分发给索引器,排序后生成临时索引,然后合并临时索引写硬盘并生成词典

实际经验:对正排表选择适中的buffer,使用并行流水线(loading, processing, flushing)

适时全局计算统计量(比如idf)并写入索引:本地聚合,能适合放入内存时发给统计器

总结:扩展性很重要

5. 排序和链接分析

现代搜索引擎的必要性:

大量的网页,大量低质量、低相关性网页

网页缺少正式编辑和属性描述

网页链接结构对评估网页质量很有利:PageRank和HITS算法

PageRank:随机冲浪模型,缓解非连通情况引入随机访问。收敛性在实际中不是瓶颈(约100次迭代足够@Google)

HITS:Hub节点和Authority节点

其他:聚合社区;通过结构(比如cocitation)发现相似网页;利用相邻网页类别做网页分类

未来:结合用户点击数据;语义分析(LSI:Latent Semantic Indexing)

6. 总结

多媒体信息带来的挑战

Searching the Web论文阅读的更多相关文章

  1. 论文阅读:《Bag of Tricks for Efficient Text Classification》

    论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954 ...

  2. [论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding

    [论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...

  3. [论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion

    [论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1 ...

  4. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  5. BITED数学建模七日谈之三:怎样进行论文阅读

    前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...

  6. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  7. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  8. [刷题]算法竞赛入门经典(第2版) 5-10/UVa1597 - Searching the Web

    题意:不难理解,照搬题意的解法. 代码:(Accepted,0.190s) //UVa1597 - Searching the Web //#define _XIENAOBAN_ #include&l ...

  9. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

随机推荐

  1. HTML相关知识和经验的碎片化记录

    1.标签input在type="file"时,name是必须属性 <form id="MainFileUpload" name="MainFil ...

  2. appium自动化安装(一)

    1.首先去  https://github.com/  了解一下appium一些相关信息 2.安装node.js:node.js官方网站:https://nodejs.org/ 安装完成,打开Wind ...

  3. 【转】虚拟机 NAT网络设置

    我以下写的配置方法别人在网上已经发布过类似的文章.但是我觉的别人写的东西不一定是对的,必须自己亲自试验一下才行.就像有句话说的:“实践是检验真理的唯一标准”以下是我操作的步骤.希望不足的地方,读者能够 ...

  4. centoOS下安装python3 和 pip: command not found

    在更新python3的时候会自动安装pip3,但是安装完成后,pip -V发现出错:command not found,找了好久,发现在建立软连接的时候路径写错了. 总结一下安装python3和发现p ...

  5. Java性能优化之高性能JAVA代码的若干个习惯

    创建对象: 1.避免在循环体中创建对象,循环前应该创建对象,避免浪费更多内存空间和增加GC负担 这种情况在我们的实际应用中经常遇到,而且我们很容易犯类似的错误,例如下面的代码: for (int i ...

  6. chrome插件-YSlow 一个使用的web性能测试插件

    本文为转载是文章,如作者发现后不愿意,请联系我进行删除 原文链接:http://www.cnblogs.com/wajika/p/6278825.html YSlow的安装: 1.安装 firebug ...

  7. left jion on和where条件的区别

    1.on是在生成临时表时()起作用,而且不管on中的条件是否为真,都会返回(left join)左边所有的数据,如果不匹配也是返回空. 2.where 是在生成了临时表后,再对表进行过滤 个人理解:先 ...

  8. P3941 入阵曲

    \(\color{#0066ff}{ 题目描述 }\) 小 F 很喜欢数学,但是到了高中以后数学总是考不好. 有一天,他在数学课上发起了呆:他想起了过去的一年.一年前,当他初识算法竞赛的 时候,觉得整 ...

  9. P2568 GCD

    \(\color{#0066ff}{ 题目描述 }\) 给定整数N,求1<=x,y<=N且Gcd(x,y)为素数的数对(x,y)有多少对. \(\color{#0066ff}{输入格式}\ ...

  10. Servlet中Web.xml的配置详解(一)

    1 定义头和根元素 部署描述符文件就像所有XML文件一样,必须以一个XML头开始.这个头声明可以使用的XML版本并给出文件的字符编码.DOCYTPE声明必须立即出现在此头之后.这个声明告诉服务器适用的 ...