Searching the Web论文阅读

Searching the Web (Arvind Arasu etc.)

1. 概述

2000年，23%网页每天更新，.com域内网页40%每天更新。网页生存半衰期是10天。描述方法可用Poisson过程。

28%的网页构成强连通核心，22%处于核心的上游，22%处于核心的下游，其他的部分无法互联。

2. 抓取

优先抓高质量网页。综合三者：按需要（和query匹配度），按热度（链入度），按区域（比如.com优先）

做法：先抓K个网页，后续使用队列缓存待抓取url和质量分。

在stanford内网所有网页上试验，目标是快速获取高质量网页，质量策略PageRank>backlink>breadth>random。

循环抓取同时度量网页新鲜度（age），优先抓取较快更新的网页，过慢或过快更新优先级都不高。更新越快越频繁抓取。

3. 存储

分布式存储，增删改查功能，支持随机读（在线查询）和顺序读（离线索引）。

分布式存储：hash分桶

批量跟新（一月一批量写），部分更新（部分site）

主副本设计：利于读写分离

url规范化，生成id和签名（checksum/crc)

4. 索引

多个索引库：链接库（决定网页质量），文本库（决定查询匹配度），定制库（site包含关系）

倒排索引：标题和加粗的term权重更高

词典：所有term

增量构建

索引格式需谨慎设计

分布式索引：doc划分（单机失败易恢复，负载分摊均匀，较理想），term划分

doc划分方法下：分发器把网页分发给索引器，排序后生成临时索引，然后合并临时索引写硬盘并生成词典

实际经验：对正排表选择适中的buffer，使用并行流水线(loading, processing, flushing)

适时全局计算统计量（比如idf）并写入索引：本地聚合，能适合放入内存时发给统计器

总结：扩展性很重要

5. 排序和链接分析

现代搜索引擎的必要性：

大量的网页，大量低质量、低相关性网页

网页缺少正式编辑和属性描述

网页链接结构对评估网页质量很有利：PageRank和HITS算法

PageRank：随机冲浪模型，缓解非连通情况引入随机访问。收敛性在实际中不是瓶颈（约100次迭代足够@Google）

HITS：Hub节点和Authority节点

其他：聚合社区；通过结构（比如cocitation)发现相似网页；利用相邻网页类别做网页分类

未来：结合用户点击数据；语义分析（LSI：Latent Semantic Indexing）

6. 总结

多媒体信息带来的挑战

Searching the Web论文阅读的更多相关文章

论文阅读：《Bag of Tricks for Efficient Text Classification》
论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954 ...
[论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构解决问题主要贡献算法原理实验结果参考文献 (1 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
[刷题]算法竞赛入门经典(第2版) 5-10/UVa1597 - Searching the Web
题意:不难理解,照搬题意的解法. 代码:(Accepted,0.190s) //UVa1597 - Searching the Web //#define _XIENAOBAN_ #include&l ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

随机推荐

数据结构 lucky_ming幸运的小明
问题描述在快速排序过程中, 每次会找一个划分值, 将小于划分值的放到其左边, 大于划分值的放右边, 然后再依次递归左右两边, 对子序列进行同样的操作, 直到子序列为空则停止操作.最后就得到了有序的序 ...
关于setVisibility的几个常量
在xml文件中,view控件一般都会有android:visibility这个属性 android:visibility:gone|cisible|invisible 在代码中,可以通过方法setVi ...
iOS symbolicatecrash工具crash日志分析
若一个App没有加入Crashlytics或者Buggly这些崩溃日志监控,那么我们在App崩溃的时候如何获取崩溃信息呢? 此时我们可以通过symbolicatecrash工具对手机日志来进行分析定位 ...
在Repeater控件的OnItemDataBound获取数据源记录总数
Insus.NEt曾经有写过一篇<Repeater控件最后一笔记录高亮显示> ,它的实现是先宣告一个页面级的变量,然后在Data_Binding()方法内获取数据源的记录总数. 本篇是的重 ...
哈雷监控设备的操作及升级NSG9k6G
哈雷监控设备的操作及升级NSG9k6G 一.下载升级包: http://pan.baidu.com/s/1kTmw9sr 如连接不可以用可以直接私聊我.QQ1841031740 二.升级: 下载完后, ...
安卓--ListView
实验目的: 学习使用ListView 实验要求: 实现一个列表,其中显示班级学号姓名,提供添加功能,如需要删去某一项,长按该项,通过弹出菜单显示删除功能. package com.flyuz.app3 ...
【bzoj2818】: Gcd 数论-欧拉函数
[bzoj2818]: Gcd 考虑素数p<=n gcd(xp,yp)=p 当 gcd(x,y)=1 xp,yp<=n满足条件 p对答案的贡献: 预处理前缀和就好了 /* http://w ...
delay JS延迟执行
window.onscroll = function () { throttle(trrigerAdd,window);};function trrigerAdd(){ var $dHei ...
Windows Server 2016 IIS10安装URLRewrite 2.0组件方法
1,打开Regedit> HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ InetStp2,编辑“MajorVersion”并以十进制设置数值数据值为93 ...
mysql DISTINCT根据某字段去重同时查出其他字段
mysql有个关键字distinct用来去重的,但是使用时只能放在查询字段的最前边,如: SELECT DISTINCT user_id,age FROM t_user;若不是放在最前边,如:SELE ...

Searching the Web论文阅读

Searching the Web论文阅读的更多相关文章

随机推荐

热门专题