【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

详细可参考

（1）书箱：《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》

（2）【搜索引擎基础知识1】搜索引擎的技术架构

（3）【搜索引擎基础知识2】网络爬虫的介绍

（一）搜索引擎的开发一般可分为以下三大部分

1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi

2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene

3、视图层：也用户的交互界面，如一个网站的首页

其基本架构可参考下图：

（二）网络爬虫的简介

详细请参见【搜索引擎基础知识2】网络爬虫

下面例子将简单实现宽度优先搜索策略。

广度优先搜索策略

宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

还是以上面的图为例，抓取过程如下：

广度搜索过程：

首先访问页面v1 和v1 的邻接点v2 和v3，然后依次访问v2 的邻接点v4 和v5 及v3 的邻接点v6 和v7，最后访问v4 的邻接点v8。由于这些顶点的邻接点均已被访问，并且图中所有顶点都被访问，由些完成了图的遍历。得到的顶点访问序列为：

v1→v2 →v3 →v4→ v5→ v6→ v7 →v8

和深度优先搜索类似，在遍历的过程中也需要一个访问标志数组。并且，为了顺次访问路径长度为2、3、…的顶点，需附设队列以存储已被访问的路径长度为1、2、… 的顶点。

（1）采用广度优先的原因：

重要的网页往往离种子站点距离较近；万维网的深度没有我们想象的那么深，但却出乎意料地宽（中文万维网直径长度只有17，即任意两个网页之间点击17次后便可以访问到）；

宽度优先有利于多爬虫合作抓取；

（2）广度优先的存在不利结果：

容易导致爬虫陷入死循环，不该抓取的反复抓取；

应该抓取的没有机会抓取；

（3）解决以上两个缺点的方法是深度抓取策略（Depth-First Trsversal）和不重复抓取策略

（4）为了防止爬虫无限制地宽度优先抓取，必须在某个深度上进行限制，达到这个深度后停止抓取，这个深度就是万维网的直径长度。当最大深度上停止抓取时，那些深度过大的未抓取网页，总是期望可以从其他种子站点更加经济地到达。限制抓取深度会破坏死循环的条件，即使出现循环也会在有限次后停止。

（5）评价：宽度（广度）优先，兼顾深度的遍历策略，可以有效保证抓取过程中的封闭性，即在抓取过程（遍历路径）中总是抓取相同域名下的网页，而很少出现其他域名下的网页。

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫的更多相关文章

【搜索引擎Jediael开发笔记】v0.1完整代码
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】v0.1完整代码 2014-05-26 15:17 463人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】V0.1完整代码 2014-05-26 15:16 443人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.download ...
笔记之《用python写网络爬虫》
1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站 ...
【搜索引擎Jediael开发4】V0.01完整代码
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
【搜索引擎Jediael开发4】V0.01完整代码分类： H_HISTORY 2014-05-21 21:35 470人阅读评论(0) 收藏
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
Qt开发笔记：OpenSSL库介绍、windows上mingw32版本的OpenSSL编译模块化
前言 Windows上mingw32版本的openssl的编译是属于比较棘手的,OpenSSL本身不提供支持.. OpenSSL 介绍 OpenSSL是一个开放源代码的软件库包,应用程序可 ...

随机推荐

Ubuntu14.10下解决chromium浏览器无法安装adobe flash的问题
本文参考了一下资源和博客,在此提出表示感谢: http://my.oschina.net/u/209016/blog/290067 http://ubuntuhandbook.org/index.ph ...
Vim复制文件全部内容到系统剪贴板
参考:http://vim.wikia.com/wiki/%22copy_all_to_clipboard%22_howto vim中有两个buffer为系统的剪贴板,它们为: * (primary ...
phpmyadmin上传较大sql文件
1.找到phpmyadmin目录,新建文件夹import 2.打开import文件夹,将要导入的sql文件放进去 3.打开config.inc.php文件,修改$cfg['UploadDir']等于i ...
HTML5简单入门系列（三）
前言本篇介绍HTML5支持的Web存储(Web Storage)和HTML 5 应用程序缓存. 客户端存储数据介绍 HTML5 提供了两种在客户端存储数据的新方法: localStorage - 没 ...
[Head First Python]4.读取文件datafile.txt, 去除两边空格, 存储到列表,从列表格式化(nester.py)后输出到文件man.out,other.out
datafile.txt #文件 Man: this is the right room for an argument. Other Man: I've told you once. Man: N ...
python中__init__.py文件的作用
问题在执行models.py时,报ImportError:No module named transwarp.db的错误,但明明transwarp下就有db.py文件,路径也没有错误.真是想不通.后 ...
三维地图（BFS）
亡命逃窜时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述从前有个叫hck的骑士,为了救我们美丽的公主,潜入魔王的老巢,够英雄吧.不过英雄不是这么好当的.这个可怜的娃 ...
Js验证：只能输入数字和小数点验证是否是数字 js取float型小数点后两位
JS判断只能是数字和小数点 1.文本框只能输入数字代码(小数点也不能输入)<input onkeyup="this.value=this.value.replace(/\D/g,'') ...
《Programming WPF》翻译目录
原文:<Programming WPF>翻译目录注:第1.2章我只做了笔记,没有翻译,请大家阅读时注意. 还有就是,这本书的英文版本下载:[O'Reilly] Programming ...
在Activity中响应ListView内部按钮的点击事件的两种方法！！！
在Activity中响应ListView内部按钮的点击事件的两种方法转载:http://www.cnblogs.com/ivan-xu/p/4124967.html 最近交流群里面有人问到一个问题: ...

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫的更多相关文章

随机推荐

热门专题