Nutch抓取流程

nutch抓取流程
注入起始url(inject)、生成爬取列表(generate)、爬取(fetch)、解析网页内容(parse)、更新url数据库(updatedb)
1:注入起始url(inject)
org.apache.nutch.crawl.Injector
注入待抓取URL,因为Nutch的抓取程序要抓取网页，肯定需要有一个或者多个入口url。
nutch会按照广度优先策略(一般有广度优先策略和深度优先策略)进行抓取，根据前面指定
的url进行抓取工作。

url存储具体格式为<Text, CrawlDatum>。其中的key表示该URL的地址，而value则是Nutch
自己定义的一个类型“CrawlDatum”，该类型实现了"Writable"接口，用来表示页面的一些
属性。

“CrawlDatum"类所在位置：org.apache.nutch.crawl.CrawlDatum
其中包括了页面的状态，抓取时间，抓取间隔等属性。

inject过程把这些数据存储到crawldb目录中。

2：生成爬取列表(generate)
org.apache.nutch.crawl.Generator
生成segment。这一步骤主要是对上一步提交的URL集合进行分析，确定抓取任务的详细信息。
在segments目录下新建一个System.currentTimeMillis()时间标识的文件，如：20150906145715
另外遍历crawlDb，取出topN个需要fetch的urlList，【topN的配置属性是：generate.topN，
nutch-default.xml中没有配置这个属性，查看代码发现如果没有配置默认是long的最大值
job.getLong(GENERATOR_TOP_N, Long.MAX_VALUE),分析crawl脚本发现这个值会被设置为50000
numSlaves=1
sizeFetchlist=`expr $numSlaves \* 50000`
generate_args=($commonOptions "$CRAWL_PATH"/crawldb "$CRAWL_PATH"/segments -topN $sizeFetchlist -numFetchers $numSlaves -noFilter)
】
存放到segments/20150906145715/crawl_generate文件中，
crawl_generate 为SequenceFile文件

3：爬取(fetch)
org.apache.nutch.fetcher.Fetcher
分析提交的URL集合之后，将页面内容抓取下来，存于segment目录下。
抓取过程中，页面的URL地址可能因为链接发生改变(302重定向)，从而需要更新URL地址；
例如：京东手机分类url：http://list.jd.com/9987-653-655.html，
打开之后url就变成这个了：http://list.jd.com/list.html?cat=9987,653,655
抓取采用多线程方式进行，以提高抓取速度；参数为：fetcher.threads.fetch，默认最大线程数量为10，
使用crawl脚本的话线程数会被设置为50，
【numThreads=50
__bin_nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch "$CRAWL_PATH"/segments/$SEGMENT -noParsing -threads $numThreads
】
fetch操作过程中调用了parse操作。

4：解析(parse)
org.apache.nutch.parse.ParseSegment
内容解析器。抓取到的页面文件被提交到这里，实现对页面文件的处理，包括页面文件的分析和处理

4.1：parsed text &data
解析segment中由fetch得到的页面，并进行整理，将页面分成为parse-date和parse-text
parse-date中保存的是页面的题名、作者、日期、链接等元数据信息；
parse-text中保存的是页面的文本内容。

通过上面几步操作，创建了如下几个目录
content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text

content
包含下载页面的原始数据，存储为map文件，格式是<url,Content>。为了展示快摘页面，
这里使用文件存储数据，因为Nutch需要对文件做快速随机的访问。

crawl_generate
它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息，
对应的文件的格式<url,CrawlDatum>。

crawl_fetch
它包含数据爬取的状态信息，即爬取是否成功相应码是什么，等等。
这个数据存储在map文件里，格式是<url,CrawlDatum>

crawl_parse
每个成功爬取并解析的页面的链接列表都保存在这里，页面中解析出来的链接
都保存在这里面也是<url,CrawlDatum>格式存储的。

parse_date
解析过程中收集的元数据，使用<url,ParseData>格式存储的

parse_text
存储的是网址和标题信息，使用<url,ParseText>格式存储的

5：更新url数据库(updatedb)
根据第四步的解析结果更新crawldb数据库
其实这一步就是调用CrawlDb.java中的update方法，从第95和96行代码可以发现
其实就是根据第四步生成的crawl_fetch和crawl_parse中的数据文件进行更新。

Nutch抓取流程的更多相关文章

【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程
一.抓取流程概述 1.nutch抓取流程当使用crawl命令进行抓取任务时,其基本流程步骤如下: (1)InjectorJob 开始第一个迭代 (2)GeneratorJob (3)FetcherJ ...
【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程分类： H3_NUTCH 2014-08-15 21:39 2530人阅读评论(1) 收藏
一.抓取流程概述 1.nutch抓取流程当使用crawl命令进行抓取任务时,其基本流程步骤如下: (1)InjectorJob 开始第一个迭代 (2)GeneratorJob (3)FetcherJ ...
nutch 抓取需要登录的网页
题记:一步一坑,且行且珍惜最近接到任务,要利用nutch去抓取公司内部系统的文章,可是需要登录才能抓到.对于一个做.net,不熟悉java,不知道hadoop,很少接触linux的我,这个过程真是艰 ...
scrapy2——框架简介和抓取流程
scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中 scrapy的执行流程 Scrapy主要包括 ...
Nutch学习笔记二——抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程. 笔记中通过配置抓取地址http://b ...
C# 抓取网站数据
项目主管说这是项目中的一个亮点(无语...), 类似于爬虫一类的东西,模拟登陆后台系统,获取需要的数据.然后就开始研究这个. 之前有一些数据抓取的经验,抓取流程无非:设置参数->服务端发送请求- ...
casperjs 抓取爱奇艺高清视频
CasperJS 是一个开源的导航脚本和测试工具,使用 JavaScript 基于 PhantomJS 编写,用于测试 Web 应用功能,Phantom JS是一个服务器端的 JavaScript A ...
苹果icloud邮箱抓取
1 icloud登录,与其他网站登录区别 1.1 支持pop抓取的邮箱:pop提供统一接口,抓取简单: 1.2 没有前端js加密的邮箱(139,126,163):只要代码正确模拟登录流程,参数正确 ...
汽车之家店铺商品详情数据抓取 DotnetSpider实战[二]
一.迟到的下期预告自从上一篇文章发布到现在,大约差不多有3个月的样子,其实一直想把这个实战入门系列的教程写完,一个是为了支持DotnetSpider,二个是为了.Net 社区发展献出一份绵薄之力,这 ...

随机推荐

php代码记录
公司项目的随想记录也记在这里: 1,证书产生的目的是为了防止不合法的用户能够直接访问接口获取数据.证书由服务器端生成,然后返回给app.然后app拿着这个证书到服务器端获取接口数据,而不是app的合法 ...
查阅JDK，collection与collections区别大
看起来collection,和collections相像,但其中的差别之大你造吗? Collection是Collection层次结构中的根接口.Collection表示一组对象,这也对象也称为col ...
强大的DataGrid组件[1]
说明:DataGrid组件是Silverlight数据组件中最为常用并且是功能最为强大的数据组件.因此,对开发者而言,深入了解其特性是十分有必要的.本文先介绍该组件的基本特性,接着通过几个简单实例来说 ...
几种修改Linux主机名的方法
在安装一些系统时,需要修改hostname,比如安装Hadoop时需要修改主机名,而且主机名不能包含下划线. 实际上,主机名分三种(命令hostnamectl或hostnamectl status可查 ...
在window平台下，自己DIY编译OpenSSL,Libcurl ，来支持HTTPS传输协议
1 缘起原来就了解些libcurl,一直没有机会在项目实际使用libcurl. 恰好最近一个云存储的项目,服务器使用openstack 恰好我负责现在的一个云存储SDK c++版本的开发中. 与 ...
MATLAB二分法函数求根
function xc = bisect(f,a,b,tol) ind = b-a; while ind > tol xx = (a+b)/; b = xx; else a = xx; end ...
（转）可伸缩性最佳实践：来自eBay的经验
转自:http://www.infoq.com/cn/articles/ebay-scalability-best-practices 在eBay,可伸缩性是我们每天奋力抵抗的一大架构压力.我们所做的 ...
web-day15
第15章WEB15-AJAX和JQuery案例篇今日任务使用AJAX完成用户名的异步校验使用JQuery完成用户名异步校验使用JQuery完成商品信息模糊显示使用JQuery完成省市联动效果 ...
hdu 5086 数列连续和求和
http://acm.hdu.edu.cn/showproblem.php?pid=5086 求一段数列里面所有连续和的和,卡精度规律很明显,数列里面每个数都被加了i*(n+1-i)次注意下精度即 ...
imooc movie
node+mongodb 建站攻略(一期) 用的都是我熟悉的技术,看了别人的开发过程,自己也学到了一些新的知识生成配置文件开发结束后,可以使用bower init来生成前端的配置文件. 不过在bo ...

Nutch抓取流程

Nutch抓取流程的更多相关文章

随机推荐

热门专题