Nutch源码阅读进程2---Generate

继之前仓促走完nutch的第一个流程Inject后，再次起航，Debug模式走起，进入第二个预热阶段Generate~~~

上期回顾：Inject主要是将爬取列表中的url转换为指定格式<Text，CrawlDatum>存在CrawlDb中，主要做了两件事，一是读取种子列表中的url，对其进行了url过滤、规范化，当然这其中用的是hadoop的mapreduce模式提交job到jobtracker，因为没有研读hadoop源码，所以这块先放放，理清nutch的大体思路后再去啃hadoop的mapreduce，总之这是第一个点，随后是将第一个任务执行完的输出作为输入执行第二个任务，主要是判定当前的CrawlDb中的url和要更新的url是否有重复的，通过相应的判断和标记状态（如STATUS_INJECTED、STATUS_DB_UNFETCHED）确保crawldb中此次的Inject的url不会重复，为下一步Generate做准备。

1.首先根据用户输入的depth进行循环，然后伴随了赋了一些必要的值就直接奔着generator.generate(crawlDb, segments, -1, topN, System.currentTimeMillis());方法去了，进入该方法后，首先就是将存放临时文件的目录结构生成，然后生成文件锁Path lock = new Path(dbDir, CrawlDb.LOCK_NAME);

小插曲：其中涉及到对于获取当前时间并转换为我们熟知的格式的代码：

SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
long start = System.currentTimeMillis();

SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
long start = System.currentTimeMillis();
LOG.info("Generator: starting at " + sdf.format(start));

后面就是初始化文件系统、job等，在进行相应的赋值比如输入mapper、reducer、partition等。

注意：这里的输入时前面一个环节Inject产生的Crawldb，输出存放在刚刚生成的tempdir的临时文件夹；

2.随后进入任务的提交阶段，即执行：JobClient.runJob(job);，进入该方法后，走的还是Inject提交job的那一套，包括初始化JobClient，判定是否是local模式以及确定map的个数等，这是第一个走hadoop的任务，其中的mapper、partition和reducer都是Selector类：

job.setMapperClass(Selector.class);
job.setPartitionerClass(Selector.class);
job.setReducerClass(Selector.class);（备注：

在Hadoop Map/Reduce框架下，当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。

默认的情况下，Hadoop对<key,value>键值对中的key取hash值来确定怎样分配给相应的Reducer。Hadoop使用HashParitioner class来执行这一操作。但是有时候HashPartitioner并不能完成它的功能。）

（插曲：通过调试发现过程中，提交job执行后再runningjob方法中返回的rj值为：

Job: job_local_0003
file: file:/tmp/hadoop-zjhadoop/mapred/staging/zjhadoop2112303622/.staging/job_local_0003/job.xml
tracking URL: http://localhost:8080/
map() completion: 1.0
reduce() completion: 1.0）

代码中的mapper主要完成以下几件工作：（1）判断是否有filter设置，如果有的话则对url进行过滤；（2）通过读取Inject生成的数据中的CrawlDatum字段中的时间加上超时时间决定是否抓取；

if (oldGenTime.get() + genDelay > curTime) // still wait for
// update
return;

（3）计算url的分值，对小于阈值的过滤掉；

sort = scfilters.generatorSortValue((Text) key, crawlDatum, sort);//计算分值

if (scoreThreshold != Float.NaN && sort < scoreThreshold) return;//判定计算出的分值与阈值决定是否要过滤掉

（4）收集未被过滤的url，处理输出为<FloatWritable,SelectorEntry>格式

entry.datum = crawlDatum;
entry.url = (Text) key;//crawlDatum和key共同封装好就是entry了，
output.collect(sortValue, entry); // invert for sort by score 然后再将entry与计算的sortValue组合就是输出类型<FloatWritable,SelectorEntry>了

这些步骤就组成了整个map的工作了；

3.整个Selector是实现了map、partitioner和reducer的，下面还有partioner的功能实现，

Selector中的Partition方法主要是调用了URLPartition来进行相应的分块操作

这里会首先根据url的hashCode来进行partition,如果用户设置了根据domain或者ip来进行partition，那这里会根据用户的配置来进行相应的partition操作；

后面就是reducer模块了，其主要是将没有被过滤的url进行计算，对于每个reducer如果超过一个限定值limit的话就会分开，放到另个segments中

4.下面就是第二大块，用的也是hadoop的mapreducer。紧接着上面，首先执行：

FileStatus[] status = fs.listStatus(tempDir);//该行代码是获取第一个job提交后生成的tempDir文件夹中的信息即读取tempDir的多个fetchlist的segment

读取经过重重检验选拔出来的url，生成segments

Path subfetchlist = stat.getPath();//读取fetchlist的segment

然后再进入方法：Path newSeg = partitionSegment(fs, segments, subfetchlist, numLists);在该方法中又是通过提交一个job解决。其中i输入是刚刚临时文件夹tempDir中的fetchlist，输出是在代码中定义好的output，即类似于crawl20140727/segments/20140727195735/crawl_generate这样的目录结构。（插曲：该job在runningJob方法中执行后返回的rj值为：

Job: job_local_0004
file: file:/tmp/hadoop-zjhadoop/mapred/staging/zjhadoop1993184312/.staging/job_local_0004/job.xml
tracking URL: http://localhost:8080/
map() completion: 1.0
reduce() completion: 1.0）

网上关于partitionSegment的比较详细的解释：（

// invert again, partition by host/domain/IP, sort by url hash

// 从代码的注释中我们可以看到，这里主要是对url按host/domain/IP进行分类

// NOTE：这里的分类就是Partition的意思，就是相同host或者是domain或者是IP的url发到同一台机器上

// 这里主要是通过URLPartitioner来做的，具体是按哪一个来分类，是通用参数来配置的，这里有PARTITION_MODE_DOMAIN，PARTITION_MODE_IP

// 来配置，默认是按Url的hashCode来分。

if (LOG.isInfoEnabled()) {

LOG.info("Generator: Partitioning selected urls for politeness.");

}

Path segment = new Path(segmentsDir, generateSegmentName()); // 也是在segmentDir目录产生一个新的目录，以当前时间命名

Path output = new Path(segment, CrawlDatum.GENERATE_DIR_NAME); // 在上面的目录下再生成一个特定的crawl_generate目录

LOG.info("Generator: segment: " + segment);

/ 下面又用一个MP任务来做

NutchJob job = new NutchJob(getConf());

job.setJobName("generate: partition " + segment);

job.setInt("partition.url.seed", new Random().nextInt()); // 这里产生一个Partition的随机数

FileInputFormat.addInputPath(job, inputDir); // 输入目录名

job.setInputFormat(SequenceFileInputFormat.class); // 输入文件格式

job.setMapperClass(SelectorInverseMapper.class); // 输入的Mapper，主要是过滤原来的key,使用url来做为新的key值

job.setMapOutputKeyClass(Text.class); // Mapper的key输出类型，这里就是url的类型

job.setMapOutputValueClass(SelectorEntry.class); // Mapper的value的输出类型，这里还是原因的SelectorEntry类型

job.setPartitionerClass(URLPartitioner.class); // 这里的key(url)的Partition使用这个类来做,这个类前面有说明

job.setReducerClass(PartitionReducer.class); // 这里的Reducer类，

job.setNumReduceTasks(numLists); // 这里配置工作的Reducer的个数，也就是生成几个相应的输出文件

FileOutputFormat.setOutputPath(job, output); // 配置输出路径

job.setOutputFormat(SequenceFileOutputFormat.class); // 配置输出格式

job.setOutputKeyClass(Text.class); // 配置输出的key与value的类型

job.setOutputValueClass(CrawlDatum.class); // 注意这里返回的类型为<Text,CrawlDatum>

job.setOutputKeyComparatorClass(HashComparator.class); // 这里定义控制key排序的比较方法

JobClient.runJob(job); // 提交任务

return segment; ）

执行完成这个job后也就得到了输出，即一个segments目录，类似于：crawl20140727/segments/20140727195735。后面就是一些清理现场的工作，比如解除文件锁、删除之前创建的临时文件夹等。（这是个好习惯，以后学着点，吃完东西要把嘴擦干净^_^）

5.执行完上步后，就生成了相应的segments文件目录，下一步也是一个mapreduce过程，so，没研究过mapreducer的真是伤不起啊……这个过程主要是更新crawldb数据，保证下次generate不会有相同的url。其中mapreduce都是crawlDbUpdate类：

job.setMapperClass(CrawlDbUpdater.class);
job.setReducerClass(CrawlDbUpdater.class);

至此Nutch的第二步已经走完，完事具备，只欠fetch~~~~

虽然源码看着有些头疼，但是很是坚持走下来吧，先整体把我，再细细研读吧，come on！！！

自身能力有限，见解之处必有不足，还望见谅。

参考博文：http://blog.csdn.net/amuseme_lu/article/details/6720079

友情赞助

如果你觉得博主的文章对你那么一点小帮助，恰巧你又有想打赏博主的小冲动，那么事不宜迟，赶紧扫一扫，小额地赞助下，攒个奶粉钱，也是让博主有动力继续努力，写出更好的文章^^。

　　　　1. 支付宝　　　　　　　　　　　　　　　　　　　　　　　　　　2. 微信

Nutch源码阅读进程2---Generate的更多相关文章

Nutch源码阅读进程5---updatedb
看nutch的源码仿佛就是一场谍战片,而构成这精彩绝伦的谍战剧情的就是nutch的每一个从inject->generate->fetch->parse->update的环节,首 ...
Nutch源码阅读进程3---fetch
走了一遍Inject和Generate,基本了解了nutch在执行爬取前的一些前期预热工作,包括url的过滤.规则化.分值计算以及其与mapreduce的联系紧密性等,自我感觉nutch的整个流程是很 ...
Nutch源码阅读进程1---inject
最近在Ubuntu下配置好了nutch和solr的环境,也用nutch爬取了一些网页,通过solr界面呈现,也过了一把自己建立小搜索引擎的瘾,现在该静下心来好好看看nutch的源码了,先从Inject ...
Nutch源码阅读进程3
走了一遍Inject和Generate,基本了解了nutch在执行爬取前的一些前期预热工作,包括url的过滤.规则化.分值计算以及其与mapreduce的联系紧密性等,自我感觉nutch的整个流程是很 ...
Nutch源码阅读进程5
看nutch的源码仿佛就是一场谍战片,而构成这精彩绝伦的谍战剧情的就是nutch的每一个从inject->generate->fetch->parse->update的环节,首 ...
Nutch源码阅读进程4---parseSegment
前面依次看了nutch的准备工作inject和generate部分,抓取的fetch部分的代码,趁热打铁,我们下面来一睹parse即页面解析部分的代码,这块代码主要是集中在ParseSegment类里 ...
Nutch源码阅读进程4
前面依次看了nutch的准备工作inject和generate部分,抓取的fetch部分的代码,趁热打铁,我们下面来一睹parse即页面解析部分的代码,这块代码主要是集中在ParseSegment类里 ...
Linux 源码阅读进程管理
Linux 源码阅读进程管理版本:2.6.24 1.准备知识 1.1 Linux系统中,进程是最小的调度单位: 1.2 PCB数据结构:task_struct (Location:linux-2. ...
chromium源码阅读--进程的Message Loop
上一篇总结了chromium进程的启动,接下来就看线程的消息处理,这里的线程包含进程的主进程. 消息处理是由base::MessageLoop中实现,消息中的任务和定时器都是异步事件的. 主要如下几点 ...

随机推荐

装个蒜。学习下dispatch queue
dispatch queue的真髓:能串行,能并行,能同步,能异步以及共享同一个线程池. 接口: GCD是基于C语言的APT.虽然最新的系统版本中GCD对象已经转成了Objective-C对象,但AP ...
转载：C#保存文件时重名自动生成新文件的方法
/// <summary> /// Generates a new path for duplicate filenames. /// </summary> /// <p ...
StrongSwan 5.1.1 发布，Linux 的 IPsec 项目
StrongSwan是一个完整的2.4和2.6的Linux内核下的IPsec和IKEv1 的实现.它也完全支持新的IKEv2协议的Linux 2.6内核.结合IKEv1和IKEv2模式与大多数其他基于 ...
用JS识别各版本浏览器
自昨天发了各浏览器内核介绍的随笔,就闲不住了,想直接写个JS来识别用户所用浏览器版本. 写着写着却发现很多坑爹的地方,比如IE10-的版本是依循常规支持attachEvent,但到了IE11,却只支持 ...
微软颜龄Windows Phone版开发小记
随着微软颜龄中文网cn.how-old.net的上线,她也顺势来到了3大移动平台. 用户在微软颜龄这一应用中选择一张包含若干人脸的照片,就可以通过云计算得到他们的性别和年龄. 今天我们就和大家分享一下 ...
作业七：团队项目——Alpha版本冲刺阶段-09
昨天进展:代码编写. 今天安排:代码编写.
Android按需添加Google Play服务
以前无论使用何种Google Play服务,都是直接在gradle文件中引用一个库. compile 'com.google.android.gms:play-services:9.4.0' 这直接导 ...
linux expect详解(ssh自动登录)
shell脚本实现ssh自动登录远程服务器示例: #!/usr/bin/expect spawn ssh root@192.168.22.194 expect "*password:&quo ...
[Java面试十]浏览器跨域问题.
此块内容参考Ajax文档部分. 主要复习内容: 1.JavaScript核心对象 2.浏览器BOM对象 3.文档对象模型DOM 4.常见事件 5.Ajax编程( ...
Node Express 4.0 安装
前言今天想要用nodejs 写个后台服务,很久之前看过node express 框架,可真当向下手安装的时候,发现好多命令都不记得了.写完后台服务,没事了,总结了下安装过程,记录一下,以便以后查阅方 ...

Nutch源码阅读进程2---Generate

Selector中的Partition方法主要是调用了URLPartition来进行相应的分块操作

Nutch源码阅读进程2---Generate的更多相关文章

随机推荐

热门专题