nutch的一些基础整理
nutch的一些基础整理
原创
2015年03月22日 18:18:01
<ul class="article_tags clearfix csdn-tracking-statistics" data-mod="popu_377">
<li class="tit">标签:</li>
<li><a href="http://so.csdn.net/so/search/s.do?q=nutch&t=blog" target="_blank">nutch</a> <span style="display: none;">/</span></li>
<!-- [endarticletags]-->
</ul>
<ul class="right_bar">
<li><button class="btn-noborder"><i class="icon iconfont icon-read"></i><span class="txt">240</span></button></li>
<li class="edit" style="display: none;">
<a class="btn-noborder" href="http://write.blog.csdn.net/postedit/44539479">
<i class="icon iconfont icon-bianji"></i><span class="txt">编辑</span>
</a>
</li>
<li class="del" style="display: none;">
<a class="btn-noborder" onclick="javascript:deleteArticle(fileName);return false;">
<i class="icon iconfont icon-shanchu"></i><span class="txt">删除</span>
</a>
</li>
</ul>
</div>
<div id="article_content" class="article_content csdn-tracking-statistics" data-mod="popu_519" data-dsm="post">
一、关于配置文件:
nutch-default.xml:爬虫的默认配置。在${nutch_home}/conf目录。
nutch-site.xml:理论上是nutch-default.xml的覆盖。
core-default.xml, hdfs-default.xml, mapred-default.xml:用于配置 Hadoop,与 hadoop-core-xxx.jar 相关。
mapred- default.xml:用于nutch的map-reduce配置。
hdfs-default.xml:用于在 Nutch 中实现 DFS。
regex-urlfilter.txt:从seed.txt读取URL和写入crawldb时,先过 regex-pattern。
二、关于表:
1、两类表webpage和host
2、gora映射放在${nutch_home}/conf目录gora*.xml文件
3、使用的数据库类型在gora.properties文件中配置,并有对应的映射文件。
三、种子文件seed.txt
1、每行一个种子url,可以自定义任何参数,并存到webpage的metadata字段。定义nutch.score、nutch.fetchInterval两个参数时可覆盖配置文件里的db.score.injected、db.fetch.interval.default两个配置。
2、每次injector时文件里的url都会先Normalizers再过filter
四、GeneratorJob
- Usage: GeneratorJob [-topN N] [-crawlId id] [-noFilter] [-noNorm] [-adddays numDays]
Usage: GeneratorJob [-topN N] [-crawlId id] [-noFilter] [-noNorm] [-adddays numDays]1、-topN <N>:在每次迭代中限制爬行的头几个链接数,默认是Integer.MAX_VALUE
2、-crawlId <id> :默认是storage.crawl.id配置
3、-noFilter:不使用过滤器
4、-noNorm:不Normalizers URL
5、-adddays:当前时间增加numDays天。可以影响什么时候爬取,相当于抓取的参考时间。fetchTime <= curTime时,表示可以抓取。
generat前对URL进行normalize后过URLFilters(跟InjectorJob里的是同一个)。
所以,通过DbUpdaterJob产生的新行(outlinks)只有在这里filter掉,以致后边的步骤不处理,但这些url依然会躺在webpage里,谁知道那天filter被修改后会不会用到这些URL。
五、FetcherJob
- Usage: FetcherJob (<batchId> | -all) [-crawlId <id>]
Usage: FetcherJob (<batchId> | -all) [-crawlId <id>]1、-resume:恢复中断的工作
2、-numTasks:任务数,<1时使用默认值mapred.map.tasks
这个时候只是把任务中可抓取的URL进行抓取,并更新数据库里的抓取时间及结果、状态等数据。这时webpage里有了url页面的html,并记录Content-Encoding、Content-Type、Server(nginx.etc.)、X-Via等字段。爬取时产生重定向的URL,过URLFilters和db.ignore.external.links后继续,重定向后的新URL作为原URL的outlink处理。
六、ParserJob
- Usage: ParserJob (<batchId> | -all) [-crawlId <id>] [-resume] [-force]
Usage: ParserJob (<batchId> | -all) [-crawlId <id>] [-resume] [-force]1、-resume:恢复之前未完成的
2、-force:强制重新解析已解析过的页面
这时对抓取过来的数据进行解析,也就是分析webpage里content字段的html,找出outlinks、OriginalCharEncoding、页面纯文字、标题、sig等字段。outlinks进行URLFilters和db.ignore.external.links。
七、DbUpdaterJob
1、其实就是根据数据库的情况更新一些权重字段,例如STATUS、Inlinks、Markers、Metadata、Score等
2、此时将把parser阶段解析到的outlinks生成新的webpage行,并且inlinks为上一步的url.。在mapper中根据outlinks生成scoreData后context.write,然后在reducer中产生新行。没有filter。只有计算score时有ScoringFilters。
3、www.sitename.com/和www.sitename.com/index.html被视为不同的抓取路径并产生两行记录
八、IndexingJob
将webpage中可索引的数据映射到NutchDocument,并扔给索引引擎。
nutch的一些基础整理的更多相关文章
- 机器学习 —— 基础整理(六)线性判别函数:感知器、松弛算法、Ho-Kashyap算法
这篇总结继续复习分类问题.本文简单整理了以下内容: (一)线性判别函数与广义线性判别函数 (二)感知器 (三)松弛算法 (四)Ho-Kashyap算法 闲话:本篇是本系列[机器学习基础整理]在time ...
- MySQL基础整理(一)之SQL基础(未完成)
大家好,我是浅墨竹染,以下是MySQL基础整理(一)之SQL基础 1.SQL简介 SQL(Structure Query Language)是一种结构化查询语言,是使用关系模型的数据库应用语言. 2. ...
- [转帖]nginx基础整理
nginx基础整理 https://www.cnblogs.com/guigujun/p/6588545.html 目录结构如下: Nginx基础知识 Nginx HTTP服务器的特色及优点 Ngin ...
- JAVA基础整理-集合篇(一)
集合作为JAVA的基础知识,本来感觉自己理解的很清楚了,但是在最近的一次面试中还是答得不尽如人意!再次做一下整理,以便加深理解以及随时查阅. 首先,java.util包中三个重要的接口及特点:List ...
- 关于JAVA面向对象基础整理以及个人的理解(适合初学者阅读)
JAVA的基础语法等都跟C有很大的相似之处,所以这里就不多啰嗦了.直接从数组开始. 数组: 1.声明 int [] a; 在声明的过程中,并没有分配空间给数组.我们可以在声明的同时,用new来分配相应 ...
- C#基础整理
元旦整理书架发现一本小册子——<C#精髓>中国出版社2001年出版的,粗略翻了下关于C#的知识点挺全的虽然内容谈得很浅也有很多过时的内容(话说这本书是我在旧书店花5块钱淘的)我保留原有章节 ...
- HTML5游戏开发技术基础整理
随着HTML5标准终于敲定.HTML5将有望成为游戏开发领域的的热门平台. HTML5游戏能够执行于包含iPhone系列和iPad系列在内的计算机.智能手机以及平板电脑上,是眼下跨平台应用开发的最佳实 ...
- js数组基础整理
首页: 主要整理了一下数组中常用的一些基础知识,代码都是自己手敲,有不对的地方希望能指出,目前只有4篇,后续会不断的增加这一板块. 由于少于100字不能发所以把一些最基本的创建数组也写上. // 创建 ...
- 机器学习 —— 基础整理(四)特征提取之线性方法:主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
随机推荐
- selenium+java解决富文本输入
方法一: Actions actions = new Actions(driver); actions.sendKeys(Keys.TAB).perform(); //鼠标通过tab要先移到富文本框中 ...
- windowbuilder01 按钮事件监听
- 将 excel文件数据导入MySQL数据库中
第一步:先将Excel文件另存为文本文件(制表符分割) 第二步:将生成的txt文件另存,并修改编码格式utf8; 第三步:将文件放到指定位置,或自己想要的位置: G:\city.txt 第四步:避免创 ...
- GROUP BY 和 ORDER BY 的一起使用
GROUP BY 和 ORDER BY一起使用 写程序也有很长的一段时间了,有些东西我总不曾去思考,很少去积累一些有用的东西,总喜欢"用要即拿"的心态来对待,这是非常不好的坏习惯. ...
- c++ 设计模式之简单的工厂模式
调试环境:vs2010 // test0.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream> ...
- Qunie——自我生成程序
Qunie是一段没有输入.但输出和它本身源代码同样的程序.本文无不论什么高深技术,纯属娱乐! 近期看到wikipedia的一个词条--Quine,简单介绍部分摘录于此,并简要翻译: A quine i ...
- “System.IO.FileNotFoundException”类型的未经处理的异常在 mscorlib.dll 中发生
这个错误是我在打包的时候.发现的,由于我移动了我的project的位置(从C盘移动到了D盘),看一下出错的代码: Dim strDB As String = System.Configuration. ...
- 杭电 1016 Prime Ring Problem
Prime Ring Problem Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ...
- 深入理解Oracle索引(1):INDEX SKIP SCAN 和 INDEX RANGE SCAN
㈠ Index SKIP SCAN 当表有一个复合索引,而在查询中有除了索引中第一列的其他列作为条件,并且优化器模式为CBO,这时候查询计划就有可能使用到SS ...
- linux + nginx 的配置优化
linux 关于TCP/IP 的优化配置 配置文件/etc/sysctl.conf 修改完文件生效的命令 /sbin/sysctl -p 如下是总结的配置内容及说明 net.ipv4.con ...