Nutch 教程

国内私募机构九鼎控股打造APP，来就送 20元现金领取地址：http://jdb.jiudingcapital.com/phone.html
内部邀请码：C8E245J （不写邀请码，没有现金送）
国内私募机构九鼎控股打造，九鼎投资是在全国股份转让系统挂牌的公众公司，股票代码为430719，为“中国PE第一股”，市值超1000亿元。

------------------------------------------------------------------------------------------------------------------------------------------------------------------

英文原文：NutchTutorial

来源地址：http://www.oschina.net/translate/nutch-tutorial

介绍

Apache Nutch是一个用Java编写的开源网络爬虫。通过它，我们就能够自动地找到网页中的超链接，从而极大地减轻了维护工作的负担，例如检查那些已经断开了的链接，或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架，通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是，关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。

Apache Nutch对于Solr已经支持得很好，这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。

kzjnet
翻译于 1年前

2人顶

顶翻译的不错哦!

步骤

这篇教程描述了Nutch 1.x（当前版本是1.6）的安装和使用。关于如何编译和安装Nutch 2.x，请查看Nutch2Tutorial。

1.从二进制发行包安装Nutch

从这里下载二进制包（apache-nutch-1.X-bin.zip）。
解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X。
cd apache-nutch-1.X/

从现在开始，我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录（apache-nutch-1.X/）。

从源代码安装Nutch

高级用户也可能会使用源代码发行包：

下载一个源代码包（apache-nutch-1.X-src.tar.gz）
解压缩
cd apache-nutch-1.X/
在这个目录里运行ant（参见：RunNutchInEclipse）
现在那会有一个目录runtime/local，它包含了准备使用的Nutch安装

当使用源代码包时，我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些：

配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
ant clean将会移除这个目录（并保留被更改的配置文件的备份）

kzjnet
翻译于 1年前

1人顶

顶翻译的不错哦!

2.检验您的Nutch安装

运行”bin/nutch“。如果您能看见下列内容说明您的安装是正确的：

Usage: nutch [-core] COMMAND

一些解决问题的提示：

如果您看见”Permission denied”那么请运行下列命令：

chmod +x bin/nutch

如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上，您可以运行下述命令或者把它添加到~/.bashrc里面去：

export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home

kzjnet
翻译于 1年前

1人顶

顶翻译的不错哦!

3.抓取您的第一个网站

将您的代理的名称添加到conf/nutch-site.xml的http.agent.name属性的Value字段里，例如：

<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>

mkdir -p urls
cd urls
touch seed.txt

这样子就在urls/目录下创建了一个文本文档seed.txt。它需要包含像下面这样的内容（每行一个网站URL来告诉Nutch您想要抓取的网站）：

http://nutch.apache.org/

编辑文件conf/regex-urlfilter.txt并且替换

# accept anything else
+.

为一条与您要抓取的域名相对应的正则表达式。例如，如果您想要限制为抓取nutch.apache.org这一域名，这一行读起来应该像是这样子的：

+^http://([a-z0-9]*\.)*nutch.apache.org/

这会包括在nutch.apache.org下的任何URL。

3.1使用抓取命令

现在我们已经准备好开始一次抓取，可以使用以下的参数：

-dir dir 指定用于存放抓取文件的目录名称。
-threads threads 决定将会在获取是并行的线程数。
-depth depth 表明从根网页开始那应该被抓取的链接深度。
-topN N 决定在每一深度将会被取回的网页的最大数目
运行下面的命令：

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

crawl/crawldb
crawl/linkdb
crawl/segmentsThis

请记住：如果您有一个已经设置好了的Solr并且想要建立索引到那里面去，您必须添加-solr <solrUrl>参数到您的crawl命令里面。例如：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

然后请直接跳到后面–为搜索设置Solr 。

通常一开始测试一个配置都是通过抓取在较浅深度来进行，大大地限制了每一级所获取的网页数（-topN），并且观察输出来检查所需要的页面是否已经得到以及不需要的页面是否被阻挡。要想查看某一配置是否正确，对于全文搜索来说较为适当的深度设置大约是10左右。每一级所获取的网页数（ -topN）可以从几万上到几百万，这取决于您的资源。

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

3.2使用特别的命令对整个网络进行抓取

请记住：如果您先前更改并覆盖了文件conf/regex-urlfilter.txt在这里您需要将它改回去。

整个网络的抓取被设计成用来处理那些可能需要耗费几个星期来完成，在许多台机器上运行的非常大的抓取。这也允许在抓取的过程中进行更多的控制，还有增量抓取。最重要的是要记住整个网络的抓取并不一定意味着要抓取整个万维网。我们可以限制整个网络的抓取只是抓取我们列出的想要抓取的URL。这是通过使用一个就像我们用 crawl命令时一样的过滤器来完成的。

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

循序渐进之–概念

Nutch数据是由这些组成的：

抓取数据库，或者说是crawldb。它包含了关于每一个Nutch已知的URL的信息，包括它是否已经被获取，甚至是何时被获取的。
链接数据库，或者说是linkdb。它包含了每一个已知URL的链接，包括源的URL以及链接的锚文本。
一系列的分段，或者说是segments。每一个segments都是一组被作为一个单元来获取的URL。segments是它本身这个目录以及它下面的子目录：
- 一个crawl_generate确定了将要被获取的一组URL；
- 一个crawl_fetch包含了获取的每个URL的状态；
- 一个content包含了从每个URL获取回来的原始的内容；
- 一个parse_text包含了每个URL解析以后的文本；
- 一个parse_data包含来自每个URL被解析后内容中的外链和元数据；
- 一个crawl_parse包含了外链的URL，用来更新crawldb。

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

循序渐进之–用一组URL列表确定crawldb

选择1：从DMOZ数据库自举。

由injector添加URL到crawldb里。让我们从DMOZ开放式分类目录添加URL吧。首先我们必须下载并且解压缩这个DMOZ所有网页的列表（这是一个200多MB的文件，所以这会消耗几分钟）。

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
gunzip content.rdf.u8.gz

接下来我们选择这些网页当中随机的一些子集（我们使用随机的子集所以所有在跟着这一个教程做的人就不会伤害到同样的网站）。DMOZ包含了大约三百万个URL。我们从每5000个URL中选择出一个，因此我们就有大约1000个URL：

mkdir dmoz
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls

这一分析器也需要几分钟来完成，因为它必须要分析整个文件。最后，我们用这些选出的URL来初始化crawldb。

bin/nutch inject crawl/crawldb dmoz

现在我们有了一个大约有1000个未被获取的URL的网络数据库。

选择2：从初始列表里自举。

这一选项不为人们所了解的地方在于创建初始列表并覆盖在urls/目录里。

bin/nutch inject crawl/crawldb urls

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

循序渐进之–获取

要获取，我们首先要从数据库里产生一个获取的列表。

bin/nutch generate crawl/crawldb crawl/segments

这会为所有预定要被获取的网页产生一个获取列表。获取列表放在一个新创建的分段目录里。分段目录的名称取决于它被创建时的时间。

我们将这个分段的名字放在shell的变量s1里面：

s1=`ls -d crawl/segments/2* | tail -1`
echo $s1

现在我们能以下面的命令在这个分段里进行获取：

bin/nutch fetch $s1

然后我们就能解析条目：

bin/nutch parse $s1

当这一切完成以后，我们就以获取回来的结果更新数据库：

bin/nutch updatedb crawl/crawldb $s1

现在，数据库包含了刚刚更新的条目的所有初始页，除此之外，新的网页条目对于链接到初始的集合来进行新条目的发现是相符合的。
所以我们对包含得分最高的1000页提取出来产生一个新的分段：

bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s2=`ls -d crawl/segments/2* | tail -1`
echo $s2
bin/nutch fetch $s2
bin/nutch parse $s2
bin/nutch updatedb crawl/crawldb $s2

让我们再来获取一次吧：

bin/nutch generate crawl/crawldb crawl/segments -topN 1000
s3=`ls -d crawl/segments/2* | tail -1`
echo $s3
bin/nutch fetch $s3
bin/nutch parse $s3
bin/nutch updatedb crawl/crawldb $s3

通过这一点我们已经获取了几千页的网页。让我们索引它们吧！

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

循序渐进之–反向链接

在我们进行索引之前，我们首先要反转所有的链接，以便我们能够以这些网页来索引进入的锚文本。

bin/nutch invertlinks crawl/linkdb -dir crawl/segments

我们现在准备好要用Apache Solr进行搜索了。

4.为搜索设置Solr

从这里下载二进制文件。
解压缩到$HOME/apache-solr-3.X，从现在起，我们将会用${APACHE_SOLR_HOME}代替它。
cd ${APACHE_SOLR_HOME}/example
java -jar start.jar

5.检验Solr的安装

在您启动Solr管理员控制台以后，您应该能够访问下列这些链接：

http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp

kzjnet
翻译于 1年前

0人顶

顶翻译的不错哦!

6.将Solr与Nutch进行整合

我们已经将Nutch和Solr正确地安装设置好了。并且Nutch已经从URL列表里创建并抓取了数据。以下步骤是一个以Solr来搜索要搜索的链接的代表：

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/
在目录${APACHE_SOLR_HOME}/example下使用命令”java -jar start.jar“来重启Solr
运行Solr索引命令：

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

运行solrindex的一些细节已经被改变了。linkdb现在是可选的，所以您需要在命令行中用一个”-linkdb”明确地表示它。
这会发送所有的抓取数据给Solr进行索引。更多信息请运行命令bin/nutch solrindex。
如果一切顺利，我们现在已经准备好在http://localhost:8983/solr/admin/进行搜索。如果您想要看到有Solr创建的原始HTML索引，您需要更改schema.xml当中定义的content字段为：

Nutch 教程的更多相关文章

Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日在使用本教程之 ...
Nutch学习笔记二——抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程. 笔记中通过配置抓取地址http://b ...
Nutch学习笔记一 ---环境搭建
学习环境: ubuntu 概要: Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 通过nutch,诞生了hadoop.tika ...
apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程
1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-d ...
【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎：安装及运行【集群环境】
1.下载相关软件,并解压版本号如下: (1)apache-nutch-2.3 (2) hadoop-1.2.1 (3)hbase-0.92.1 (4)solr-4.9.0 并解压至/opt/jedi ...
【Nutch基础教程之七】Nutch的2种运行模式：local及deploy
在对nutch源代码运行ant runtime后,会创建一个runtime的目录,在runtime目录下有deploy和local 2个目录. [jediael@jediael runtime]$ l ...
【Nutch基础教程之七】Nutch的2种执行模式：local及deploy
在对nutch源码执行ant runtime后,会创建一个runtime的文件夹.在runtime文件夹下有deploy和local 2个文件夹. [jediael@jediael runtime]$ ...
[转]《Hadoop基础教程》之初识Hadoop
原文地址:http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不 ...
《Hadoop基础教程》之初识Hadoop
Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程> ...

随机推荐

Bootstrap学习之路（3）---列表组件
列表是几乎所有网站都会用到的一个组件,正好bootstrap也给我们提供了这个组件的样式,下面我给大家简单介绍一下bootstrap中的列表组件的用法! 首先,重提一下引用bootstrap的核心文件 ...
DB2因表空间不够产生load表失败
今天下午恢复表的时候发现出现错误: SQL3520W Load Consistency Point was successful. SQL3110N The utility has complet ...
CXF之九 WS-Security
Webservice 的安全 Webservice为作为方便的服务被用广大领域使用的同时,也成为了黑客们的美食.在这里,本文将就目前对Webservice安全所能做的改进做简单介绍.在Webservi ...
Quartz使用总结
废话的前言以前凭借年轻,凡事都靠脑记.现在工作几年后发现,很多以前看过.用过的东西,再次拿起的时候总觉得记不牢靠."好记性不如烂笔头"应该是某位上了年纪的大叔的切肤之痛(仅次于上 ...
Javascript 日期时间格式正则
因为Javascript的日期格式判断可能因浏览器的版本有所不同,所以用正则判断会比较好,这里备注一个正则用来判断日期时间的格式: ^(?=\d)(?:(?!(?:1582(?:\.|-|\/)10( ...
【Unity入门】碰撞检测与触发检测
版权声明:本文为博主原创文章,转载请注明出处. 在Unity里面,游戏物体的碰撞我们可以通过刚体组件(Rigidbody)和碰撞器组件(Collider)来进行检测.首先在场景里面添加一个Plane面 ...
Markdown 是什么？
这是一篇 Markdown 学习笔记,简要记录常用 Markdown 语法. Markdown 是什么? Markdown 是一种轻量级标记语言,创始人为约翰·格鲁伯(John Gruber)和亚伦· ...
Java与云计算有什么关系呢
在如今这个信息技术高速发展的今天,云计算已经不是一个陌生的概念了,但是,当云计算遇到java将会有什么样的问题产生呢?下面,新霸哥将会为你揭晓Java与云计算之间的关系. 众所周知,java是一种应用 ...
9段高效率开发PHP程序的代码
php是世界上最好的语言在php网站开发中,大家都希望能够快速的进行程序开发,如果有能直接使用的代码片段,提高开发效率,那将是起飞的感觉.今天由杭州php工程师送出福利来了,以下9段高效率开发PHP ...
searchDisplayController 时引起的数组越界
当 [searchDisplayController.searchResultsTableView setSeparatorStyle:UITableViewCellSeparatorStyleNo ...

Nutch 教程

英文原文：NutchTutorial

介绍

kzjnet翻译于 1年前

步骤

1.从二进制发行包安装Nutch

从源代码安装Nutch

kzjnet翻译于 1年前

2.检验您的Nutch安装

kzjnet翻译于 1年前

3.抓取您的第一个网站

3.1使用抓取命令

kzjnet翻译于 1年前

3.2使用特别的命令对整个网络进行抓取

kzjnet翻译于 1年前

循序渐进之–概念

kzjnet翻译于 1年前

循序渐进之–用一组URL列表确定crawldb

kzjnet翻译于 1年前

循序渐进之–获取

kzjnet翻译于 1年前

循序渐进之–反向链接

4.为搜索设置Solr

5.检验Solr的安装

kzjnet翻译于 1年前

6.将Solr与Nutch进行整合

Nutch 教程的更多相关文章

随机推荐

热门专题

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前

kzjnet
翻译于 1年前