nutch+hadoop 配置使用

配置nutch+hadoop
1，下载nutch。如果不需要特别开发hadoop，则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置
2，建立目录（根据自己喜好）
/nutch
/search       (nutch installation goes here) nutch安装到这里，也就是解压到这里
/filesystem hadoop的文件系统存放点
/local /crawl后放置索引用来search用的
/home     (nutch user's home directory) 如果你用系统用户，这个基本没用
/tomcat 启动nutch.war用来search索引的app

3，conf/hadoop-env.sh   一定要配置JAVA_HOME,否则系统起不来
4，配置master和slave的ssh，否则每次都要输入passwd
ssh-keygen -t rsa
然后回车即可
cp id_rsa.pub authorized_keys
（copy到其它的slave上）scp /nutch/home/.ssh/authorized_keys nutch@devcluster02:/nutch/home/.ssh/authorized_keys
5，将bin和conf下所有的.sh、 nuch、 hadoop文件 dos2unix
dos2unix /nutch/search/bin/*.sh /nutch/search/bin/hadoop

配置hadoop-size.xml
6，记住要把master文件从nutch/hadoop copy到这个nutch中，应该是bug。也就是说启动需要这个文件，文件内容为默认的localhost即可（如果是分布式，可能需要配置）
7，格式化namenode
bin/hadoop namenode -format
8，启动：bin/start-all.sh
9，配置crawl （以配置一个网址 lucene.apache.org为例）
cd /nutch/search
mkdir urls
vi urls/urllist.txt        http://lucene.apache.org

cd /nutch/search
bin/hadoop dfs -put urls urls

cd /nutch/search
vi conf/crawl-urlfilter.txt
change the line that reads:   +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
to read:                      +^http://([a-z0-9]*\.)*apache.org/
10，启动crawl
bin/nutch crawl urls -dir crawled -depth 3
11，查询
bin/hadoop dfs -copyToLocal crawled /media/do/nutch/local/(crawled)   将index的东西copy到以上配置的local中，因为search不能用dfs中搜索(从文档看是这样)
12，启动nutch.war，测试
vi nutch-site.xml    nutch.war中classes下
start tomcat

注意点：
1，masters文件 nutch原来没有，需要copy到conf下
2，crawl的log4j配置默认有问题，需要增加：
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3，nutch1.0 一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。

问题：
1，运行hadoop程序时，中途我把它终止了，然后再向hdfs加文件或删除文件时，出现Name node is in safe mode错误：
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode
解决的命令：
bin/hadoop dfsadmin -safemode leave #关闭safe mode

索引命令：
bin/nutch index plainindex/paodingindexes plainindex/crawldb plainindex/linkdb plainindex/segments/20090528132511 plainindex/segments/20090528132525 plainindex/segments/20090528132602

eg：
index：
bin/nutch index crawled/indexes_new crawled/crawldb crawled/linkdb crawled/segments/20100313132517

merge：
bin/nutch merge crawled/index_new crawled/indexes_new

去重 dedup：
bin/nutch dedup crawled/index_new

中文分词：
1.对建立索引所用分词工具的修改

将下载的中文分词包放到lib目录下，改名为analysis-zh.jar(当然，你也可以不用改）。找到下面文件

src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java

修改tokenStream方法如下

public TokenStream tokenStream(String fieldName, Reader reader) {
Analyzer analyzer;
analyzer= new MMAnalyzer();
return analyzer.tokenStream(fieldName, reader);
}

注意：由于加入信息的分析类，你需要将该类导入。使用如下语句。

import jeasy.analysis.*;

2.对查询所用分析部分的修改

src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件

将 <SIGRAM: <CJK> >

改为:| <SIGRAM: (<CJK>)+ >

使用javacc工具将NutchAnalysis.jj生成java文件，共会生成7个java文件，将他们拷贝到下面的文件夹中替换原有文件。

src\java\org\apache\nutch\analysis

如何安装与使用javacc？

下载javacc并解压，然后将javacc的主目录添加到环境变量下。进入命令行，输入javacc，如果不出现不能识别该命令之类的说法，证明安装成功。

进入NutchAnalysis.jj文件所在的目录，输入javacc NutchAnalysis.jj命令就会生成7个java文件了。

3.重新编译工程文件

这里你需要用到ant工具了，那么ant工具怎么安装呢？

ant的安装与配置与 javacc类似，下载后解压，然后在path环境变量中加如指向ant下的bin文件夹的路径。

使用：从命令行进入nutch目录中，输入ant命令，它会自动根据当前目录下的build.xml进行重建。重建完毕后会在改目录下产生一个build文件夹。

4.重建后的文件替换

一、将nutch-0.x.x.job文件拷贝出来替换nutch目录下的同名文件。

二、将\build\classes\org\apache\nutch\analysis目录下的所有文件拷贝替换nutch-0.x.x.jar中org\apache\nutch\analysis目录下的文件。

三、将nutch-0.x.x.jar文件和你的分词包（我的是analysis-zh.jar）拷贝到tomcat中WEB-INF\lib下面。

5.重新爬行与建立索引，重新启动tomcat即可。

nutch搜索url过滤规则：
对于每一次(由depth决定)对url进行filter，所以要搜子页面，首页一定要通过filter，否则搜索不到。
详见：http://hi.baidu.com/ldl_java/blog/item/84d1427894231ee62f73b30a.html

nutch+hadoop 配置使用的更多相关文章

【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎：安装及运行【集群环境】
1.下载相关软件,并解压版本号如下: (1)apache-nutch-2.3 (2) hadoop-1.2.1 (3)hbase-0.92.1 (4)solr-4.9.0 并解压至/opt/jedi ...
Nutch+Hadoop集群搭建
转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch Apache Nutch是一个用于网络搜索 ...
一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...
【架构】基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...
Nutch+Hadoop集群搭建分类： H3_NUTCH 2015-01-18 10:55 362人阅读评论(0) 收藏
转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch Apache Nutch是一个用于网络搜索 ...
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并 ...
hadoop配置优化
yarn-site.xml <property> <name>yarn.nodemanager.resource.memory-mb</name> <valu ...
hadoop配置错误
经过上一周的郁闷期(拖延症引发的郁闷),今天终于开始步入正轨了.今天主要是解决hadoop配置的错误以及网络时断时续的问题. 首先说明一下之前按照这篇文章的方法配置完全没有问题,但是等我配置好了发现h ...
Hadoop 配置好hive，第一次在conf能进入，第二次就不行了，怎么办？
问题描述: 在 Hadoop 配置好 hive 数据仓库,在conf目录下通过hive命令进入hive数据仓库,非常顺利. 但关闭终端,第二次按这种方式却显示,无次命令. 怎么办? 解决办法: 在h ...

随机推荐

tx:advice标签简介
http://book.51cto.com/art/200909/149437.htm
在magento的eav模型中如何在更新记录时只在value表的原值上更新
1,一般情况下,当我们在调用getModel在load某条实体接着更新对应实体上的值是,都不会覆盖原来的实体value表上的值,而是保留原来的,并在value表上重新创建一条值记录,比如初始表如下: ...
[SharePoint2010开发入门经典]SPS2010开发工具
本章概要: 1.了解不同的开发SPS的方法 2.了解SPS开发工具和环境 3.使用VS2010和SPD还有Blend开发SPS
经验之谈—OAuth授权流程图
事实上我们在开发中,常常须要解决获得用户的一些特定的数据,比方:能够选择使用微博登陆.使用QQ登陆等等.然后我们间接的获得用户的头像.昵称等信息.这些都涉及到OAuth授权的内容 OAuth授权有这么 ...
cpu真实占用率检測工具
windows任务管理器所示CPU占用,一直在不断的变动跳跃 ,并不能反应真实的平均CPU占用率.迅雷下载工具也是一样 ,有时这些知名软件,反倒是没有做的这么人性化,细致.或许就是不想让人知道 ...
《Java虚拟机原理图解》 1.2.3、Class文件里的常量池具体解释（下）
NO9.类中引用到的field字段在常量池中是如何描写叙述的?(CONSTANT_Fieldref_info, CONSTANT_Name_Type_info) 一般而言.我们在定义类的过程中会定义一 ...
NFS的搭建（sudo apt-get install nfs-kernel-server），TFTP服务器（sudo apt-get install tftpd-hpa tftp-hpa）
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/Osean_li/article/details/53240705 ***************** ...
NSKeyedArchiver
如果对象是NSString.NSDictionary.NSArray.NSData.NSNumber等类型,可以直接用NSKeyedArchiver进行归档和恢复不是所有的对象都可以直接用这种方法进 ...
[SCOI 2009] 生日快乐
[题目链接] https://www.lydsy.com/JudgeOnline/problem.php?id=1024 [算法] 直接DFS,即可 [代码] #include<bits/std ...
springmvc-mvc:resource标签使用
转自:http://www.cnblogs.com/gzulmc/p/6746174.html <mvc:resources location=&quo ...

nutch+hadoop 配置使用