nutch+hadoop 配置使用

配置nutch+hadoop 
1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 
2,建立目录(根据自己喜好) 
/nutch 
/search       (nutch installation goes here) nutch安装到这里,也就是解压到这里 
/filesystem hadoop的文件系统存放点 
/local /crawl后放置索引用来search用的 
/home     (nutch user's home directory)  如果你用系统用户,这个基本没用 
/tomcat 启动nutch.war用来search索引的app 

3,conf/hadoop-env.sh   一定要配置JAVA_HOME,否则系统起不来 
4,配置master和slave的ssh,否则每次都要输入passwd 
ssh-keygen -t rsa 
然后回车即可 
cp id_rsa.pub authorized_keys 
(copy到其它的slave上)scp /nutch/home/.ssh/authorized_keys nutch@devcluster02:/nutch/home/.ssh/authorized_keys 
5,将bin和conf下所有的.sh、 nuch、 hadoop文件  dos2unix 
dos2unix /nutch/search/bin/*.sh /nutch/search/bin/hadoop 

配置hadoop-size.xml 
6,记住要把master文件从nutch/hadoop  copy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置) 
7,格式化namenode 
bin/hadoop namenode -format 
8,启动:bin/start-all.sh 
9,配置crawl  (以配置一个网址 lucene.apache.org为例) 
cd /nutch/search 
mkdir urls 
vi urls/urllist.txt        http://lucene.apache.org 

cd /nutch/search 
bin/hadoop dfs -put urls urls 

cd /nutch/search 
vi conf/crawl-urlfilter.txt 
change the line that reads:   +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
to read:                      +^http://([a-z0-9]*\.)*apache.org/ 
10,启动crawl 
bin/nutch crawl urls -dir crawled -depth 3 
11,查询 
bin/hadoop dfs -copyToLocal crawled /media/do/nutch/local/(crawled)   将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样) 
12,启动nutch.war,测试 
vi nutch-site.xml    nutch.war中classes下 
start tomcat 

注意点: 
1,masters文件 nutch原来没有,需要copy到conf下 
2,crawl的log4j配置默认有问题,需要增加: 
hadoop.log.dir=. 
hadoop.log.file=hadoop.log 
3,nutch1.0 一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。 

问题: 
1,运行hadoop程序时, 中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Name node is in safe mode错误: 
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 
解决的命令: 
bin/hadoop dfsadmin -safemode leave #关闭safe mode 

索引命令:    
bin/nutch index plainindex/paodingindexes plainindex/crawldb plainindex/linkdb plainindex/segments/20090528132511 plainindex/segments/20090528132525 plainindex/segments/20090528132602 

eg: 
index: 
bin/nutch index crawled/indexes_new crawled/crawldb crawled/linkdb crawled/segments/20100313132517 

merge: 
bin/nutch merge crawled/index_new crawled/indexes_new 

去重 dedup: 
bin/nutch dedup crawled/index_new 

中文分词: 
1.对建立索引所用分词工具的修改 

将下载的中文分词包放到lib目录下,改名为analysis-zh.jar(当然,你也可以不用改)。找到下面文件 

src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java 

修改tokenStream方法如下 

public TokenStream tokenStream(String fieldName, Reader reader) { 
Analyzer analyzer; 
analyzer= new MMAnalyzer(); 
return analyzer.tokenStream(fieldName, reader); 


注意:由于加入信息的分析类,你需要将该类导入。使用如下语句。 

import jeasy.analysis.*; 

2.对查询所用分析部分的修改 

src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件 

将 <SIGRAM: <CJK> > 

改为:| <SIGRAM: (<CJK>)+ > 

使用javacc工具将NutchAnalysis.jj生成java文件,共会生成7个java文件,将他们拷贝到下面的文件夹中替 换原有文件。 

src\java\org\apache\nutch\analysis 

如何安装与使用javacc? 

下载javacc并解压,然后将javacc的主目录添加到环境变量下。进入命令行,输入javacc,如果不出现不能识别该命令之类的说法,证明安装成功。 

进入NutchAnalysis.jj文件所在的目录,输入javacc NutchAnalysis.jj命令就会生成7个java文件了。 

3.重新编译工程文件 

这里你需要用到ant工具了,那么ant工具怎么安装呢? 

ant的安装与配置与 javacc类似,下载后解压,然后在path环境变量中加如指向ant下的bin文件夹的路径。 

使用:从命令行进入nutch目录中,输入ant命令,它会自动根据当前目录下的build.xml进行重建。重建完毕后会在改目录下产生一个build文件夹。 

4.重建后的文件替换 

一、将nutch-0.x.x.job文件拷贝出来替换nutch目录下的同名文件。 

二、将\build\classes\org\apache\nutch\analysis目录下的所有文件拷贝替换nutch-0.x.x.jar中org\apache\nutch\analysis目录下的文件。

三、将nutch-0.x.x.jar文件和你的分词包(我的是analysis-zh.jar)拷贝到tomcat中WEB-INF\lib下面。 

5.重新爬行与建立索引,重新启动tomcat即可。 

nutch搜索url过滤规则: 
对于每一次(由depth决定)对url进行filter,所以要搜子页面,首页一定要通过filter,否则搜索不到。 
详见:http://hi.baidu.com/ldl_java/blog/item/84d1427894231ee62f73b30a.html

nutch+hadoop 配置使用的更多相关文章

  1. 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】

    1.下载相关软件,并解压 版本号如下: (1)apache-nutch-2.3 (2) hadoop-1.2.1 (3)hbase-0.92.1 (4)solr-4.9.0 并解压至/opt/jedi ...

  2. Nutch+Hadoop集群搭建

    转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch    Apache Nutch是一个用于网络搜索 ...

  3. 一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

    网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...

  4. 【架构】基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

    网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...

  5. Nutch+Hadoop集群搭建 分类: H3_NUTCH 2015-01-18 10:55 362人阅读 评论(0) 收藏

    转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch    Apache Nutch是一个用于网络搜索 ...

  6. 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

    基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并 ...

  7. hadoop配置优化

    yarn-site.xml <property> <name>yarn.nodemanager.resource.memory-mb</name> <valu ...

  8. hadoop配置错误

    经过上一周的郁闷期(拖延症引发的郁闷),今天终于开始步入正轨了.今天主要是解决hadoop配置的错误以及网络时断时续的问题. 首先说明一下之前按照这篇文章的方法配置完全没有问题,但是等我配置好了发现h ...

  9. Hadoop 配置好hive,第一次在conf能进入,第二次就不行了,怎么办?

    问题描述: 在 Hadoop 配置好 hive 数据仓库,在conf目录下通过hive命令进入hive数据仓库,非常顺利.  但关闭终端,第二次按这种方式却显示,无次命令. 怎么办? 解决办法: 在h ...

随机推荐

  1. js js键盘各键对应的代码 ---转

    0x1 鼠标左键\r 0x2 鼠标右键\r 0x3 CANCEL 键\r 0x4 鼠标中键\r 0x8 BACKSPACE 键\r 0x9 TAB 键\r 0xC CLEAR 键\r 0xD ENTE ...

  2. CAD教程--嵌入表格

    1.第一步,打开excel复制一下表格 2.第二步,打开CAD,选择编辑->选择性粘贴->autocad图元,左键点击一下图就行了,找找图,放大到适合的比例就行了.

  3. rabbitMQ学习笔记(二) 简单的发送与接收消息 HelloWorld

    首先要下载rabbitmq的javaClient库,然后加入到项目中,下载地址为:http://www.rabbitmq.com/releases/rabbitmq-java-client/v3.1. ...

  4. java书籍推荐:《Java SE 6 技術手册》

    Java SE 6 技術手册 或  Java SE 6 技術手册 Java SE 6 技術手册 為什麼選擇用 Markdown?仅仅是單純把文件又一次排版太無聊了,不如趁這個機會學些新東西.所以我就藉 ...

  5. 安卓系统底层C语言算法之測试參数是几个long型的算法

    #include <stdio.h> #define BITS_PER_LONG (sizeof(unsigned long) * 8) //求一个数x是几个long的长度 #define ...

  6. 【Swift】学习笔记(六)——函数

    函数  懂编程语言的来说这个是最主要的了,不论什么语言都有函数这个概念.函数就是完毕特定任务的独立代码块. 函数怎么创建: 1.创建一个无參无返回值的函数(实际上全部的函数都有返回值,这个函数返回vo ...

  7. Java-MyBatis:MyBatis 中 in 的用法

    ylbtech-Java-MyBatis-杂项:MyBatis  中  in 的用法 1.返回顶部 1. foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合.foreach元 ...

  8. 使用VMware搭建3台一模一样的Linux虚拟机

    转自:https://www.linuxidc.com/Linux/2014-08/105909.htm 简介:VMware可以在个人本地一台笔记本机器上同时运行二个或更多Windows.DOS.LI ...

  9. Caffe solver.prototxt学习

    在solver解决下面的四个问题: a.训练的记录(bookkeeping),创建用于training以及test的网络结构: b.使用前向以及反向过程对training网络参数学习的过程: c.对t ...

  10. 在ubuntu下安装zookeeper

    安装java环境,并配置好java相关的环境变量$JAVA_HOME. 1.下载并解压最新稳定的zookeeper文件 wget http://mirrors.cnnic.cn/apache/zook ...