Nutch1.7学习笔记:基本环境搭建及使用
Nutch1.7学习笔记:基本环境搭建及使用
作者:雨水,时间:2013-10-31博客地址:http://blog.csdn.net/gobitan
说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。
环境准备:
- 一台Ubuntu Linux服务器,可以装在VMware虚拟机中。
- 下载Nutch1.7版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.7目录下的apache-nutch-1.7-bin.zip.
- 下载Solr3.6版本的二进制包,地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/,选择一个站点进入后,下载3.6.2目录下的apache-solr-3.6.2.zip .
安装配置Nutch:
将apache-solr-3.6.2.zip解压,然后执行如下命令:
$mv apache-nutch-1.7nutch
$cd nutch
$bin/nutch
上面两行命令是进入解压后的目录,然后执行nutch命令。如果出现” Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看bin/nutch是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。
2. 配置JAVA_HOME环境变量
执行” echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:
$cd
$vi .bashrc
然后将如下文本加入到.bashrc的末尾,注意:需将JAVA_HOME的值替换为你的Javajdk的路径。如果没有安装JDK,建议安装OracleJDK.
export JAVA_HOME=/home/dennis/jdk1.6.0_37
然后执行如下命令刷新当前的环境变量:
$. .bashrc
3. 配置Nutch
(1)配置conf/nutch-default.xml
$cd nutch
$ vi conf/nutch-default.xml
将http.agent.name属性的值改为如下:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
(2) 创建urls相关配置:
$ mkdir urls
$cd urls
$ touch seed.txt
然后将你希望爬的网址放入seed.txt中,这里以” http://nutch.apache.org”为例。
(3) 编辑conf/regex-urlfilter.txt将原有的
# accept anything else
+.
替换为你以正则表达式匹配的你希望爬的地址。例如:
+^http://([a-z0-9]*\.)*nutch.apache.org/
这是用正则表达式来限制爬虫的范围仅限于nutch.apache.org这个域。
运行Nutch:
$ bin/nutch crawl urls -dir crawl -depth 3 -topN5
运行上述命令执行爬虫。
与Solr集成:
1. 安装:将apache-solr-3.6.2.zip解压,然后执行如下命令:
$mv apache-solr-3.6.2 solr
$cd solr/example
$ java -jar start.jar
2. 验证:分别访问如下两个链接,需都能正常访问才可。
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
3. 与Nutch集成:
(1) 拷贝schema.xml配置文件
将nutch/conf/schema-solr.xml拷贝至solr/example/solr/conf/下,并重命名为schema.xml(覆盖原有的)。
(2) 执行”java -jar start.jar”重启Solr,需先进入solr/example目录。
(3) 执行Solr索引命令,如下:
bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
注意:执行时需先进入nutch目录。
(4) 访问http://192.168.128.129:8983/solr/admin/测试,可以在Query String中输入” GettingStarted”进行查询,可以得到两个结果。
还可以集成中文分词,以便更好地支持中文。
集成中文分词相关配置如下:
schema.xml
<fieldType name="text"class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
solrconfig.xml
<lib dir="../../contrib/ik/lib"regex=".*\.jar" />
同时需下载对应的jar包放至相应的目录。
参考资料:
1. http://wiki.apache.org/nutch/NutchTutorial
Nutch1.7学习笔记:基本环境搭建及使用的更多相关文章
- Android Studio 学习笔记(一)环境搭建、文件目录等相关说明
Android Studio 学习笔记(一)环境搭建.文件目录等相关说明 引入 对APP开发而言,Android和iOS是两大主流开发平台,其中区别在于 Android用java语言,用Android ...
- 我的Java学习笔记 -开发环境搭建
开始学习Java~ 一.Java简介 Java编程语言是一种简单.面向对象.分布式.解释型.健壮安全.与系统无关.可移植.高性能.多线程和动态的语言. Java分为三个体系: JavaSE(J2SE) ...
- Django学习笔记 开发环境搭建
为什么使用django?1.支持快速开发:用python开发:数据库ORM系统,并不需要我们手动地构造SQL语句,而是用python的对象访问数据库,能够提升开发效率.2.大量内置应用:后台管理系统a ...
- cocos2d-x lua 学习笔记(1) -- 环境搭建
Cocos2d-x 3.0以上版本的环境搭建和之前的Cocos2d-x 2.0 版差异较大的,同时从Cocos2d-x 3.0项目打包成apk安卓应用文件,搭建安卓环境的步骤有点繁琐,但搭建一次之后, ...
- SpringData JPA的学习笔记之环境搭建
一.环境搭建 1.加入jar包 spring jar+jpa jar +springData jar >>SpringData jar包 2.配置applicationCont ...
- Mybatis学习笔记之---环境搭建与入门
Mybatis环境搭建与入门 (一)环境搭建 (1)第一步:创建maven工程并导入jar包 <dependencies> <dependency> <groupId&g ...
- 前端框架vue学习笔记:环境搭建
兼容性 不兼容IE8以下 Vue Devtools 能够更好的对界面进行审查和调试 环境搭建 1.nodejs(新版本的集成了npm)[npm是node包管理 node package manager ...
- Web安全测试学习笔记 - vulhub环境搭建
Vulhub和DVWA一样,也是开源漏洞靶场,地址:https://github.com/vulhub/vulhub 环境搭建过程如下: 1. 下载和安装Ubuntu 16.04镜像,镜像地址:htt ...
- 【Django学习笔记】-环境搭建
对于初学django新手,根据以下步骤可以快速进行Django环境搭建 虚拟环境创建 使用virtualenv创建并启用虚拟机环境 ,关于virtualenv可参考https://www.yuque. ...
- go 学习笔记之环境搭建
千里之行始于足下,开始 Go 语言学习之旅前,首先要搭建好本地开发环境,然后就可以放心大胆瞎折腾了. Go 的环境安装和其他语言安装没什么特别注意之处,下载安装包下一步下一步直到完成,可能唯一需要注意 ...
随机推荐
- JSP中的Java代码和内置对象
一.JSP中的Java代码 (一)JSP页面中有三种方式嵌入java代码: 1.java的表达式 格式:<%= java表达式 %> 2.java的语句 格式:<% java语句&g ...
- oi初级数学知识
一.先是一些整除的性质: •整除:若a=bk,其中a,b,k都是整数,则b整除a,记做b|a. •也称b是a的约数(因数),a是b的倍数 •显而易见的性质: •1整除任何数,任何数都整除0 •若a|b ...
- 初识thinkphp(4)
这次内容是数据库的使用方法 因为在第一章讲过就是拿index这个文件写的数据库的访问,这次实验我使用文件是系统默认的首页 配置的内容也在那里有提过就不重发戳图了. 数据库按照手册上的建议建了3行的内容 ...
- SpringMVC(八) RequestMapping HiddenHttpMethodFilter
SpringMVC隐藏方法: 使用PUT和DELETE方法.默认HTML支持GET和POST方法.通过HiddenHttpMethodFilter将POST转成PUT和DELETE方法. 1.将Hid ...
- 【翻译】What is State Machine Diagram(什么是状态机图)?
[翻译]What is State Machine Diagram(什么是状态机图)? 写在前面 在上一篇学习类图的时候将这个网站上的类图的一篇文章翻译了出来,感觉受益良多,今天来学习UML状态机图, ...
- 用C语言的rand()和srand()产生伪随机数的方法总结
标准库<cstdlib>(被包含于<iostream>中)提供两个帮助生成伪随机数的函数: 函数一:int rand(void):从srand (seed)中指定的seed开始 ...
- HTML5开启浏览器桌面通知 Web Notification
说明: 1.Chrome要求必须https才可以开启浏览器通知 2.显示图片在本服务器,不支持跨越 3.自定义声音Chrome不播放,Firefox正常播放 代码如下: <!-- /** * @ ...
- BZOJ4541 [Hnoi2016]矿区
本文版权归ljh2000和博客园共有,欢迎转载,但须保留此声明,并给出原文链接,谢谢合作. 本文作者:ljh2000 作者博客:http://www.cnblogs.com/ljh2000-jump/ ...
- 关于输出螺旋矩阵的demo
输出类似 1 2 3 8 9 4 7 6 5 主要难点是如何找到表示的算法 我的理解是,先生成一个n*n的矩阵,然后再往里面塞数字,而塞的方法分别有四种:由左往右,由上往下,由右往左,由下往上,没塞完 ...
- OpenJ_POJ C16G Challenge Your Template 迪杰斯特拉
Challenge Your Template 题目连接: http://acm.hust.edu.cn/vjudge/contest/122701#problem/G Description ACM ...