Windows下Nutch的配置
Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Nutch可以分为2个部分:
- 抓取部分crawler
 
抓取程序抓取页面并把抓取回来的数据做成反向索引
- 搜索部分searcher。
 
搜索程序则对反向索引搜索回答用户的请求。
Nutch的爬虫有两种方式
- 爬行企业内部网(Intranet crawling)。针对少数网站进行,用crawl命令。
 - 爬行整个互联网。使用低层的inject,generate,fetch和updatedb命令,具有更强的可控制性。
 
昨晚折腾了一晚上终于是大功告成了!
这里要说的是基于Intranet(企业内部网)的环境配置
软件:
JDK
Cygwin
Tomcat
apache-nutch-1.2-bin.zip(http://apache.etoak.com//nutch/apache-nutch-1.2-bin.zip)
因为nutch脚本是基于Linux内核的所以在Windows下运行,就需要Cygwin这样一个内核模拟器
1。安装Cygwin(网上资料很多了,建议下载完全的安装版,然后选择从本地安装)
我们的Cygwin安装在C:/cygwin中
2。我们把nutch包解压把文件复制到C:/cygwin下,解压后的文件为nutch-1.2
3。打开安装cygwin安装时生成的快捷方式,这样就能打开cygwin的命令行,里面能执行的当然都是Linux的命令
cd进入nutch-1.2/bin下面
输入./nutch 出来nutch命令的一些选项提示 说明已成功一半
4。接下来是修改nutch-1.2/conf/nutch-site.xml
修改后如下:
<configuration>
<property>
<name>http.agent.name</name>
<value>foxman</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value></value>
<description></description>
</property>
</configuration>
6。在nutch-1.2/bin/下建立文件夹urls,然后在urls下面建立文件url.txt
里面内容是
http://www.163.com/
注:你要抓取的网站。
7。在cygwin中进入nutch-1.2/bin目录
执行
export JAVA_HOME=你JDK的安装路径,不用到JDK的bin文件那一层
配置好JAVA_HOME
接着执行
./nutch crawl urls -dir crawl -depth 5 -threads 4 -topN 50
注:urls就是你之前建立的文件夹
-dir crawl就是创建crawl文件夹来存储抓取的数据
-depth 5 就是抓取的深度
-threads 4 就是执行的线程数
-topN 50 就是每层抓取数目
这样你的抓取数据都在crawl中了
可以执行
./nutch readdb sina/crawldb/ -stats
注:查看抓取信息。
8。把nutch-1.2文件夹下的nutch-1.2.war拷到tomcat的webapps文件下
打开tomcat,nutch-1.2.war会自动被解压成同名的nutch-1.2文件夹。
9。配置nutch-1.2/WEB-INF/classes/nutch-site.xml
修改后如下
<configuration>
<property>
<name>searcher.dir</name>
<value>C:/cygwin/nutch-1.2/bin/crawl</value>
</property>
</configuration>
注:C:/cygwin/nutch-1.2/bin/crawl这个路径就是你之前抓取数据的存放路径。
10。中文乱码问题
配置tomcat的conf文件夹下的server.xml
修改如下
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
注:找到这一段,关键是添加URIEncoding="UTF-8" useBodyEncodingForURI="true"。
最好重启一下Tomcat
浏览器中输入http://localhost:8080/nutch-1.2/就可以大功告成了
常见问题:
如何解决Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
一般都会是nutch/conf/crawl-urlfilter.txt中的配置出现的不可预见的错误
好好在配一下,参照步骤5。
注意+^http://([a-z0-9]*/.)*163.com/前不要加#那就代表注释了。
我配了好久一路下来都很顺,也是卡在这个问题上半天
我当时就是这个配置错了,最好配的跟我一样斜杆什么的也不要落下了!
OK,祝好远……
原文地址:http://blog.csdn.net/foxman209/article/details/6066846
Windows下Nutch的配置的更多相关文章
- Windows下python的配置
		
Windows下python的配置 希望这是最后一次写关于python的配置博客了,已经被python的安装烦的不行了.一开始我希望安装python.手动配置pip并使用pip安装numpy,然而发现 ...
 - Windows 下用 gogs 配置局域网 git server
		
大道曙光 Windows 下用 gogs 配置局域网 git server 最近要用 C# 开发一个新的项目,所以需要在 Windows 局域网环境下构建一个 git server. 在 Window ...
 - Windows 下如何安装配置Snort视频教程
		
Windows 下如何安装配置Snort视频教程: 第一步: http://www.tudou.com/programs/view/UUbIQCng360/ 第二部: http://www.tudou ...
 - PHP学习之-Mongodb在Windows下安装及配置
		
Mongodb在Windows下安装及配置 1.下载 下载地址:http://www.mongodb.org/ 建议下载zip版本. 2.安装 下载windows版本安装就和普通的软件一样,直接下一步 ...
 - Windows下caffe的配置和调用caffe库(一)
		
一.Windows下caffe的配置: 1. 下载caffe官网提供的开发包,https://github.com/microsoft/caffe 2. 将caffe-master目录下的Window ...
 - windows下安装和配置redis
		
1.windows下安装和配置redis 1.1 下载: 官网(linux下载地址):https://redis.io/ Windows系统下载地址:https://github.com/MSOpen ...
 - Windows下为 Eclipse 配置 C/C++ 编译环境(转)
		
1.Eclipse及CDT的安装 CDT的全称是C/C++ DevelopmentTools,CDT使得Eclipse能够支持C/C++的开发.直接下载 eclipse CDT 集成版 下载地址:ht ...
 - windows下安装和配置多个版本的JDK
		
https://jingyan.baidu.com/article/47a29f2474ba55c015239957.html 如何在windows下安装和配置多个版本的jdk,本文将带你在windo ...
 - 网络基础 Windows下安装和配置net-snmp 代理
		
Windows 下安装和配置net-snmp 代理[摘录] by:授客 QQ:1033553122 A. 安装 1. 安装前准备 ActivePerl-5.10.0.1004-MSWin ...
 
随机推荐
- cmder小技巧
			
1.修改config下的aliases文件,可以添加别名 $* 表示所有参数,$i 表示第几个参数 比如cd cd=cd /d $* 这样window下的cd就可以直接切换盘符+路径了. 有用的别名 ...
 - C#创建资源文件
			
资源文件顾名思义就是存放资源的文件.资源文件在程序设计中有着自身独特的优势,他独立于源程序,这样资源文件就可以被多个程序使用.同时在程序设计的时候,有时出于安全或者其他方面因素的考虑,把重要东西存放在 ...
 - C语言  ·  递归求二进制表示位数
			
算法训练 6-2递归求二进制表示位数 时间限制:10.0s 内存限制:256.0MB 问题描述 给定一个十进制整数,返回其对应的二进制数的位数.例如,输入十进制数9,其对应的二进制数 ...
 - CSS样式表——布局练习(制作360网页)
			
以制作360网页为例(只做到了静态网页) 提纲:1.总共分为7部分 悬浮窗: 源代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Tra ...
 - Thinkphp3.2版本Controller和Action的访问方法
			
一.3.2版本以前controller和action的访问方式在3.2版本以前如果Controller=c.Action=a的话,访问规则如下:http://localhost:81/demo1/in ...
 - 上手并过渡到PHP7(3)——Uniform Variable Syntax到底统一了什么
			
PHP7 up and running 泊学原文链接泊学实操视频 Uniform Variable Syntax 在PHP 7提出Uniform Variable Syntax之前,我们大多数人可能都 ...
 - .net提供的5种request-response方法一
			
.net提供了三种基本方法和两种底层方法来发送http请求和接收http响应,通过这些方法,我们可以模仿在浏览器地址栏输入URL地址访问网页的方法.我们发送http请求,接收服务器返回的响应(通常就是 ...
 - 关于Cocos2d-x中自己定义的类的名字和Cocos2d-x引擎库中的类的名字重复的解决方法
			
方法一: 修改自己定义的类的名字,VS2013中可以用Ctrl+H来替换某个特定的单词,Ctrl+F是用来查询某个单词所在的位置或者有没有存在. 方法二: 1.给自己定义的类的.h和.cpp文件的整体 ...
 - ROS :为IDE配置环境变量
			
ROS hydro 自带安装好了opencv 2.4 为了在自己经常使用的开发环境Eric下调用,需要配置Eric的环境变量,好让它可以调用ROS的资源,当然你用其他IDE也要这样配置,配置好了环境变 ...
 - 【转】C# URL短地址压缩算法及短网址原理解析
			
这篇文章主要介绍了C# URL短地址压缩算法及短网址原理解析,本文重点给出了算法代码,需要的朋友可以参考下 短网址应用已经在全国各大微博上开始流行了起来.例如QQ微博的url.cn,新郎的sinaur ...