Nutch1.2 的安装与使用

Nutch1.2的安装与使用

1、nutch1.2下载

下载地址

http://archive.apache.org/dist/nutch/

2、nutch1.2目录

bin:用于命令行运行的文件;

conf：Nutch的配置文件;

lib：一些运行所需要的jar文件;

plugins：存放相应的插件;

src：Nutch的所有源文件;

webapps：web运行相关文件;

nutch-1.2.war：war是Nutch所提供的基于Tomcat的应用程序包;

3、nutch工作流程

1、将起始URL集合注入到Nutch系统之中。

2、生成片段文件，其中包括了将要抓取的URL地址。

3、根据URL地址在互联网上抓取相应的内容。

4、解析所抓取的网页，并分析其中的文本和数据。

5、根据新抓取的网页中的URL集合来更新起始URL集合，并再次进行抓取。

6. 同时，对抓取到的网页内容建立索引，生成索引文件存放在系统之中。

4、ubuntu搭建nutch1.2环境

所用软件： jdk-6u24-linux-i586.bin

apache-tomcat-7.0.27.tar.gz

apache-nutch-1.2-bin.tar.gz

5、ubuntu搭建nutch1.2环境

Jdk+tomcat+nutch安装可以参考下面地址，这里不在叙述。

http://blog.csdn.net/baolibin528/article/details/39207541

6、使用Nutch1.2抓取数据

1、在nutch-1.2目录下新建一个 weburls.txt 文本文件，在里面输入要抓取的网页地址

这里抓取的是淘宝的网站。

2、修改crawl-utlfilter.txt中参数

进入 nutch-1.2/conf/crawl-urlfilter.txt

MY.DOMAIN.NAME 改为 taobao.com

改为：

3、修改 nutch-1.2/conf/nutch-site.xml文件

在这里面，设置了三个参数name、version、url。

4、运行网络蜘蛛，抓取网页

进入nutch-1.2目录运行命令：

bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2

-dir = localweb 指明下载数据存放路径，该目录不存在时，会被自动创建
-deptch = 2 下载深度为2

-topN = 100 下载符合条件的前100个页面
启动的线程数目
蜘蛛运行时会输出大量数据，抓取结束之后，可以发现localweb目录被生成，里面有几个目录。

、、、、、、

5、nutch-1.2/localweb下生产的五个文件夹

爬行结果目录含有crawldb,index,indexes,linkdb,segment文件夹

Nutch的数据文件
crawldb:爬行数据库，用来存储所要爬行的网址
linkdb: 链接数据库，用来存储每个网址的链接地址，包括源地址和链接地址
segments: 抓取的网址被作为一个单元，而一个segment就是一个单元。一个segment包括以下子目录:
        crawl_generate:   包含所抓取的网址列表
        crawl_fetch:      包含每个抓取页面的状态
        content:         包含每个抓取页面的内容
        parse_text:      包含每个抓取页面的解析文本
        parse_data:     包含每个页面的外部链接和元数据
        crawl_parse:    包含网址的外部链接地址，用于更新crawldb数据库
indexes: 采用Lucene的格式建立索引集
index：最终生成的目录

6、在tomcat中部署nutch 项目，把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中，稍会tomcat会对其自动解压

7、修改tomcat/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml 文件

8、修改tomcat目录下的server.xml文件

9、重启tomcat，在地址栏输入: localhost:8080/nutch-1.2

10、输入教育,显示如下

再测试一个，输入 要啥自行车，显示如下：

至此，jdk1.6+tomcat7+nutch1.2安装配置完毕。

Nutch1.2 的安装与使用的更多相关文章

（2.1）windows下Nutch1.7的安装
酒店评论情感分析系统(二)——Nutch安装一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/ ...
利用Lucene与Nutch构建简单的全文搜索引擎
文章地址 1.简介本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能.由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文 ...
Ubuntu下Nutch1.2的使用
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAeMAAABpCAIAAACGSdxlAAAAA3NCSVQICAjb4U/gAAAgAElEQVR4Xu ...
Netbeans导入Nutch1.2
Windows 环境下,Netbeans下导入Nutch1.2. 测试环境:  Nutch 1.2  Netbean7.4  Java 1.8.0_20  cygwin 安装步骤: 1.安装: ...
nutch1.4 在windows下面提示 java.io.IOException: CreateProcess error=2, ϵͳÕҲ»µ½ָ¶
eclipse运行nutch1.4在window下面提示异常解决需要安装cynwin,被设置环境变量 1:安装cygwin 注:在选择要安装的软件包的时候我选择了在All这一行上后面的Default ...
apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程
1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-d ...
Nutch之简介与安装
初学Nutch之简介与安装初学Nutch之简介与安装 1.Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其 ...
【Apache KafKa系列之一】KafKa安装部署
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的 ...
基于nutch-1.2实现本地搜索引擎
声明:本博文参考了很多资料,主要来自http://blog.csdn.net/jiutao_tang/article/details/6461884/,http://www.cnblogs.com/x ...

随机推荐

Spring Boot 2.0(一）：Spring Boot 2.0尝鲜-动态 Banner
Spring Boot 2.0 提供了很多新特性,其中就有一个小彩蛋:动态 Banner,今天我们就先拿这个来尝尝鲜 Spring Boot 更换 Banner 我们先来回顾一下在 Spring Bo ...
MySQL优化（一）优化关键技术
MySql的优化是一个综合性的技术,主要包括有: (1)表的设计合理化(符合 3NF 三范式) (2)添加适当的索引(Index):索引分类:普通索引.主键索引.唯一索引.全文索引(文本).空间索引. ...
JVM 运行时数据区（三）
JVM运行时数据区运行时数据区由程序计数器.java虚拟机栈.本地方法栈.堆.方法区组成: 1.程序计数器每一个Java线程都有一个程序计数器,用于保存程序执行到当前方法的哪一个指令,它是线程 ...
HDU_1142(最短路 + dfs)
Jimmy experiences a lot of stress at work these days, especially since his accident made working dif ...
uuid唯一吗
是唯一的.我在几台硬件完全相同(同一批购买的).软件也完全相同(用同一个GHOST系统安装)的电脑上试过: 不同的电脑上,wmic csproduct get uuid 获取的UUID码是不同的.另 ...
JSP指令（page include taglib）
JSP指令指示JSP转换器如何翻译JSP页面到Servlet:JSP指令用来设置整个JSP页面相关的属性,如网页编码方式.脚本语言等 JSP指令的格式: <%@ directive attrib ...
Java JMX 监管
Java JMX 监管 JSR 规范系列目录(https://www.cnblogs.com/binarylei/p/10348178.html) JMX(Java Management Extens ...
idea窗口下方滚动条不明显设置
在使用idea时,下方的滚动条老是显示不明显,每次点击拖拽都很费劲,在网上找了很多相关设置,最后确定了一个最好的办法解决问题: Shift (上档) + 鼠标滚动,这样就可以横向翻滚了,很方便此方 ...
[ ZooKeeper]ZooKeeper 的功能和原理
Zookeeper功能简介: ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现.分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅 ...
Windows 平台 (UWP)应用设计
Make Your Apps Cooperate with Cross-App Communication : https://rewards.msdn.microsoft.com/Challeng ...

Nutch1.2 的安装与使用

Nutch1.2 的安装与使用的更多相关文章

随机推荐

热门专题