Nutch1.2的安装与使用

1、nutch1.2下载

   下载地址

http://archive.apache.org/dist/nutch/

 

 

2、nutch1.2目录

 

bin:用于命令行运行的文件;

conf:Nutch的配置文件;

lib:一些运行所需要的jar文件;

plugins:存放相应的插件;

src:Nutch的所有源文件;

webapps:web运行相关文件;

nutch-1.2.war:war是Nutch所提供的基于Tomcat的应用程序包;

3、nutch工作流程

1、将起始URL集合注入到Nutch系统之中。

2、生成片段文件,其中包括了将要抓取的URL地址。

3、根据URL地址在互联网上抓取相应的内容。

4、解析所抓取的网页,并分析其中的文本和数据。

5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

6. 同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。

4、ubuntu搭建nutch1.2环境

 

所用软件:  jdk-6u24-linux-i586.bin

            apache-tomcat-7.0.27.tar.gz

apache-nutch-1.2-bin.tar.gz

5、ubuntu搭建nutch1.2环境

Jdk+tomcat+nutch安装可以参考下面地址,这里不在叙述。

http://blog.csdn.net/baolibin528/article/details/39207541

6、使用Nutch1.2抓取数据

1、在nutch-1.2目录下新建一个 weburls.txt 文本文件,在里面输入要抓取的网页地址

这里抓取的是淘宝的网站。

2、修改crawl-utlfilter.txt中参数

进入 nutch-1.2/conf/crawl-urlfilter.txt

MY.DOMAIN.NAME  改为  taobao.com

改为:

3、修改  nutch-1.2/conf/nutch-site.xml文件

在这里面,设置了三个参数nameversionurl

4、运行网络蜘蛛,抓取网页

进入nutch-1.2目录运行命令:

bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2

-dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch = 2    下载深度为2

-topN = 100    下载符合条件的前100个页面
    启动的线程数目
蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。

、、、、、、

5、nutch-1.2/localweb下生产的五个文件夹

爬行结果目录含有crawldb,index,indexes,linkdb,segment文件夹

Nutch的数据文件
crawldb:爬行数据库,用来存储所要爬行的网址
linkdb: 链接数据库
,用来存储每个网址的链接地址,包括源地址链接地址
segments: 抓取的网址
被作为一个单元,而一个segment就是一个单元。一个segment包括以下子目录:
          crawl_generate:   包含所抓取的网址列表
        crawl_fetch:     
包含每个抓取页面的状态
         content:        
包含每个抓取页面的内容
         parse_text:     
包含每个抓取页面的解析文本
         parse_data:    
包含每个页面的外部链接元数据
         crawl_parse:   
包含网址的外部链接地址,用于更新crawldb数据库
indexes:
采用Lucene的格式建立索引集
index:最终生成
目录

6、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压

7、修改tomcat/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml 文件

8、修改tomcat目录下的server.xml文件

9、重启tomcat,在地址栏输入: localhost:8080/nutch-1.2

10、输入 教育,显示如下

再测试一个,输入  要啥自行车,显示如下:

至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。

Nutch1.2 的安装与使用的更多相关文章

  1. (2.1)windows下Nutch1.7的安装

    酒店评论情感分析系统(二)——Nutch安装 一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/ ...

  2. 利用Lucene与Nutch构建简单的全文搜索引擎

    文章地址 1.简介 本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能.由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文 ...

  3. Ubuntu下Nutch1.2的使用

    aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAeMAAABpCAIAAACGSdxlAAAAA3NCSVQICAjb4U/gAAAgAElEQVR4Xu ...

  4. Netbeans导入Nutch1.2

    Windows 环境下,Netbeans下导入Nutch1.2. 测试环境:  Nutch 1.2  Netbean7.4  Java 1.8.0_20  cygwin 安装步骤: 1.安装: ...

  5. nutch1.4 在windows下面提示 java.io.IOException: CreateProcess error=2, ϵͳÕҲ»µ½ָ¶

    eclipse运行nutch1.4在window下面提示异常解决 需要安装cynwin,被设置环境变量 1:安装cygwin 注:在选择要安装的软件包的时候我选择了在All这一行上后面的Default ...

  6. apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

    1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-d ...

  7. Nutch之简介与安装

    初学Nutch之简介与安装 初学Nutch之简介与安装   1.Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其 ...

  8. 【Apache KafKa系列之一】KafKa安装部署

    kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的 ...

  9. 基于nutch-1.2实现本地搜索引擎

    声明:本博文参考了很多资料,主要来自http://blog.csdn.net/jiutao_tang/article/details/6461884/,http://www.cnblogs.com/x ...

随机推荐

  1. poj 2528(线段树+离散化) 市长的海报

    http://poj.org/problem?id=2528 题目大意是市长竞选要贴海报,给出墙的长度和依次张贴的海报的长度区间(参考题目给的图),问最后你能看见的海报有几张 就是有的先贴的海报可能会 ...

  2. Java中方法的重写

    ★★前提:方法的重写建立在继承关系上★★ 在Java程序中,类的继承关系可以产生一个子类,子类继承父类,它具备了父类所有的特征,继承了父类所有的方法和变量. 所谓方法的重写是指子类中的方法与父类中继承 ...

  3. Tinyos学习笔记(二)

    1.TinyOS communication tools java serialApp -comm serial@/dev/ttyUSB0:telosb java net.tinyos.tools.L ...

  4. imaplib.error: command: SEARCH => got more than 10000 bytes

    imaplib.error: command: SEARCH => got more than 10000 bytes 使用IMAPLIB进行标记邮件状态的时候,在 typ,data=M.sea ...

  5. POJ 2135.Farm Tour 消负圈法最小费用最大流

    Evacuation Plan Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 4914   Accepted: 1284   ...

  6. clion配置c/c++环境

    打开这个界面  点击添加Cygwin选择下载的Cygwin在进行下面的配置 去网站https://www.cygwin.com/选择路径即可(这里只写了配置过程中的关键步骤并且附上IDE的链接直接安装 ...

  7. AOP (切点表达式讲解)

    Spring EL表达式:: 1.execution 表达式 语法格式: execution(返回类型.包名.类名.方法名(参数表)) exection(*.com.xxx.AService.*(.. ...

  8. centos 7 搭建pip源

    一.安装pip2pi工具: pip install pip2pi 或编译: git clone https://github.com/wolever/pip2pi cd pip2pi python s ...

  9. 透过摩拜和ofo,看产品从0到1时如何取舍需求(转)

    大纲 背景介绍 从0至1,我们成功的关键是什么? 从0到1,我们为什么选择做?又为什么选择不做? 从0到1,我们面临什么选择?我们作出了什么选择? 从0到1,我们为什么作出了这种选择? 背景 在资本注 ...

  10. 牛客训练四:Applese 走方格(细节)

    题目链接:传送门 思路:主要是n=1,m=2或者n=2,m=1时,不是-1. #include<iostream> #include<cstdio> #include<c ...