https://svn.apache.org/repos/asf/nutch/branches/branch-2.2.1/网址里面可以找到Nutch2.2.1版本的资源文件。

1. 在MyEclipse中安装nutch2.2.1的前提
     (1)系统中已经安装并且配置好java环境(jdk最好是1.7.0.51版本的)
     (2)MyEclipse中已安装插件:Svneclipse、ivyDE
 
2. 本机环境
     (1)win7-32系统
     (2)jdk1.7.0.51
 
3. 将nutch2.2.1通过MyEclipse检出到本地
     (1)通过MyEclipse的svn插件将nutch关联到本地
    
 
   (2)点击资源库,检出项目
   
  (3)选择作为新项目检出
   
    (4)选择以java Project项目方式检出
    
    (5)选择新版的JDK,并命名工程为nutch2.2.1
     
    (6)检出项目
    
    (7)至此项目就同步到本地了(但是会报错,没有关系,下面就进行项目的配置)
    
 
  4. 配置项目
  (1)右键项目——》Build Path——》Configure Build Path... ——》Source :
     1. 删除nutch-2.2.1/src文件
     
    2.Add Folder,添加项目中的src/bin,src/java,src/test,src/testresources以及src/plugin文件下面除了1. feed 2. parse-swf 3. parse-zip 4.parse-ext
       文件下的所有的java和test文件夹(因 为:http://wiki.apache.org/nutch/Nutch2Plugins
     
    3.Build Path——》Configure Build Path...——》Libraries  Add Class Folder(添加项目中的conf文件夹 并置顶)
     
   4. 项目中,找到build.xml,右键——》Run As——》Ant Build , 等待完成
  
  5.引入build文件夹下所有的jar包,导入之后还缺少4个jar包,自行下载jar包,若下载不了,请联系我。
  
  6.引入这四个jar包以后项目将没有错误了,若还有错误,尝试请查看你的环境是否正确,比如JDK的版本。
  
  7.刷新项目,修改conf/nutch-default.xml文件 找到plugin.folders项修改其值
  
  8.设置存储方式,找到conf/gora.properties文件,注视里面的全部选项(里面的配置很多,而且可以连接数据库),现在以AvroStore为例

  gora.avrostore.codec.type=BINARY||JSON
  gora.avrostore.output.path=file:///tmp/gora.avrostore.test.output

  图如下

  
  9.找到conf/nutch-site.xml文件,添加如下内容

    <configuration>
      <property>
        <name>http.agent.name</name>
        <value>My Nutch Spider</value>
      </property>

      <property>
        <name>storage.data.store.class</name>
        <value>org.apache.gora.avro.store.DataFileAvroStore</value>
      </property>
    </configuration>

  10.在项目中添加urls文件夹,在文件夹中添加seed.txt文件,在文件中输入想要抓取的链接即可,然后配置参数(主类:org.apache.nutch.crawl.InjectorJob)
  E:/apache-nutch-1.8/urls/url.txt
  -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
  图如下
  

 11.点击run,运行后,hadoop会产生解文件夹权限访问问题

    决方法是,修改/hadoop-1.0.2/src/core/org/apache/hadoop/fs/FileUtil.java里面的checkReturnValue,注释掉即可。
   当然最简单的办法是在网上找一个修改过的包,替换一下FileUtil.class。(不能解决请联系我吧)
 
 12.替换以后,再点击run,则成功了
  
5 总结
  祝你好运。如若不清楚,可邮件联系我。
   

Nutch2.2.1在MyEclipse中的安装(window7环境)的更多相关文章

  1. Java中jdk安装与环境变量配置

    Java中jdk安装与环境变量配置 提示:下面是jdk1.7和jdk1.8的百度网盘链接 链接:https://pan.baidu.com/s/1SuHf4KlwpiG1zrf1LLAERQ 提取码: ...

  2. 手把手在MyEclipse中搭建Hibernate开发环境

    (尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53414303冷血之心的博客) 在MyEclipse中如何搭建Hib ...

  3. MyEclipse中搭建Struts2开发环境

    (尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53205941 冷血之心的博客) 在MyEclipse中如何搭建St ...

  4. CentOS 中 YUM 安装桌面环境

    CentOS 作为服务器的操作系统是很常见的,但是因为需要稳定而没有很时髦的更新,所以很少做为桌面环境.在服务器上通常不需要安装桌面环境,最小化地安装 CentOS(也就是 minimal CentO ...

  5. MyEclipse中如何安装插件(以Subclipse为例)[转]

    一.到官方上下载svn1.8.3,下载后的文件名叫site-1.8.3.zip 地址:http://subclipse.tigris.org/servlets/ProjectDocumentList? ...

  6. Windows中 RabbitMQ安装与环境变量配置

    RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议.1:安装RabbitMQ需要先安装Erlang语言开发包.下载地址 ht ...

  7. CentOS 中 YUM 安装桌面环境(转)

    使用 yum groupinstall 指令很容易就能安装上图形界面的桌面系统. 1. yum 的 group 指令 yum 可以以程序组的模式来安装成套的软件包.支持的软件包可以通过, # yum ...

  8. maven3.5.0在win10中的安装及环境变量配置

    1.maven的下载地址http://maven.apache.org/download.cgi.如下图,下载apache-maven-3.5.0-bin.zip 2.解压缩到自己指定的文件下,mav ...

  9. Windows系统中 JDK安装及环境配置

    需要安装jdk的第一步就是先去官网下载好JDK,选择需要的版本. Windows系统 1.将下载好的压缩包解压,点击解压得到的jdk执行文件开始安装.在安装过程中会弹出两个安装,一个是jdk,一个是j ...

随机推荐

  1. 【Java学习笔记之十二】Java8增强的工具类:Arrays的用法整理总结

    本文将整理 java.util.Arrays 工具类比较常用的方法:  本文介绍的方法基于JDK 1.7 之上.  1.  asList方法 @SafeVarargs public static &l ...

  2. 类A是公共的,应在名为A.java的文件中声明错误

    第一种!!! “类A是公共的,应在名为A.java的文件中声明”这句话需要分两步来理解: 1.如果类A被声明为公共的(public),那么必须将类A保存在名为A.java的文件中: 2.反之,在一个文 ...

  3. Convex(扫描线降维)

    Convex Time Limit: 10000/4000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Sub ...

  4. ES5.0集群搭建

    最近在网上看到很多ES集群的搭建方法,本人在这人使用Elasticsearch5.0.1版本,介绍如何搭建es集群并安装head插件和其他插件安装方法. 一.搭建环境(2台Centos7系统服务器) ...

  5. TypeScript笔记 4--变量声明

    在上一篇:基础变量中我们在声明变量时使用了关键字let,这和JS中的var有点类似. 语法 基本语法:let 变量名:类型.当然类型不是必须的. let x:number; let y:string ...

  6. git gui提交无法获知你的身份 20

    刚刚学习,请说的详细一些,谢谢 callct | 浏览 3382 次 我有更好的答案 1条回答 你没有定义你的名字和邮箱.你打开git console/shell, #输入下面两句,并且替换成你的名字 ...

  7. Asp.net mvc 中Action 方法的执行(一)

    [toc] 在 Aps.net mvc 应用中对请求的处理最终都是转换为对某个 Controller 中的某个 Action 方法的调用,因此,要对一个请求进行处理,第一步,需要根据请求解析出对应的 ...

  8. asp.net -mvc框架复习(10)-基于三层架构与MVC搭建项目框架

    一.三种模式比较 1.MVC框架(适合大型项目) (1).V视图 (网页部分) (2).M模型 (业务逻辑+数据访问+实体类) (3).C控制器 (介于M和V之间,起到引导作用) 2.三层架构 (1) ...

  9. IT术语的正确读法

    Linux /ˈlɪnəks/ /ˈlɪnʊks/(EU) Linux 是一类 Unix 计算机操作系统的统称.该操作系统的核心的名字也是“ Linux” .参考: < !-- m --> ...

  10. jQuery.fn的作用是什么

    jQuery.fn的作用是什么:在自定义jQuery插件中,会经常见到jQuery.fn的身影,下面就简单介绍一下它的作用到底是什么.想要认识它的本质,最好的办法直接看jQuery的源码,否则一切都是 ...