nutch 1.7 导入 eclipse

开发环境建议：ubuntu+eclipse （windows + cygwin + eclipse不推荐）

第一步：下载
http://archive.apache.org/dist/nutch/
从上述站点下载src和bin两个压缩文件
wget 'http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-bin.tar.gz'
wget 'http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-src.tar.gz'

第二步：解压
tar zxvf apache-nutch-1.7-bin.tar.gz 
解压出一个 apache-nutch-1.7 文件夹
重命名： mv apache-nutch-1.7 apache-nutch-1.7-bin

tar zxvf apache-nutch-1.7-src.tar.gz 
解压出一个 apache-nutch-1.7 文件夹
重命名： mv apache-nutch-1.7 apache-nutch-1.7-src

第三步：组合
将apache-nutch-1.7-bin/lib中的所有jar包拷贝到apache-nutch-1.7-src/lib中
cp apache-nutch-1.7-bin/lib/* apache-nutch-1.7-src/lib/
将apache-nutch-1.7-bin/conf中的配置文件覆盖apache-nutch-1.7-src/conf中

第四步：导入eclipse
eclipse : File -- New -- Java Project

这一步完成了将源码（而非工程）导入eclipse 
注解：笔者以前用的eclipse版本有import project from source ，但这个版本没有，只有import project from existing project.而我们只有src文件

点击NEXT
找到 conf 文件夹 ，然后点击 Add Folder 'conf' to build path
defautl output 设置为 apache-nutch-1.7/bin

点击Finish

第四步：一些小BUG
此时会发现工程有错误（红色的小叉叉），这是因为缺少引用导致的。
以parse-html为例：
import org.cyberneko.html.parsers.*;
这里报错是因为缺少 nekohtml-0.9.5.jar

如何获取nekohtml-0.9.5.jar：
到apache-nutch-1.7-bin/plugin 下搜索 nekohtml 就能找到这个jar包
然后复制到项目的lib文件夹里并add to build path

其他bug以此类推（所有的jar都可以在apache-nutch-1.7-bin/plugin 下找到

feed
cp apache-nutch-1.7-bin/plugins/feed/rome-0.9.jar apache-nutch-1.7-src/lib/

parse-html
cp apache-nutch-1.7-bin/plugins/parse-html/tagsoup-1.2.1.jar apache-nutch-1.7-src/lib/
cp apache-nutch-1.7-bin/plugins/lib-nekohtml/nekohtml-0.9.5.jar apache-nutch-1.7-src/lib/


至此整个工程将不会有任何错误了。

第五步：测试采集
1.vim conf/nutch-defalut.xml   -----vim
  /plugin.forlder  ---vim查找命令
  修该为：

<property>

  <name>plugin.folders</name>

  <value>./src/plugin</value>

  <description>Directories where nutch plugins are located.  Each

  element may be a relative or absolute path.  If absolute, it is used

  as is.  If relative, it is searched for on the classpath.</description>

</property>

原因：源代码文件中 plugin在src文件夹里，但在bin文件中plugin 在根目录下。

2 vim conf/nutch-site.xml 加入：
<property>
　　　　<name>http.agent.name</name>
　　　　<value>your sipder name</value>
　　</property>

3 在apache-nutch-1.7-src下建立一个urls文件夹，在urls下面建一个文本文档
mkdir urls
cd urls
vim seed.txt
写入：http://www.163.com/

4 vim conf/regex-urlfilter.txt

5 运行配置：

运行结果：

至此运行成功。
检测采集结果：

统计结果：（unfetched比较多是因为nutch给url打分，过滤掉了分数小于0的，这个可以在nutch-default.xml中修改）

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - Statistics for CrawlDb: crawl/crawldb

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - TOTAL urls:

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - retry :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - min score:    0.0

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - avg score:    0.003186398

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - max score:    1.007

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - status  (db_unfetched):

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    3g..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    auto..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    baby..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    baoxian..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    bbs..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    bbs.culture..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    bbs.ent..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    bbs.lady..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    biz..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    blog..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    book..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    cbachina..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    club.auto..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    corp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    data.ent..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    digi..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    discovery..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    dl..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    ecard..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    edu..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    email..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    emarketing.biz..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    ent..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    expo..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    fashion..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    focus.news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    fushi..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    game..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    gb.corp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    hea..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    help..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    history.news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    home..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    house..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    hr..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    jiu..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    kf.yxp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    lady..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    live.caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    love..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    lovegongyi..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    m..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    media..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    mibao.gm..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    mobile..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    money..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    news.tag..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    newsapp.blog..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    pay..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    pic.auto..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    post.news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    product.auto..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    qiye..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    quotes.money..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    reg..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    sports..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    survey2..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    t..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    tech..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    travel..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    tveasy.blog..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    v..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    v.money..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    v.news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    v.sports..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    vipmail..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    vs.caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    wangyiyuedu.blog..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    war.news..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    www..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    yuedu..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    zx.caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    zz.yc..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - status  (db_fetched):

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    corp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    digi..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    emarketing.biz..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    gb.corp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    help..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    love..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    m..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    music..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    newsapp.blog..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    open..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    open.yuedu..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    sitemap..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    t..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    tech..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    www..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    yuedu..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    zz.yc..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - status  (db_redir_temp):

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    3g..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    m..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - status  (db_redir_perm):

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    caipiao..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) -    corp..com :

-- ::, INFO  crawl.CrawlDbReader (CrawlDbReader.java:processStatJob()) - CrawlDb statistics: done

nutch 1.7 导入 eclipse的更多相关文章

nutch 1.7导入Eclipse
1.下载Nutch1.7的包 apache-nutch-1.7-src.zip,解压之后应该包括 bin,conf,src等目录 2.将解压之后的 apache-nutch-1.7 文件夹放到ecli ...
spring源码解析——spring源码导入eclipse
一.前言众所周知,spring的强大之处.几乎所有的企业级开发中,都使用了spring了.在日常的开发中,我们是否只知道spring的配置,以及简单的使用场景.对其实现的代码没有进行深入的了 ...
如何将MyEclipse项目导入eclipse
我们经常会在网上下载一些开源项目,或者从别的地方迁移一些项目进来,但经常会发现导入后各种报错.这是初学java肯定会遇到的问题,本文对一些常见的处理方案做一个总结.(本文将MyEclipse项目导入e ...
Android Studio 2.2.2导入Eclipse中创建的项目
最近随视频教程学习Android,原本都是用Adt写Android程序,中途教程换成了Android Studio,于是我自己下了android studio 2.2.2安装好,并下载好sdk,也跟着 ...
开源项目导入eclipse的一般步骤
开源项目导入eclipse的一般步骤周银辉下载到开源项目后,我们还是希望导入到eclipse中还看,这样要方便点,一般的步骤是这样的打开源代码目录, 如果看到里面有.calsspath .pro ...
svn工具安装下载Tomcat源码以及导入eclipse
安装 1.svn下载地址 https://tortoisesvn.net/downloads.html 2.语言包下载 3.先安装svn,在直接安装语言包 4.桌面右键可以看到相关svn信息下载To ...
Openfire3.9.3源代码导入eclipse中开发配置指南
这篇文章向大家介绍一下,如何把openfire3.9.3源码导入eclipse中,编译并启动的详细过程. 首先得感谢这篇文章的作者,http://www.micmiu.com/opensource/o ...
Tomcat源码导入eclipse的步骤
Tomcat源码导入eclipse 一.下载源码 1. 进入Apache 官网:http://tomcat.apache.org/ 2. 在左边侧选择要下载的源码的版本. 3. 或者直接通过Ar ...
Git项目存放位置在导入Eclipse前不能存放在Eclipse Workspace
这篇帖子的背景: 本人想将一个git项目导入至Eclipse的Workspace中,并且该项目的所有git信息.但是,该git项目在导入之前,就已经存放在Eclipse的Workspace中.在将该g ...

随机推荐

iOS判断iPhone型号
链接: http://stackoverflow.com/questions/11197509/ios-how-to-get-device-make-and-modelhttp://stackover ...
thinkphp连接oracle
配置文件中: //Oracle 测试环境 'DB_TYPE' => 'Oracle', // 数据库类型 'DB_HOST' => '1 ...
oracle5
oracle中事务处理什么是事务事务用于保证数据的一致性,它由一组相关的dml语句组成,该组的dml(数据操作语言:增删改,没有查询)语句要么全部成功,要么全部失败. 如:网上转账就是典型的要用事 ...
（亲测）设置myeclipse打开默认工作空间
亲测一: 1.找到D:\MyEclipse 8.5\configuration\ config.ini 这个文件 2.找到这一行instance.area.default 3.将后面的地址替换为你想要 ...
PropertyGrid仿VS的属性事件窗口
效果图:. 首先我们去重写一下PropertyGrid: internal class MyPropertyGrid : System.Windows.Forms.PropertyGrid { pri ...
h5宣传页制作过程中遇到的问题
音乐播放 ios下关闭不流畅; (ios下需重新image 模拟) 音乐设置自动播放属性后部分机型下不能自动播放.目前解决方案: touchstart时触发播放微信“分享给朋友”点击发送后,页面卡 ...
【Android】随时随地退出程序
新建一个 ActivityCollector 类作为活动管理器,代码如下所示:public class ActivityCollector {public static List<Activit ...
datebox清除按钮，datebox加上清除按钮，easyui datebox加上清除按钮
datebox加上清除按钮,easyui datebox加上清除按钮 >>>>>>>>>>>>>>>>& ...
angularJs ionic phoneGap 分享
由于坑较多就如“天下难事,必作于易吧” 最近有机会接触到了git node angularJs ionic phoneGap 很开森也很痛苦分享如下推荐的几个博客地址: ionic开发插件之n ...
Lucida Grande字体无法正常显示冒号的解决方案
曾经贪图Mac OSX的UI漂亮,后来查到它用的是Lucida Grande字体,所以索性将win7也改成了那种字体,结果浏览器中的中文冒号全都显示为一个奇怪的符号.后来即使将字体设置回去也无法还原. ...

nutch 1.7 导入 eclipse

nutch 1.7 导入 eclipse的更多相关文章

随机推荐

热门专题