Netbeans导入Nutch1.2
Windows 环境下,Netbeans下导入Nutch1.2。
测试环境:
Nutch 1.2
Netbean7.4
Java 1.8.0_20
cygwin
安装步骤:
1.安装:Cygwin
•下载 Nutch1.2 (下载地址:http://archive.apache.org/dist/nutch/)
•按照教程进行安装 (教程地址: http://wiki.apache.org/nutch/NutchTutorial)
环境变量配置如下:
classpath: .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
JAVA_HOME: D:\Program Files\Java\jdk1.8.0_20
CATALINA_HOME: D:\terry\Software\Java\apache-tomcat-7.0.55
ANT_HOME:D:\terry\Work\Java\apache-ant-1.9.4-bin\apache-ant-1.9.4
Path: %JAVA_HOME%\bin;%CATALINA_HOME%\bin;%CATALINA_HOME%\lib;%ANT_HOME%\bin;%JAVA_HOME%\jre\bin;
系统环境变量部分: Path:C:\Windows\System32;D:\cygwin\bin;
2.在Netbeans中创建项目
创建项目过程:
启动 Netbeans7.4 文件->新建项目->常规;
•选择“基于现有源代码的Java项目”->下一步,选择项目名称和项目文件夹,可以根据自己的需要自行指定;
•选择下一步,点击“源包文件夹”文本框右边的“添加文件夹”按钮,浏览文件目录选择Nutch安装目录下的src文件夹;
•点击完成,此时工程已经建立,当需要对项目进行配置才能实现代码的调试;
导入文件及Jar包过程:
•在左边的“项目”导航窗口中,选择库包,点击右键,选择属性,此时弹出项目属性配置窗口
•选择配置“库”,点击按钮“添加JAR/文件夹”,添加Nutch安装目录下的 "conf"目录下所有文件;
•继续将Nutch安装目录下“lib”和“plugin”文件夹中的所有JAR包添加进来,此处比较麻烦,因为Netbeans不能自动扫描到文件夹下所有的JAR包,必须手工将其添加进来。
此时,您可以选择左方“项目”导航窗口中的项目图标,点击右键,选择“生成项目”,项目应该能正确通过编译。您还需要对Nutch进行配置以调试Nutch的爬行代码。
配置 Nutch
在Nutch安装目录下,找到文件/conf/nutch-defaul.xml, 将其 "plugin.folders" 属性值改为"Nutch安装目录/src/plugin"
运行
在Nutch中运行Nutch爬虫
•选择左方“项目”导航窗口中的项目图标,点击右键,选择“属性”,在左方类别窗口中选择“运行”,对运行参数进行配置
•主类: 选择 org.apache.nutch.crawl.Crawl
•参数: 填入 urls/microsoft.txt -dir crawl -depth 3 -topN 50
•VM选项:填入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
•点击“确定”按钮退出
•选择左方“项目”导航窗口中的项目图标,点击右键,选择“运行项目”
运行过程中出现的错误及解决办法:
1 mapred.JobClient - No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
2014-10-17 13:20:45,384 INFO crawl.Crawl - crawl started in: crawl
出错原因:找不到Mapper类和Reduce类。
解决办法:
将本工程导出jar包放到工程根目录下面,并在Crawl.java类中获取到配置文件后重新加载mapred.jar包。
conf.set("mapred.jar", "NutchSource.jar"); NutchSource.jar是Nutch项目编译后的Jar包。
代码如下: public static void main(String args[]) throws Exception {
if (args.length < 1) {
System.out.println
("Usage: Crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN N]" +
" [-solr solrURL]");
return;
}
Configuration conf = NutchConfiguration.createCrawlConfiguration();
conf.set("mapred.jar", "NutchSource.jar");
JobConf job = new NutchJob(conf);
2. WARN plugin.PluginRepository - Plugins: directory not found: plugins
出错原因:找不到plugins此目录。
解决办法:查看conf目录下的nutch-default.xml中的plugin.folders的Value值在项目路径下是否存在。
<property>
<name>plugin.folders</name>
<value>plugins</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
把此值改为项目下src/plugin.
Netbeans导入Nutch1.2的更多相关文章
- NetBeans导入项目jar路径错误解决办法
NetBeans导入项目jar路径错误解决办法 1.NetBeans中导入项目jar路径出错,单击项目右键,选择"属性",找到"库" 2.找到错误jar,全部勾 ...
- 什么是JavaFX
什么是JavaFX JavaFx平台是一个富客户端平台解决方案,它能够使用应用程序开发人员轻松的创建跨平台的富客户端应用程序.它构建在Java技术的基础之上,JavaFX平台提供了一组丰富的图形和媒体 ...
- 可视化工具gephi源码探秘(二)---导入netbeans
在上篇<可视化工具gephi源码探秘(一)>中主要介绍了如何将gephi的源码导入myeclipse中遇到的一些问题,此篇接着上篇而来,主要讲解当下通过myeclipse导入gephi源码 ...
- [置顶] Linux下将Nutch1.3导入eclipse
1.准备工作 首先去官网下载好 apache-nutch-1.3-bin.zip 解压apache-nutch-1.3-bin.zip [pig@CentOs ]$ unzip apache-nu ...
- 如何从eclipse中下载并导入Github上的项目
eclipse导入项目,方法就是点击File ->Import,选择Existing Projects into Workspace 但前提是,你导入的这个项目原本就是用eclipse的构建的, ...
- nutch1.4 在windows下面提示 java.io.IOException: CreateProcess error=2, ϵͳÕҲ»µ½ָ¶
eclipse运行nutch1.4在window下面提示异常解决 需要安装cynwin,被设置环境变量 1:安装cygwin 注:在选择要安装的软件包的时候我选择了在All这一行上后面的Default ...
- nutch-2.1导入eclipse+mysql运行
初次接触nutch,记录下来 首先数据库 CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_unicode_c ...
- NetBeans使用习惯:升级与保存配置
如何升级:点击 netbeans 的升级更新 ,即可升级版本:不推荐官网下载进行安装,否则会出现,以前的旧版本8.0的目录和8.0.1目录,虽然它会自动检测到以前版本的配置,提示导入... 如何备份: ...
- Eclipse 快捷键 转换为Netbeans 快捷键
一直使用netbeans IDE开发,习惯了netbeans的快捷键,最近要开发个app就选择了H5. 接着使用了HBuilder (基于Eclipse开发) 总体来讲这个IDE还可以,不管是代码提示 ...
随机推荐
- 兼容PC手机端字体
各平台的主流字体支持情况 各系统的默认字体和常用字体: 系统 默认西文字体 默认中文字体 其他常用西文字体 其他常用中文字体 Windows 宋体 宋体 Tahoma.Arial.Verdana.Ge ...
- js将金额专成每隔3位数加逗号
js将金额专成每隔3位数加逗号,比如 12345.00 转成 12,345.00; 懒得解释具体代码如下 //分割 String.prototype.joinByNum = function(num, ...
- ueditor 上传的图片在内容里显示的尺寸过大的问题
没改动之前是上面这样的,图片显示不开,撑出了滚动条,想让他自适应100%,不出现滚动条 网上有方法 1.ueditor 的 themes 文件夹下有个iframe.css 加入以下代码,保存(原先的c ...
- leetcode 186. Reverse Words in a String II 旋转字符数组 ---------- java
Given an input string, reverse the string word by word. A word is defined as a sequence of non-space ...
- 《C与指针》第十五章练习
本章例程 15.1打开和关闭文件 #include <stdlib.h> #include <stdio.h> int main(int ac, char **av) { in ...
- get------引用接口
关于引用接口 1. 通过get方式 2. String poiUrl="http://接口地址?接口ID=接口给你的ID&参数1=?&参数2=?&参数 ...
- Qt开发中的实用笔记一--xml,Qpainter,Delegate:
因为开发环境不能联网,开发中用到有用的知识就记在word稳定中,不知不觉就记载了几十页,为避免笔记丢失,现在就一点点忘博客上搬,方便日后回顾! ---------------------------- ...
- JSBinding / Testing
Unity version compatibilities 5.3.5 5.2.0 5.1.5 5.0.4 4.7.2 4.7.0 4.6.9 4.6.0 4.5.5 Platform compati ...
- PHP-PHP-FPM的max_children一些误区
现在nginx + fpm 基本成为主流的配置,其中我们比较关注的是pm.max_chindren的配置 首先,我们关注一个前提设置: pm = static/dynamic, 这个选项是标识fpm子 ...
- c#操作access,update语句不执行的解决办法
update access数据库时,使用了参数化的方式,结果不报错,但是数据也没有更新.后来发现access使用参数化时,参数位置必须和赋值顺序相同才行,否则更新时就会出现数据无法更新但是也不报错的怪 ...