[转载] 把Nutch爬虫部署到Hadoop集群上
http://f.dataguru.cn/thread-240156-1-1.html
| 
 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 前提 
 1 启动Hadoop集群 伪分布式或真分布式的Hadoop集群都可以,无所谓。 选择一台配置好了的Hadoop客户端的机器(见Hadoop多用户的配置),作为客户机,以下操作均在这台客户机上进行。 2 下载Nutch源码 有两种方法, 
 3 把Hadoop的6个配置文件拷贝到Nutch的conf/目录 将Hadoop的六个配置文件,拷贝到Nutch的conf/目录,相当于把Hadoop集群的配置信息告诉Nutch, 在伪分布式模式下, 
 复制代码 在分布式模式下, 
 复制代码 4 修改Nutch的配置文件 修改 conf/nutch-site.xml: 
 复制代码 修改 regex-urlfilter.txt, 见Nutch 快速入门(Nutch 1.7) 第4节, 
 复制代码 5 重新编译Nutch 每次修改了$NUTCH_HOME/conf下的的文件,都需要重新编译Nutch,重新打包生成一个nutch-x.x.x.job文件,见这里,Running Nutch in (pseudo) distributed-mode。也可以打开build.xml看看里面的”runtime”这个task干了什么,就明白了。 
 复制代码 这会在runtime/deploy下生成一个Job文件,apache-nutch-1.7.job,它本质上是一个zip压缩包,可以打开看一下它里面的内容。可以看到它包含了很多编译好的class文件,以及从conf/目录下的拷贝出来的xml配置文件。 6 向Hadoop集群提交Job,进行抓取 首先,要在con/hadoop-env.sh 添加HADOOP_CLASSPATH,让Hadoop知道去哪里找Nutch所依赖的jar包, 
 复制代码 上传种子URL列表, 
 复制代码 提交Job, 
 复制代码 可以打开web页面监控job的进度, 
 把Nutch运行在伪分布式Hadoop集群上,比Standalone模式要好,因为可以通过web页面监控job。 查看结果 
 复制代码 7 注意 如果出现java.io.IOException: No valid local directories in property: mapred.local.dir的错误,说明你的客户机的mapred-site.xml是从hadoop集群拷贝过来的,没有修改过,mapred.local.dir是一个本地目录,集群上的机器有这个目录,但是你的本机上没有,所以出现了这个错误。解决办法是,在本地新建一个目录,然后把mapred.local.dir设置为这个路径。 如果出现org.apache.hadoop.security.AccessControlException: Permission denied: user=soulmachine, access=WRITE, inode="tmp"的错误,多半是因为你没有给这个用户创建hadoop.tmp.dir文件夹,见Hadoop多用户的配置第2.2节。 8 把Nutch 1.7 爬虫部署到Hadoop 2.x集群上 事实证明是完全可行的,Hadoop 2.x 向后兼容。 把hadoop 2.x的配置文件,全部拷贝到 nutch 的conf目录下 
 复制代码 然后编译, 
 复制代码 把种子列表上传到hdfs, 
 复制代码 提交Job, 
 复制代码 查看结果, 
 复制代码 参考资料 废弃的资料 
 Posted by soulmachine Feb 4th, 2014 Search-Engine 
 | 
[转载] 把Nutch爬虫部署到Hadoop集群上的更多相关文章
- 把Nutch爬虫部署到Hadoop集群上
		
原文地址:http://cn.soulmachine.me/blog/20140204/ 把Nutch爬虫部署到Hadoop集群上 Feb 4th, 2014 | Comments 软件版本:Nutc ...
 - 基于Docker一键部署大规模Hadoop集群及设计思路
		
一.背景: 随着互联网的发展.互联网用户的增加,互联网中的数据也急剧膨胀.每天产生的数据量数以万计,本地文件系统和单机CPU已无法满足存储和计算要求.Hadoop分布式文件系统(HDFS)是海量数据存 ...
 - 在Hadoop集群上的HBase配置
		
之前,我们已经在hadoop集群上配置了Hive,今天我们来配置下Hbase. 一.准备工作 1.ZooKeeper下载地址:http://archive.apache.org/dist/zookee ...
 - MapReduce编程入门实例之WordCount:分别在Eclipse和Hadoop集群上运行
		
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapR ...
 - Hadoop集群上搭建Ranger
		
There are two types of people in the world. I hate both of them. Hadoop集群上搭建Ranger 在搭建Ranger工程之前,需要完 ...
 - Hadoop集群上使用JNI,调用资源文件
		
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力. 通常在是用一些工具的时候都要用到一些配置文件.资源文件等.接下来,借一个例子来说明ha ...
 - hadoop 把mapreduce任务从本地提交到hadoop集群上运行
		
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yar ...
 - 在Hadoop集群上的Hive配置
		
1. 系统环境Oracle VM VirtualBoxUbuntu 16.04Hadoop 2.7.4Java 1.8.0_111 hadoop集群master:192.168.19.128slave ...
 - 在Hadoop集群上,搭建HBase集群
		
(1)下载Hbase包,并解压:这里下载的是0.98.4版本,对应的hadoop-1.2.1集群 (2)覆盖相关的包:在这个版本里,Hbase刚好和Hadoop集群完美配合,不需要进行覆盖. 不过这里 ...
 
随机推荐
- 倍福TwinCAT(贝福Beckhoff)基础教程1.2 TwinCAT安装配置
			
由于TC2和TC3都有可能用到,个人推荐都安装,但是注意必须是先安装的TwinCAT2,然后安装TwinCAT3,如果反了可能两个都没法用(打开TcSwitchRuntime提示Both TwinCA ...
 - TCP/IP 网络编程(五)
			
优于 select 的 epoll (I/O 复用) select 速度慢的原因 调用select后针对全部文件描写叙述符的循环 每次调用函数时都须要向该函数传递监视对象信息 select并非把发生变 ...
 - TCO'10 Wildcard Round 1000pt
			
题目大意: 给定一个N*M的棋盘,棋子可以攻击其左右距离不超过K的棋子.问有多少种放法使得棋盘上的棋子不能互相攻击. N,M,K都在1到1000000000的范围内,结果对100003取模. 官方题解 ...
 - MySql修改root密码、设置IP访问
			
先登录:mysql -h 192.168.5.116 -P 3306 -u root -p123456 首次登陆无密码命令:mysql -h 192.168.5.116 -P 3306 -u root ...
 - 【翻译自mos文章】asm 归档路径满了
			
asm 归档路径满了 參考原文: ASM Archive destination is full. (Doc ID 351547.1) 适用于: Oracle Server - Enterprise ...
 - C#自动切换Windows窗口程序,如何才能调出主窗口?
			
namespace AutoChangeWindow { partial class Form1 { /// <summary> /// 必需的设计器变量. /// </summ ...
 - PDO中捕获SQL语句中的错误
			
使用默认模式-----PDO::ERRMODE_SILENT 在默认模式中设置PDOStatement对象的errorCode属性,但不进行其它不论什么操作. 比如: 通过prepare()和exec ...
 - MySQL:习题(单表多条件查询二)
			
Sutdent表的定义 字段名 字段描述 数据类型 主键 外键 非空 唯一 自增 Id 学号 INT(10) 是 否 是 是 是 Name 姓名 VARCHAR(20) 否 否 是 否 否 Sex 性 ...
 - explicit 构造函数
			
一.构造函数.默认构造函数.合成的默认构造函数 构造函数,是函数名与类名同样.没有返回类型的特殊的成员函数.能够有初始化列表. 默认构造函数,没有形參.或全部形參都有默认实參的构造函数. 假设没有显示 ...
 - 【Mac + Mysql + Navicat Premium】之Navicat Premium如何连接Mysql数据库
			
参考文章: <mac用brew安装mysql,设置初始密码> 因为我需要连接数据库工具,需要密码,所以下面介绍如何设置.修改密码实现Navicat Premium连接Mysql数据库 建议 ...