运行Spark服务,需要在每个节点上部署Spark. 可以先从主节点上将配置修改好,然后把Spark直接scp到其他目录. 关键配置 修改conf/spark-env.sh文件: export JAVA_HOME=/usr/java/latest export HADOOP_CONF_DIR=/opt/hadoop-2.4.1/etc/hadoop/ export SPARK_MASTER_IP=master 以上是必要的几个配置,详细的配置说明,请参见官网的Document. 修改conf/s…
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yarn jar方式运行. 3.本地编译环境在IDE里直接提交到集群上运行,实际上这种方式就是第二种方式的变种. 本例说的就是第三种方式 1)核心的部分就是Confirguration的配置 2)本地需要编译成jar包 3)运行参数在本地配置,包括输入输出参数4)出现windows下的环境配置问题,参照h…
之前,我们已经在hadoop集群上配置了Hive,今天我们来配置下Hbase. 一.准备工作 1.ZooKeeper下载地址:http://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz 2.Hbase下载地址:http://mirrors.shuosc.org/apache/hbase/stable/hbase-1.2.6-bin.tar.gz 二.ZooKeeper集群安装配置 1.下载Zo…
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力. 通常在是用一些工具的时候都要用到一些配置文件.资源文件等.接下来,借一个例子来说明hadoop上面如何使用JNI.以及调用资源文件. 首先介绍一下ICTClass,ICTClass是中国科学院开发的一个分词软件(ICTClass官网).该套软件采用C/C++编写.ICTClass虽然支持java,但是必须使用到的JNI技术.因此,在使用ICTClass之前需要配置好JNI资源以及IC…
Hadoop集群完全分布式配置部署 下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台 手动指定3服务器台以下信息: hostname IP mask gateway DNS 备注 master 172.17.138.82 255.255.255.0 172.17.138.1 202.203.85.88 服务器1 slave1 172.17.138.83 255.255.255.0 172.…
http://f.dataguru.cn/thread-240156-1-1.html 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑. 前提 学会了搭建一个分布式Hadoop集群,见在CentOS上…
原文地址:http://cn.soulmachine.me/blog/20140204/ 把Nutch爬虫部署到Hadoop集群上 Feb 4th, 2014 | Comments 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正…
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapReduce程序(WordCount程序) 首先看一下我的项目结构和WordCount程序: 其中word.txt将作为我们测试的输入文件,内容如下: 程序代码如下所示: package com.hadoop.WordCount; import java.io.IOException; import…
There are two types of people in the world. I hate both of them. Hadoop集群上搭建Ranger 在搭建Ranger工程之前,需要完成https://www.cnblogs.com/taojietaoge/p/10803537.html 中的搭建Hadoop集群步骤. 准备到Ranger官网下载ranger的源码:http://ranger.apache.org/download.html 1.Ranger编译 Ranger编译…
06.部署Spark程序到集群上运行 6.1 修改程序代码 修改文件加载路径 在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改代码中文件加载路径为hdfs路径: ... //指定hdfs路径 sc.textFile("hdfs://mycluster/user/centos/1.txt") ... ​ 修改master地址 SparkConf中需要指定master地址,如果是集群上运行,也可以不指定,运行时可以通…