Spark1.5.0 + Hadoop2.7.1整合

Hadoop2.7.1已经配置完毕。

Hosts分配如下：

master 172.16.15.140

slave1 172.15.15.141

slave2 172.16.15.142

一、安装Scala：

下载地址：http://www.scala-lang.org/download/2.11.7.html
（scala-2.11.7.tgz）
以下全部使用root权限操作。

（1）创建/usr/scala文件夹：

mkdir /usr/scala

（2）将压缩包解压至/usr/scala 目录：

tar zxvf /home/hadoop/scala-2.11.7.tgz -C /usr/scala

（3）设置环境变量：

vim /etc/profile

#追加如下内容

export SCALA_HOME=/usr/scala/scala-2.11.7

export PATH=$PATH:$SCALA_HOME/bin

（4）使之生效（不用root权限）：

source /etc/profile

（5）测试Scala是否安装配置成功（不用root权限）：

scala -version

二、安装Spark

官网下载spark1.5.0：spark-1.5.0-bin-hadoop2.6.tgz
以下全部使用root权限操作

（1）将压缩包解压至/usr目录：

tar zxvf /home/hadoop/spark-1.5.0-bin-hadoop2.6.tgz -C /usr/spark

（2）将spark文件夹授权给Hadoop用户：

chown -R hadoop:hadoop /usr/spark/

（3）设置环境变量：

vim /etc/profile

#追加如下内容

export SPARK_HOME=/usr/spark/spark-1.5.0

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

（4）使之生效（不用root权限）

source /etc/profile

（5）测试Spark是否安装配置成功（不用root权限）：

spark-shell --version

（6）运行SparkPi（不用root权限）

run-example org.apache.spark.examples.SparkPi 10

（7）以下不用root权限，使用hadoop用户。配置Spark：

修改spark-env.sh

cd /usr/spark/spark-1.5.0/conf/

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

#   追加如下内容

export SCALA_HOME=/usr/scala/scala-2.11.7

export JAVA_HOME=/usr/java/jdk1.7.0_80

export SPARK_MASTER_IP=172.16.15.140

export SPARK_WORKER_MEMORY=1024m

启动Spark
```
$SPARK_HOME/sbin/start-all.sh
```
提交任务到Spark集群

spark-submit --master spark://172.16.15.140:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar

使用web查看Spark运行状态

http://master:8080/

三、与Hadoop结合使用

分别开启Hadoop集群和Spark集群。

$HDOOP_HOME/sbin/start-dfs.sh

$HDOOP_HOME/sbin/start-yarn.sh

$SPARK_HOME/sbin/start-all.sh

在Yarn中运行Spark任务，编辑spark-env.sh：

vim /usr/spark/spark-1.5.0/conf/spark-env.sh

#追加如下内容

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.1/etc/hadoop

提交Spark任务到yarn中

spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkLR --name SparkLR /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar

使用web查看任务运行状态（Hadoop的任务监控WebUI）

http://master:8088/

结合HDFS，Spark的输入是HDFS的文件

spark-submit --master yarn-cluster --class org.apache.spark.examples.JavaWordCount --name JavaWordCount /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar hdfs://master:9000/data/

spark-submit工具的参数说明：

Spark1.5.0 + Hadoop2.7.1整合的更多相关文章

搭建Hadoop2.6.0+Spark1.1.0集群环境
前几篇文章主要介绍了单机模式的hadoop和spark的安装和配置,方便开发和调试.本文主要介绍,真正集群环境下hadoop和spark的安装和使用. 1. 环境准备集群有三台机器: master: ...
在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境
Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 ...
spark 1.6.0 安装与配置（spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7）
前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...
spark1.2.0安装
standalone 安装SCALA 下载.解压.加入环境变量安装spark1.2.0 下载.解压.加入环境变量 tar zxvf spark--bin-.tgz export SPARK_HOME ...
Apache Spark1.1.0部署与开发环境搭建
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...
Spring3.0 与 MyBatis框架整合小实例
本文将在Eclipse开发环境下,采用Spring MVC + Spring + MyBatis + Maven + Log4J 框架搭建一个Java web 项目. 1. 环境准备: 1.1 创建数 ...
基于Spark1.3.0的Spark sql三个核心部分
基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...
spark1.2.0版本SparkSQL使用parquet类型注意事项
在Spark1.2.0版本中是用parquet存储类型时注意事项: sql语句: select * from order_created_dynamic_partition_parquet; 在spa ...
spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407 安装了spark之后,可以在 shell中执行Spar ...

随机推荐

[python]关于函数传入参数
在传入参数时有两个特殊参数,*args,**kwargs,功能如下: def foo(*args, **kwargs): print 'args = ', args print 'kwargs = ' ...
WPF 自定义控件缩放
方式一: 自定义控件使用固定大小绘制:控件内的各个子控件大小设定固定值优点:控件绘制简单.快捷. 缺点:使用时如需缩放,需在自定义控件的外面加一个 ViewBox . 使用示例如下(将 UserCo ...
U3D 设置帧率与垂直同步
1,设置帧率: Application.targetFrameRate = 60: //-1为无限制 2,垂直同步 project settings -> quality,任何level的垂直同 ...
Android Studio上传代码到Coding.net
1.官方帮助文档:https://coding.net/help/doc/git/import-from-local.html 2.简单点: https://git.coding.net/javaka ...
jar 接收utf-8字符乱码现象
1.今天用php去调用jar出现乱码现象需要对传递的中文字符进行编码之后再传递这里我用的是urlencode编码,让后java再解码就正常了这里贴一下代码: <?phpexec(" ...
Idea使用maven搭建SpringMVC框架
https://www.cnblogs.com/shang-shang/p/7477607.html
Java Web解决跨域请求
要知道跨域请求就要先了解同源策略,那么什么是同源?什么是不同源?简单来说就是,如果两个资源,包括HTML页面.JavaScript脚本.css样式,对应的协议.域名和端口完全相同,那么这两个资源就是同 ...
openstack swift curl 常用操作
上传文件 curl -v -X PUT -H 'X-Auth-Token: AUTH_tkd9276f23b3404c67b8a6be45da881d6e' http://127.0.0.1:8080 ...
# 2018-2019-20175302实验一《Java开发环境的熟悉》实验报告
2018-2019-20175302实验一<Java开发环境的熟悉>实验报告实验内容 1.使用JDK编译.运行简单的Java程序: 2.使用Eclipse 编辑.编译.运行.调试Java ...
异步FIFO的verilog实现与简单验证（调试成功）
最近在写一个异步FIFO的时候,从网上找了许多资料,文章都写的相当不错,只是附在后面的代码都多多少少有些小错误. 于是自己写了一个调试成功的代码,放上来供大家参考. 非原创原理参考下面: 原文 ht ...

Spark1.5.0 + Hadoop2.7.1整合

Spark1.5.0 + Hadoop2.7.1整合的更多相关文章

随机推荐

热门专题