Hadoop2.7.1已经配置完毕。

Hosts分配如下:

master 172.16.15.140
slave1 172.15.15.141
slave2 172.16.15.142

一、安装Scala

  1. 下载地址:http://www.scala-lang.org/download/2.11.7.html 
    scala-2.11.7.tgz

  2. 以下全部使用root权限操作。

(1)创建/usr/scala文件夹:

mkdir /usr/scala

(2)将压缩包解压至/usr/scala 目录:

tar zxvf /home/hadoop/scala-2.11.7.tgz -C /usr/scala

(3)设置环境变量:

vim /etc/profile
#追加如下内容
export SCALA_HOME=/usr/scala/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin

(4)使之生效(不用root权限):

source /etc/profile

(5)测试Scala是否安装配置成功(不用root权限):

scala -version

二、安装Spark

  1. 官网下载spark1.5.0:spark-1.5.0-bin-hadoop2.6.tgz

  2. 以下全部使用root权限操作

(1)将压缩包解压至/usr目录:

tar zxvf /home/hadoop/spark-1.5.0-bin-hadoop2.6.tgz -C /usr/spark

(2)将spark文件夹授权给Hadoop用户:

chown -R hadoop:hadoop /usr/spark/

(3)设置环境变量:

vim /etc/profile
#追加如下内容
export SPARK_HOME=/usr/spark/spark-1.5.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

(4)使之生效(不用root权限)

source /etc/profile

(5)测试Spark是否安装配置成功(不用root权限):

spark-shell --version

(6)运行SparkPi(不用root权限)

run-example org.apache.spark.examples.SparkPi 10

(7)以下不用root权限,使用hadoop用户。配置Spark:

  • 修改spark-env.sh

    cd /usr/spark/spark-1.5.0/conf/
    cp spark-env.sh.template spark-env.sh
    vi spark-env.sh # 追加如下内容 export SCALA_HOME=/usr/scala/scala-2.11.7
    export JAVA_HOME=/usr/java/jdk1.7.0_80
    export SPARK_MASTER_IP=172.16.15.140
    export SPARK_WORKER_MEMORY=1024m
  • 启动Spark

    $SPARK_HOME/sbin/start-all.sh
  • 提交任务到Spark集群

spark-submit --master spark://172.16.15.140:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar
  • 使用web查看Spark运行状态
http://master:8080/

三、与Hadoop结合使用

  • 分别开启Hadoop集群和Spark集群。
$HDOOP_HOME/sbin/start-dfs.sh
$HDOOP_HOME/sbin/start-yarn.sh
$SPARK_HOME/sbin/start-all.sh
  • 在Yarn中运行Spark任务,编辑spark-env.sh:
vim /usr/spark/spark-1.5.0/conf/spark-env.sh
#追加如下内容
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.1/etc/hadoop
  • 提交Spark任务到yarn中
spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkLR --name SparkLR /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar
  • 使用web查看任务运行状态(Hadoop的任务监控WebUI)
http://master:8088/
  • 结合HDFS,Spark的输入是HDFS的文件
spark-submit --master yarn-cluster --class org.apache.spark.examples.JavaWordCount --name JavaWordCount /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar hdfs://master:9000/data/

spark-submit工具的参数说明:

Spark1.5.0 + Hadoop2.7.1整合的更多相关文章

  1. 搭建Hadoop2.6.0+Spark1.1.0集群环境

    前几篇文章主要介绍了单机模式的hadoop和spark的安装和配置,方便开发和调试.本文主要介绍,真正集群环境下hadoop和spark的安装和使用. 1. 环境准备 集群有三台机器: master: ...

  2. 在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境

    Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 ...

  3. spark 1.6.0 安装与配置(spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7)

    前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...

  4. spark1.2.0安装

    standalone 安装SCALA 下载.解压.加入环境变量 安装spark1.2.0 下载.解压.加入环境变量 tar zxvf spark--bin-.tgz export SPARK_HOME ...

  5. Apache Spark1.1.0部署与开发环境搭建

    Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...

  6. Spring3.0 与 MyBatis框架 整合小实例

    本文将在Eclipse开发环境下,采用Spring MVC + Spring + MyBatis + Maven + Log4J 框架搭建一个Java web 项目. 1. 环境准备: 1.1 创建数 ...

  7. 基于Spark1.3.0的Spark sql三个核心部分

    基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

  8. spark1.2.0版本SparkSQL使用parquet类型注意事项

    在Spark1.2.0版本中是用parquet存储类型时注意事项: sql语句: select * from order_created_dynamic_partition_parquet; 在spa ...

  9. spark1.1.0下使用SparkSQL

    spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407 安装了spark之后,可以在 shell中执行Spar ...

随机推荐

  1. ORM版学员管理系统 3

    老师信息管理 思考 三种方式创建多对多外键方式及其优缺点. 通过外键创建 class Class(models.Model): id = models.AutoField(primary_key=Tr ...

  2. drf框架之 路飞学城(第二天)

    1.第二天的项目是用户购物的数据存入到购物车中,这样保存的数据是存放在redis中 1. 首先先配置redis的数据库链接: #注意, 数据从redis中获取到的内容,最原始的是二进制形式的数据,想要 ...

  3. Django2.X报错-------ModuleNotFoundError: No module named 'django.core.urlresolvers'

    django2.0 把原来的 django.core.urlresolvers 包 更改为了 django.urls包.所以将导入的包修改为django.urls.

  4. vue源码逐行注释分析+40多m的vue源码程序流程图思维导图 (diff部分待后续更新)

    vue源码业余时间差不多看了一年,以前在网上找帖子,发现很多帖子很零散,都是一部分一部分说,断章的很多,所以自己下定决定一行行看,经过自己坚持与努力,现在基本看完了,差ddf那部分,因为考虑到自己要换 ...

  5. MySQL慢查询日志相关的文件配置和使用。

    MySQL慢查询日志提供了超过指定时间阈值的查询信息,为性能优化提供了主要的参考依据,是一个非常实用的功能,MySQL慢查询日志的开启和配置非常简单,可以指定记录的文件(或者表),超过的时间阈值等就可 ...

  6. Ubuntu 16.04下配置intel opencl环境

    一. 靠谱的安装教程 1. 官网教程 https://software.intel.com/en-us/articles/sdk-for-opencl-2019-gsg,打开后往下拉到[4. Prod ...

  7. Alpha冲刺

    第一天 日期:2018/6/16 1.今日完成任务情况以及遇到的问题 张天旭:根据系统的需求,完成数据库的设计 周甜甜:完成系统后台登录界面的设计及登录功能的实现 李蕾:完成系统后台首页的设计 张海鑫 ...

  8. Java & C# BCD编码与十进制转换

    using System;using System.Collections.Generic;using System.Text; namespace Base{ public class BCDHel ...

  9. Game Engine Architecture 9

    [Game Engine Architecture 9] 1.Formatted Output with OutputDebugString() int VDebugPrintF(const char ...

  10. win7旗舰版64位GHOST版的,安装telnet客户端时,提示:出现错误。并非所有的功能被成功更改。

    win7旗舰版64位GHOST版的,安装telnet客户端时,提示:出现错误.并非所有的功能被成功更改. 从安装成功的电脑上拷贝ghost版本缺少的文件,然后再安装telnet客户端,我已打包 链接: ...