这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章

因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn;MapReduce History Server也是需要启动的,详情往下看

Spark安装包:概述

类别
  与Hadoop打包在一起的安装包
  • 比如:spark-2.1.0-bin-hadoop2.7.tgz,spark版本为2.1.0,与hadoop 2.7.0集成
  独立安装包
    • spark-2.1.0-bin-without-hadoop.tgz
下载地址
  http://spark.apache.org/downloads.html

Spark安装包:conf目录

spark-default.conf

  可将spark-defaults.conf.template重命名后产生

  以key/value方式设置spark应用程序的默认参数,这里写上默认的参数,就省去了在命令行里写一堆参数

spark-env.sh

  可将spark-env.sh.template重命名后产生

  是一个shell文件,保存了spark的运行环境,比如hadoop配置文件所在路径

Spark安装部署1:基本配置

解压缩spark-2.1.0-bin-hadoop2.7.tgz,进入到conf目录

tar zxvf spark-2.1.0-bin-hadoop2.7.tgz
cd spark-2.1.0-bin-hadoop2.7/conf

主要任务

1、修改conf目录下的spark-defaults.conf和spark-env.sh

2、配置并启动spark history server

spark-defaults.conf配置

spark.master=local
#这里表示启动模式是yarn-client,也可以启动在yarn-cluster,或者本地模式:local(一般只用在本地测试)
#前两种最直观的区别是,你本机关闭后,整个程序关闭,yarn-cluster是,提交后,本机关闭, 程序照样在跑,详情看上篇文章

spark-env.sh配置

export HADOOP_CONF_DIR=/home/orco/resources/hadoop-2.7.3/etc/hadoop
#只需要配置这个,其余默认即可

Spark安装部署2:spark historyserver配置与启动

找一台节点部署spark history server,比如我用的是node2

在Hadoop配置文件yarn-site.xml增加以下配置

目的:如果需要查看history的日志的话,需要配置下面的参数,对hadoop进行一些修改,主要是修改yarn的一些配置,让所有的nodemanager可以在应用程序结束之后,把日志传到hdfs上,这样的话,即使在应用程序结束之后,还是能够查看程序的日志

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log.server.url</name>
<value>http://node2:19888/jobhistory/logs</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

在Hadoop配置文件mapred-site.xml增加以下配置

<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/user/history/done</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/user/history/done_intermediate</value>
</property>

在所有节点上应用同样的修改,或者分发到所有nodemanager节点,重新启动Yarn

/home/orco/resources/hadoop-2.7.3/sbin/start-yarn.sh

在node2节点上重新启动mapreduce history server

sbin/mr-jobhistory-daemon.sh start historyserver

在浏览器中打开

http://node2:19888

配置完了必要的hadoop,接下来配置spark

修改conf/spark-defaults.conf ,增加以下配置

#告诉yarn,spark的historyserver地址
spark.yarn.historyServer.address=node1:18080
#剩下几个是跟sparkhistory相关的一些配置
spark.history.ui.port=18080
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs:///tmp/spark/events
spark.history.fs.logDirectory=hdfs:///tmp/spark/events

在HDFS上创建以上目录

hdfs dfs -mkdir -p /tmp/spark/events

启动Spark history server

sbin/start-history-server.sh

Spark History server地址

http://node1:18080/

注:

spark解压在了node1,不需要分发到集群中,因为spark on yarn模式,实际运行的时候yarn会将spark的jar分发到各个nm上

这种模式下spark是靠yarn实现集群能力的

只需要启动Spark history server即可

启动的时候通过代码API或者

bin/spark-shell --master yarn-client

或者

bin/spark-shell --master yarn-cluster

来运行程序即可,不需要启动start-all.sh,start-all.sh是用来部署standalone的脚本的。

下篇文字会介绍上面的配置文件为什么那样配,即日志那块的东西

spark2.10安装部署(集成hadoop2.7+)的更多相关文章

  1. CentOS下SparkR安装部署:hadoop2.7.3+spark2.0.0+scale2.11.8+hive2.1.0

    注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新 ...

  2. Hadoop2.7.3+Hbase-1.2.6+spark2.1.2完全分布式安装部署

    https://www.cnblogs.com/lzxlfly/p/7221890.html 总的下载地址:      http://mirror.bit.edu.cn/apache/ hadoop下 ...

  3. 持续集成①安装部署jenkins从git获取代码

    持续集成①安装部署jenkins从git获取代码 一:持续集成的概念: 1.1:总体的概括 持续集成Continuous Integration 持续交付Continuous Delivery 持续部 ...

  4. 【原创 Hadoop&Spark 动手实践 1】Hadoop2.7.3 安装部署实践

    目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软 ...

  5. hadoop2 Ubuntu 下安装部署

    搭建Hadoop环境( 我以hadoop 2.7.3 为例, 系统为 64bit Ubuntu14.04 ) hadoop 2.7.3 官网下载 , 选择自己要安装的版本.注意每个版本对应两个下载选项 ...

  6. Hadoop2.2集群安装配置-Spark集群安装部署

    配置安装Hadoop2.2.0 部署spark 1.0的流程 一.环境描写叙述 本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下 主机名spark1(19 ...

  7. 【持续集成】jenkins安装部署从git获取代码

    一:持续集成的概念: 1.1:总体的概括 持续集成Continuous Integration 持续交付Continuous Delivery 持续部署Continuous Deployment 1. ...

  8. hadoop入门(3)——hadoop2.0理论基础:安装部署方法

    一.hadoop2.0安装部署流程         1.自动安装部署:Ambari.Minos(小米).Cloudera Manager(收费)         2.使用RPM包安装部署:Apache ...

  9. 在Ubuntu 12.10 上安装部署Openstack

    OpenStack系统有几个关键的项目,它们能够独立地安装但是能够在你的云计算中共同工作.这些项目包括:OpenStack Compute,OpenStack Object Storage,OpenS ...

随机推荐

  1. DistroWatch评估XStream桌面153版本

    导读 XStreamOS是一个由Sonicle创建的Solaris的一个版本.XStream桌面将Solaris的强大带给了桌面用户,同时新手用户很可能有兴趣体验一下.DistroWatch对于XSt ...

  2. Android屏幕和尺寸

    DisplayMetrics dm=new DisplayMetrics(); //获取的像素高度不包含虚拟键所占空间 ((WindowManager)context.getSystemService ...

  3. 【BZOJ1412】[ZJOI2009]狼和羊的故事 最小割

    [BZOJ1412][ZJOI2009]狼和羊的故事 Description “狼爱上羊啊爱的疯狂,谁让他们真爱了一场:狼爱上羊啊并不荒唐,他们说有爱就有方向......” Orez听到这首歌,心想: ...

  4. 《从零开始学Swift》学习笔记(Day 66)——Cocoa Touch设计模式及应用之通知机制

    原创文章,欢迎转载.转载请注明:关东升的博客 通知(Notification)机制是基于观察者(Observer)模式也叫发布/订阅(Publish/Subscribe)模式,是 MVC( 模型-视图 ...

  5. 转载 hibernate一级缓存和二级缓存的区别

    文章来源:http://blog.csdn.net/defonds/article/details/2308972     hibernate一级缓存和二级缓存的区别 缓存是介于应用程序和物理数据源之 ...

  6. 简单的纯css重置input单选多选按钮的样式--利用伪类

    由于input单选多选的原生样式通常都不符合需求,所以在实现功能时通常都需要美化按钮 html <input type="radio" /> <input typ ...

  7. Ubuntu 中 apache 开启 rewrite 模块

    ubuntu14.04中安装好apache2.4之后默认rewrite模块是不开启的,项目public目录下的.htaccess文件就用不了,在浏览器中访问网页总是报500错误,原因就是这个. 执行下 ...

  8. KVM虚拟机克隆及快照管理

    一,克隆 查看虚拟机硬盘位置(其中centos1为虚拟机名称) virsh edit centos1 克隆(centos1为需要克隆的虚拟机名称centos2为克隆后的虚拟机名称CentOS2.qco ...

  9. Servlet------>jsp自定义标签5(标签体内容改为大写)

    5.把标签体内容改为大写(tld中的配置我就省略了,详细请看jsp自定义标签1) import java.io.IOException; import javax.servlet.jsp.JspExc ...

  10. [LeetCode] 7.Reverse Integer - Swift

    Reverse digits of an integer. Example1: x = , return Example2: x = -, return - 题目意思:对一个整型进行反转 实现代码: ...