Spark集群部署

　　Spark是通用的基于内存计算的大数据框架，可以和hadoop生态系统很好的兼容，以下来部署Spark集群

　　集群环境：3节点 Master:bigdata1 Slaves:bigdata2,bigdata3

　　Master负责任务的分发，与集群状态的显示

　　Slaves运行具体的Worker任务，最后交由Executor执行任务代码

　　集群搭建之前，必须满足如下条件：

　　1、集群主机名和hosts文件映射一一对应

　　2、集群ssh免密登录配置

　　3、集群每个节点防火墙关闭

　　4、JDK正确安装

　　5、Scala正确安装

　　6、Hadoop集群安装，因为Spark存储层要用到HDFS，所以应该至少保证HDFS服务的正常运行，hadoop集群可以在yarn上，也可以由zookeeper协调，这个都没问题，最重要的是hadoop集群能正常运行

　　然后可以开始安装Spark，Spark官方网站是：http://spark.apache.org/，直接去官方网站下载spark安装包即可，这里安装的是1.x的最新版1.6.2，2.0是刚出来，暂时没有使用，包名为：spark-1.6.2-bin-hadoop2.6.tgz 这里已经安装的hadoop版本为hadoop 2.6.0，下载之后上传至服务器准备安装

　　在bigdata1 Master节点执行如下命令解压，目录可以自定义，这里安装位置是/bigdata/spark

tar -xvzf spark-1.6.-bin-hadoop2..tgz

mkdir /bigdata/spark

mv spark-1.6.-bin-hadoop2. /bigdata/spark/

cd /bigdata/spark/spark-1.6.-bin-hadoop2./

　　配置文件目录在安装目录下的conf下，然后从默认模板中拷贝出要编辑的配置文件：

cp conf/spark-env.sh.template conf/spark-env.sh

cp conf/slaves.template conf/slaves

　　网上说的可以添加spark到环境变量中，这个是为了方便启动和调试，是可选的，

　　执行 vim conf/slaves 配置运行Worker任务的节点，和hadoop的slaves配置类似，单机环境中默认或者改为本地主机名，这里是bigdata2,bigdata3

　　执行 vim conf/spark-env.sh 编辑spark启动加载脚本，在最后添加如下配置：

# JDK目录

export JAVA_HOME=/usr/local/java/jdk1..0_73

# Scala目录

export SCALA_HOME=/usr/local/scala/scala-2.11.

# Master IP地址

export SPARK_MASTER_IP=192.168.0.187

# Worker运行内存

export SPARK_WORKER_MEMORY=1024m

# hadoop配置文件目录

export HADOOP_CONF_DIR=/bigdata/hadoop/hadoop-2.6./etc/hadoop

　　集群中Worker运行内存可以适当调整3g~8g的范围

　　然后发送Spark到集群其他节点：

scp -r spark/ bigdata2:/bigdata/

scp -r spark/ bigdata3:/bigdata/

　　最后启动Spark集群，在Master节点执行： sbin/start-all.sh 可以启动整个集群，通过执行jps可以看到Master运行的进程是Master，Slaves节点运行的进程是Worker

　　另外也可以通过在Master节点分别执行 sbin/start-master.sh 和 sbin/start-slaves.sh 分别调起来master和全部子节点的worker进程，这样可以根据不同需要有选择的调起集群中的服务

　　Spark的服务都启动之后，访问Master地址可以打开相应的管理界面，地址就是：http://ip:8080，会看到界面如下：

　　通过界面可以方便的查看并管理相应的端口号，配置项，Workers节点，正在运行的应用任务等

　　通过执行 bin/spark-shell 或者指定相应的参数 bin/spark-shell --executor-memory 1g --driver-memory 1g --master spark://bigdata1:7077 可以进入scala交互式命令行界面，在这里可以进行一些测试等

　　到这里，Spark集群就部署完毕了

Spark集群部署的更多相关文章

Hadoop记录-Apache hadoop+spark集群部署
Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称主机名 IP地址操作系统Master centos1 192.168.0.1 C ...
GIS+=地理信息+云计算技术——Spark集群部署
第一步:安装软件 Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2 ...
Spark集群部署（standLone）模式
安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...
SPARK安装三：SPARK集群部署
使用2.3.0版本,因为公司生产环境是这个版本一.下载安装 cd /opt wget https://archive.apache.org/dist/spark/spark-2.3.0/spark- ...
Spark standalone安装（最小化集群部署）
Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式) 集群规划: 主机 IP ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
使用fabric解决百度BMR的spark集群各节点的部署问题
前言和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...
docker 快速部署ES集群 spark集群
1) 拉下来 ES集群 spark集群两套快速部署环境, 并只用docker跑起来,并保存到私库. 2)弄清楚怎么样打包 linux镜像(或者说制作). 3)试着改一下,让它们跑在集群里面. 4) ...
Scala进阶之路-Spark独立模式（Standalone）集群部署
Scala进阶之路-Spark独立模式(Standalone)集群部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS ...

随机推荐

利用DotSpatial发布WMS, WFS服务
我们遇到的几个给政府部门做的GIS系统,一般都只要面子,只要好看,领导高兴得不得了,点点这里点点那里,哟,这按钮一点还会转,领导开心得跟朵花似的...要是搞个各种分析什么的全堆上来,他就嫌烦了...这 ...
gradle项目中资源文件的相对路径打包处理技巧
开发java application时,不管是用ant/maven/gradle中的哪种方式来构建,通常最后都会打包成一个可执行的jar包程序,而程序运行所需的一些资源文件(配置文件),比如jdbc. ...
搭建TFS 2015 Build Agent环境(三)
在配置时,一定要注意下面的几个地方: 1.项目集合生成服务账号中一定要包含: 2.Build Agent机器上防止Agent的路径一定要短,不要出现特殊字符,比如:C:\Agent 3.一定要安装V ...
JavaScript 特殊对象 Array-Like Objects 详解
这篇文章拖了有两周,今天来跟大家聊聊 JavaScript 中一类特殊的对象 -> Array-Like Objects. (本文节选自 underscore 源码解读系列文章,完整版请关注 h ...
RapidJSON 代码剖析（一）：混合任意类型的堆栈
大家好,这个专栏会分析 RapidJSON (中文使用手册)中一些有趣的 C++ 代码,希望对读者有所裨益. C++ 语法解说我们先来看一行代码(document.h): bool StartArr ...
C 语言学习第一次作业总结
第一次的作业是冯老师布置的练习题,需要在pta平台上完成.我这边看不到结果,但是透过冯老师给出的截图,同学们都还是认真的去做的.同时,我这边也布置了一个持续 3 周的作业:熟悉 git 的使用.因为后 ...
分享我的开源项目-springmore
之前有在博客园分享过springmore,不知道是什么原因,被管理员移除首页在此郑重声明,这是我个人的开源项目,东西不多,也不存在打广告,也没有什么利益可图完全是出于分享的目的,望博客园管理员予以 ...
Word密码破解工具字典攻击用来干什么的
AOPR全称Advanced Office Password Recovery作为一款专业的Word密码破解工具,是通过暴力破解的方式帮助用户迅速恢复各种Word文档的密码,其中常常会用到字典攻击,这 ...
什么是Javascript Hoisting?
Javascript是一门容易遭人误解的语言,但是它的强大毋庸置疑.个人觉得,要想深入理解Javascript语言,首先必须对其基本的概念(例如:Scope,Closure,Hoisting等)要真正 ...
jquery的offset().top 和position().top 详解和如何用js实现
1 jquery定义: offset().top 相对于当前文档的坐标(的高度) ps:包括滚动条卷去的高度 position().top 返回的是相对于其定位的祖辈元素的坐标(的高度) ps:包括滚 ...

Spark集群部署

Spark集群部署的更多相关文章

随机推荐

热门专题