从0到1搭建spark集群---企业集群搭建

今天分享一篇从0到1搭建Spark集群的步骤，企业中大家亦可以参照次集群搭建自己的Spark集群。

一。下载Spark安装包

可以从官网下载，本集群选择的版本是spark-1.6.0-bin-hadoop2.6

在官网中找到对应的链接即可http://spark.apache.org/downloads.html

或者用本人云盘下载地址附上链接如下链接：https://pan.baidu.com/s/1o7Vrkue 密码：sc2z

二。部署和规划Spark集群

提前准备好四台虚拟主机，三台主机 node1 node2 node4 做Spark集群 develop做Spark客户端用于提交程序

集群规划如下：

node1 Master节点 node2，node4 Worker节点架构图如下：

在此之前需要配置Master节点到Worker的免密登陆因为在Master节点需要启动所有的Worker节点，所有需要配置Master到Worker的免密登陆只需要这一个免密配置即可不需要配置woker--worker worker-master节点的免密因为主要是在Master节点上启动集群

免密设置具体参考如下：http://blog.csdn.net/leexide/article/details/17252369

1.分别在三台集群下创建同名目录（目录一定要一致，方便集群部署）

本集群环境创建为/root/spark目录

2.使用Xshell将文件上传至其中某个节点即可（没有必要上传全部节点，因为后期还要重新配置）

上传至某个节点之后，假设上传到主节点Master节点后

3.解压目录，命令和结构如下

tar -zxf spark-1.6.0-bin-hadoop2.6.tar

然后重命名方便后期部署

mv spark-1.6.0-bin-hadoop2.6 spark-1.6.0

结构如下：

4.配置参数

进入到配置目录，路径为

/root/spark/spark-1.6.0/conf

后可看见文件如下

我们需要把template关键字去掉因为是个模板文件简单介绍下文件作用：

slaves文件---worker几点所在目录

spark-default.conf目录文件默认配置文件

spark-env.sh环境配置文件

这几个是我们主要用的

更改后的目录文件格式如下：

配置spark-env.sh

可以看到集群配置参数如下，我们主要配置这些参数

配置完后的截图如下：

解释一下参数意义：

SPARK_MASTER_IP=node1 #主节点主机名

SPARK_MASTER_PORT=7077 #主节点和Worker的通信端口

SPARK_WORKER_CORES=2 # 每个worker进程能管理两个核

SPARK_WORKER_MEMORY=2g # 每个worker进程能管理2g内存

SPARK_MASTER_WEBUI_PORT=8888 # 主节点WEB-UI展示图默认端口是8080

SPARK_WORKER_INSTANCES=1 #每个worker节点能够启动的worker进程默认是一个如果为2 则每一个worker几点能够启动2个Worker进程就这意思

根据这配置则 Master节点能够管路4core 4g内存（有两个Worker进程每一个worker进程管理两个核，2g内存）

配置slaves文件：配置从节点的ip 或主机名

截图如下

5.将主节点的配置分发到从节点同名目录下

命令如下:

回到spark的主目录配置文件

然后分发到node2 node4节点这里命令如下`pwd`即到当前目录

6、启动Spark集群：
执行安装包sbin目录下的start-all.sh脚本
./sbin/start-all.sh

7.查看集群状态

jps命令为jvm的命令与局之一专门查看java进程

Master节点状态：

Worker节点状态：

查看WEBUI是否能访问：

注意关闭Linux的防火墙：具体操作如下

/etc/init.d/iptables status

会得到一系列信息，说明防火墙开着。

/etc/init.d/iptables stop

永久关闭:

chkconfig --level 35 iptables off

在本机访问node1:8888（别忘配置host）

至此，集群搭建成功！

8.测试集群是否可用

将主节点中的spark文件同步到客户端develop节点

在develop节点中提交spark任务，由于本例测试所以直接提交spark自带测试用例计算Pi的值

注意别忘配置Client(develop)客户端的host 因为要提交任务到Master节点（node1）节点上去运行

即可看见运行状态

在WebUI也可以看见

到此集群测试完毕!!!

持续更新中。。。。，欢迎大家关注我的公众号LHWorld.

从0到1搭建spark集群---企业集群搭建的更多相关文章

沉淀，再出发——在Hadoop集群的基础上搭建Spark
在Hadoop集群的基础上搭建Spark 一.环境准备在搭建Spark环境之前必须搭建Hadoop平台,尽管以前的一些博客上说在单机的环境下使用本地FS不用搭建Hadoop集群,可是在新版spark ...
搭建Spark的单机版集群
一.创建用户 # useradd spark # passwd spark 二.下载软件 JDK,Scala,SBT,Maven 版本信息如下: JDK jdk-7u79-linux-x64.gz S ...
实验室中搭建Spark集群和PyCUDA开发环境
1.安装CUDA 1.1安装前工作 1.1.1选取实验器材实验中的每台计算机均装有双系统.选择其中一台计算机作为master节点,配置有GeForce GTX 650显卡,拥有384个CUDA核心. ...
(一) 从零开始搭建Spark Standalone集群环境搭建
本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64 ...
spark-2.2.0安装和部署——Spark集群学习日记
前言在安装后hadoop之后,接下来需要安装的就是Spark. scala-2.11.7下载与安装具体步骤参见上一篇博文 Spark下载为了方便,我直接是进入到了/usr/local文件夹下面进 ...
【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
搭建spark集群
搭建spark集群 spark1.6和hadoop2.61.准备hadoop环境:2.准备下载包:3.解压安装包:tar -xf spark-1.6.0-bin-hadoop2.6.tgz4.修改配置 ...
基于 ZooKeeper 搭建 Spark 高可用集群
一.集群规划二.前置条件三.Spark集群搭建 3.1 下载解压 3.2 配置环境变量 3.3 集群配置 3.4 安装包分发四.启 ...
Spark学习之路（七）—— 基于ZooKeeper搭建Spark高可用集群
一.集群规划这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务.同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop00 ...

随机推荐

AndroidStudio下gradle的入门介绍与使用
參考: 网易云加密:http://apk.aq.163.com 网易云捕:http://crash.163.com 1 Groovy Groovy 是没有类型的 Java 代码 ,语法更简洁.形式有点 ...
7、创建ROS msg和srv
一.msg和srv介绍 msg: msg文件使用简单的文本格式声明一个ROS message的各个域. 仅须要创建一个msg文件,就能够使用它来生成不同语言的message定义代码. srv:srv文 ...
Spring之AOP实现面向切面编程
近期在学Java的动态代理和Spring面向切面编程,越来越认为Spring设计的真的是太完美了.于是,想一个最简单的样例来跑一下.但问题多多,显示缺少,Aspectj里面的相应的类.导入Aspect ...
Vboxmanage改动uuid报错的解决的方法
我的环境: Virtualbox 4.3.10 r93012 操作系统:win7 问题:Virtualbox在使用拷贝的虚拟盘时会提示uuid冲突: Because a hard disk with ...
DocFX生成PDF文档
使用DocFX生成PDF文档,将在线文档转换为PDF离线文档. 关于DocFX的简单介绍使用DocFX生成文档使用docfx 命令 1.下载 https://github.com/dotnet/do ...
【Sqlserver系列】【转载】事物与锁
1 概述本篇文章简要对事物与锁的分析比较详细,因此就转载了. 2 具体内容并发可以定义为多个进程同时访问或修改共享数据的能力.处于活动状态而互不干涉的并发用户进程的数量越多,数据库系统的并 ...
ML01 机器学习后利用混淆矩阵Confusion matrix 进行结果分析
目标: 快速理解什么是混淆矩阵, 混淆矩阵是用来干嘛的. 首先理解什么是confusion matrix 看定义,在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是 ...
移动浏览器H5页面通过scheme打开本地应用
在移动端浏览器H5页面中,点击按钮打开本地应用主要通过 scheme 协议.本文主要介绍如何在浏览器H5页面中通过 scheme 协议打开本地应用. scheme协议定义 scheme 是一种页面之间 ...
django的CMS系统（内容管理系统）
一.什么是CMS系统 CMS具有许多基于模板的优秀设计,可以减少开发的成本. CMS的功能并不只限于文本处理,它也可以处理图片.Flash动画.声像流.图像甚至电子邮件档案. CMS还分各个平台脚本种 ...
小程序代码包压缩策略&方案
微信小程序自推出以来,逐渐发展,目前正受到越来越多的青睐.其中很重要的一点得益于小程序的轻量级特性,每个小程序最多不超过2MB,招之即来挥之即去,相比于几十上百兆的APP,用户进入小程序,或者说,小程 ...

从0到1搭建spark集群---企业集群搭建

从0到1搭建spark集群---企业集群搭建的更多相关文章

随机推荐

热门专题