0. 说明

  Spark 集群搭建

  【集群规划】

服务器主机名 ip 节点配置
s101 192.168.23.101 Master
s102 192.168.23.102 Worker
s103 192.168.23.103 Worker
s104 192.168.23.104 Worker

1. Spark 集群搭建

  1.0 前提

  完成 Spark 单节点的安装,参照  Spark 基本概念 & 安装  安装部分

  基于 Hadoop 完全分布式集群

  1.1 配置 JAVA_HOME 环境变量

# 复制 spark-env.sh
cd /soft/spark/conf
cp spark-env.sh.template spark-env.sh # 配置 JAVA_HOME 环境变量
nano spark-env.sh

export JAVA_HOME=/soft/jdk

  1.2 在 Spark 的 conf 目录下创建 Hadoop 的 core-site.xml 和 hdfs-site.xml 符号连接

ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

  1.3 修改 slaves 文件

# 复制 slaves
cd /soft/spark/conf
cp slaves.template slaves # 修改 slaves 文件
nano  slaves

s102
s103
s104

  1.4 分发 Spark

# 分发 Spark 符号链接
xsync.sh /soft/spark
# 分发 Spark 安装目录
xsync.sh /soft/spark-2.1.-bin-hadoop2.

  1.5 分发环境变量

# 切换 root 用户
su root # 分发环境变量配置文件
xsync.sh /etc/profile # 退出 root 用户
exit

  1.6 生效环境变量

# 分别在s102-s104生效环境变量
source /etc/profile

 

2. 启动 Spark 集群

  2.1 启动 ZooKeeper

# 在 s101 执行
xzk.sh start

  2.2 启动 HDFS

start-dfs.sh

  2.3 启动 Spark

# 进入目录
cd /soft/spark/sbin # 启动
./start-all.sh

  2.4 进入 Spark 的 Web UI
  http://s101:8080

  2.5 上传文件到 HDFS 中

  文件内容为以空格分隔的文本。

hdfs dfs -put wc1.txt /

  2.6 启动 spark shell,连接到 Spark 集群

# 启动 spark shell,连接到 Spark 集群
spark-shell --master spark://s101:7077 # 测试
sc.textFile("/wc1.txt").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).collect()

3. 配置 s105 作为 Client [可选]

  【说明】

  配置 s105 作为 Cluster 模式提交 Spark job

  【过程】

  参照以上步骤完成,在有需要的时候配置


Spark 集群搭建的更多相关文章

  1. (四)Spark集群搭建-Java&Python版Spark

    Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...

  2. Spark集群搭建简要

    Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...

  3. Spark集群搭建简配+它到底有多快?【单挑纯C/CPP/HADOOP】

    最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了 ...

  4. Spark集群搭建中的问题

    参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...

  5. Spark集群搭建_Standalone

    2017年3月1日, 星期三 Spark集群搭建_Standalone Driver:    node1    Worker:  node2    Worker:  node3 1.下载安装 下载地址 ...

  6. Spark集群搭建_YARN

    2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone   1.修改spark中conf中的spark-env.sh   2.Spark on ...

  7. spark集群搭建

    文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...

  8. hadoop+spark集群搭建入门

    忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...

  9. Spark集群搭建(local、standalone、yarn)

    Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkP ...

随机推荐

  1. SSL编程(2).NET最简单的客户端

      在Windows平台上,实现SSL的.NET类是System.Net.Security.SslStream类.这个类既可以用于建立SSL服务,也可以用来作为SSL客户端连接远端的SSL服务. 最简 ...

  2. Spark2.1.0——剖析spark-shell

    在<Spark2.1.0——运行环境准备>一文介绍了如何准备基本的Spark运行环境,并在<Spark2.1.0——Spark初体验>一文通过在spark-shell中执行wo ...

  3. U3D Invoke系列函数

    public void Invoke(string methodName, float time) 多少秒后执行某个函数 参数说明: methodName:要执行的函数的名称 time:秒数,time ...

  4. 开启Centos网卡失败的解决办法

    虚拟机安装了Centos,使用ip addr命令查看网卡,但是ens33没有ip地址,按照网上说的,修改ens33网卡的配置文件: vi /etc/sysconfig/network-scripts/ ...

  5. 【PAT 甲级】1151 LCA in a Binary Tree (30 分)

    题目描述 The lowest common ancestor (LCA) of two nodes U and V in a tree is the deepest node that has bo ...

  6. vue项目webpack打包后图片路径错误

    首先项目是vue-cli搭建的,项目结构如下: 然后发现在css里写的图片引用地址在开发时正常显示,但在打包扔上服务器之后报错 报的是404,路径前面多了/static/css,不知道为啥. 在自己慢 ...

  7. java图片压缩(Thumbnails)

    package com.hzxc.groupactivity.server.util; import java.awt.image.BufferedImage; import java.io.*; i ...

  8. Java虚拟机 - 类加载机制

    [深入Java虚拟机]之四:类加载机制 类加载过程     类从被加载到虚拟机内存中开始,到卸载出内存为止,它的整个生命周期包括:加载.验证.准备.解析.初始化.使用和卸载七个阶段.它们开始的顺序如下 ...

  9. nginx配置https转发到tomcat(使用自签名的证书)

    一.使用openSSL生成自签名的证书 1.生成RSA私钥 命令:openssl genrsa -des3 -out server.key 1024 说明:生成rsa私钥,des3算法,1024强度, ...

  10. python-备忘录模式

    源码地址:https://github.com/weilanhanf/PythonDesignPatterns 说明: 一个成熟的软件应当允许用户取消不确定的操作或者从错误的状态中恢复过来.复制,粘体 ...