Spark 集群搭建
0. 说明
Spark 集群搭建
【集群规划】
| 服务器主机名 | ip | 节点配置 |
| s101 | 192.168.23.101 | Master |
| s102 | 192.168.23.102 | Worker |
| s103 | 192.168.23.103 | Worker |
| s104 | 192.168.23.104 | Worker |
1. Spark 集群搭建
1.0 前提
完成 Spark 单节点的安装,参照 Spark 基本概念 & 安装 安装部分
基于 Hadoop 完全分布式集群
1.1 配置 JAVA_HOME 环境变量
# 复制 spark-env.sh
cd /soft/spark/conf
cp spark-env.sh.template spark-env.sh # 配置 JAVA_HOME 环境变量
nano spark-env.sh export JAVA_HOME=/soft/jdk
1.2 在 Spark 的 conf 目录下创建 Hadoop 的 core-site.xml 和 hdfs-site.xml 符号连接
ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml
1.3 修改 slaves 文件
# 复制 slaves
cd /soft/spark/conf
cp slaves.template slaves # 修改 slaves 文件
nano slaves s102
s103
s104
1.4 分发 Spark
# 分发 Spark 符号链接
xsync.sh /soft/spark
# 分发 Spark 安装目录
xsync.sh /soft/spark-2.1.-bin-hadoop2.
1.5 分发环境变量
# 切换 root 用户
su root # 分发环境变量配置文件
xsync.sh /etc/profile # 退出 root 用户
exit
1.6 生效环境变量
# 分别在s102-s104生效环境变量
source /etc/profile
2. 启动 Spark 集群
2.1 启动 ZooKeeper
# 在 s101 执行
xzk.sh start
2.2 启动 HDFS
start-dfs.sh
2.3 启动 Spark
# 进入目录
cd /soft/spark/sbin # 启动
./start-all.sh
2.4 进入 Spark 的 Web UI
http://s101:8080
2.5 上传文件到 HDFS 中
文件内容为以空格分隔的文本。
hdfs dfs -put wc1.txt /
2.6 启动 spark shell,连接到 Spark 集群
# 启动 spark shell,连接到 Spark 集群
spark-shell --master spark://s101:7077 # 测试
sc.textFile("/wc1.txt").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).collect()
3. 配置 s105 作为 Client [可选]
【说明】
配置 s105 作为 Cluster 模式提交 Spark job
【过程】
参照以上步骤完成,在有需要的时候配置
Spark 集群搭建的更多相关文章
- (四)Spark集群搭建-Java&Python版Spark
Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
- Spark集群搭建简要
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...
- Spark集群搭建简配+它到底有多快?【单挑纯C/CPP/HADOOP】
最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了 ...
- Spark集群搭建中的问题
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...
- Spark集群搭建_Standalone
2017年3月1日, 星期三 Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安装 下载地址 ...
- Spark集群搭建_YARN
2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh 2.Spark on ...
- spark集群搭建
文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...
- hadoop+spark集群搭建入门
忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...
- Spark集群搭建(local、standalone、yarn)
Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkP ...
随机推荐
- mysql 解决 timestamp 的2038问题
当 timestamp 存储的时间大于 '2038-01-19 03:14:07' UTC,mysql就会报错,因为这是 mysql自身的问题,也就是说 timestamp是有上限的,超过了,自然会报 ...
- [JSOI 2007]字符加密Cipher
Description 题库链接 给你一个长度为 \(n\) 的字符串,首尾相接依次断开每个断点可以得到 \(n\) 个长度为 \(n\) 的字符串,将其排序按序输出每个字符串的最后一个字母. \(1 ...
- Netty 核心组件 EventLoop 源码解析
前言 在前文 Netty 启动过程源码分析 (本文超长慎读)(基于4.1.23) 中,我们分析了整个服务器端的启动过程.在那篇文章中,我们重点关注了启动过程,而在启动过程中对核心组件并没有进行详细介绍 ...
- 记一次Java AES 加解密 对应C# AES加解密 的一波三折
最近在跟三方对接 对方采用AES加解密 作为一个资深neter Ctrl CV 是我最大的优点 所以我义正言辞的问他们要了demo java demo代码: public class EncryptD ...
- Tomcat7.0安装配置详细(图文)
说明:Tomcat服务器上一个符合J2EE标准的Web服务器,在tomcat中无法运行EJB程序,如果要运行可以选择能够运行EJB程序的容器WebLogic,WebSphere,Jboss等Tomca ...
- [日常] Go语言圣经--Map习题
练习 4.8: 修改charcount程序,使用unicode.IsLetter等相关的函数,统计字母.数字等Unicode中不同的字符类别. 练习 4.9: 编写一个程序wordfreq程序,报告输 ...
- Java基础——Servlet(五)
哈哈哈...学习Servlet学了半个多月,因为中间有比较灰心的时候,有几天是啥都不学了的状态,看了好几部励志的电影.呃~还是得继续吧.本来计划是好好夯实这里的基础,结果在网找到了介绍比较全面的视频, ...
- Java - TreeSet源码解析
Java提高篇(二八)------TreeSet 与HashSet是基于HashMap实现一样,TreeSet同样是基于TreeMap实现的.在<Java提高篇(二七)-----TreeMap& ...
- python变量作用域,函数与传参
一.元组传值: 一般情况下函数传递参数是1对1,这里x,y是2个参数,按道理要传2个参数,如果直接传递元祖,其实是传递一个参数 >>> def show( x, y ): ... p ...
- JS中深浅拷贝 函数封装代码
一.了解 基本数据类型保存在栈内存中,按值访问,引用数据类型保存在堆内存中,按址访问. 二.浅拷贝 浅拷贝只是复制了指向某个对象的指针,而不是复制对象本身,新旧对象其实是同一内存地址的数据,修改其中一 ...