spark-2.4.5 安装记录
参考 https://data-flair.training/blogs/install-apache-spark-multi-node-cluster/
下载 spark
地址为
http://spark.apache.org/downloads.html
准备三个节点
192.168.1.1 [hostname] master
192.168.1.2 [hostname] slave1
192.168.1.3 [hostname] slave2
将以上配置 append 到 三个节点机器上的 /etc/hosts 中。由于我这里三台机器的 domain 均不同,所以设置了 [hostname],例如 master 节点的为
192.168.1.1 xxx.localdomain master
查看主机名方法为,
$ hostname
如果最后启动spark 报错 unknown hostname,一般就是指主机名未设置,此时通过
$ hostname -i
发现会报同样的错误。
安装步骤:
一、设置 ssh 免密登录
如果没有安装 ssh,则需要安装
sudo apt install openssh-server
三台机器上均执行
ssh-keygen -t rsa
一路回车,使用默认设置(密钥文件路径和文件名)
将 slave1 slave2 上面的 ~/.ssh/id_rsa.pub 文件 拷贝到 master 节点上,
scp ~/.ssh/id_rsa.pub xxx@master:~/.ssh/id_rsa.pub.slave1
scp ~/.ssh/id_rsa.pub xxx@master:~/.ssh/id_rsa.pub.slave2
注意,xxx 表示用户名,这三台机器上最好使用相同的用户名,如需要,可创建用户
adduser xxx # 创建新用户 xxx
passwd xxx # 给 xxx 设置密码
在 master 上执行
cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys xxx@slave1:~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys xxx@slave2:~/.ssh/authorized_keys
在 master 上验证无密码登录
ssh slave1
ssh slave2
在 slave1/slave2 上也可以无密码登录其他两个节点。
注意:.ssh 文件夹的权限必须为 700, authorized_keys 文件权限必须为 600(其他权限值可能均不奏效),修改权限使用
chmod ~/.ssh
chmod ~/.ssh/authorized_keys
二、安装jdk ,scala,spark
省略,spark 的安装仅仅是将上面下载的文件解压即可。注意配置环境变量
export JAVA_HOME=...
export SCALA_HOME=...
export SPARK_HOME=...
export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$PATH
在 master 节点上,进入 SPARK_HOME 下的 conf 目录,
cd conf
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
编辑 slaves 文件
# localhost
slave1
slave2
编辑 spark-env.sh 文件
export JAVA_HOME=...
export SPARK_WORKER_CORES=
在 slave1 和 slave2 上,执行同样的操作。
注意:spark 目录最好在三台节点上保持相同,即 环境变量 SPARK_HOME 相同
三、启动集群
在 master 节点上执行
sbin/start-all.sh
关闭集群则执行
sbin/stop-all.sh
启动后,可以在 master 或 slave1/slave2 上执行 jps 以查看 java 进程。查看 web 界面,地址为
http://MASTER-IP:8080/
如果发现 worker 节点连接不是 master,报错如下
Caused by: java.io.IOException: Connecting to : timed out ( ms)
...
org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$$$anon$.run
...
那么需要在 三台机器上的 $SPARK_HOME/conf/spark-env.sh 添加
export SPARK_MASTER_HOST=<master ip>
然后重新执行
sbin/start-all.sh
最终web 管理界面为

点击 worker id 下的某个worker,跳转至 worker web 页面,如果此时出现连接失败,请检查 防火墙是否开通,执行如下
sudo firewall-cmd --query-port=/tcp # 返回yes or no,表示是否开放
sudo firewall-cmd --zone=public --add-port=80/tcp --permanent # 添加白名单
sudo firewall-cmd --reload # 重新装置规则
sudo firewall-cmd --query-port=8081/tcp
如果检查 8081 端口已经开放,仍然打不开 worker web 界面,则执行
sudo iptables -F
spark-2.4.5 安装记录的更多相关文章
- spark的standlone模式安装和application 提交
spark的standlone模式安装 安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交. require:提前安装好jdk 1.7.0_80 :scal ...
- 分布式监控系统Zabbix-3.0.3-完整安装记录(7)-使用percona监控MySQL
前面已经介绍了分布式监控系统Zabbix-3.0.3-完整安装记录(2)-添加mysql监控,但是没有提供可以直接使用的Key,太过简陋,监控效果不佳.要想更加仔细的监控Mysql,业内同学们都会选择 ...
- 关于node.js和npm,cnpm的安装记录以及gulp自动构建工具的使用
关于node.js和npm,cnpm的安装记录以及gulp自动构建工具的使用 工作环境:window下 在一切的最开始,安装node.js (中文站,更新比较慢http://nodejs.cn/) ...
- sourceinsight安装记录
sourceinsight安装记录 此文章为本人使用sourceinsight一个星期之后的相关设置步骤记录和经验记录,以备以后查验,网上的相关资料都也较为完善,但是对于新手还是有一定困难的,所以在这 ...
- openerp安装记录及postgresql数据库问题解决
ubuntu-14.04下openerp安装记录1.安装PostgreSQL 数据库 a.安装 sudo apt-get install postgresql 安装后ubu ...
- Matlab安装记录 - LED Control Activex控件安装
Matlab安装记录-LED Control Activex控件安装 2013-12-01 22:06:36 最近在研究Matlab GUI技术,准备用于制作上位机程序:在Matlab GUI的技术 ...
- Arch Linux 安装记录
Arch Linux 安装记录 基本上参考wiki上的新手指南,使用arch 2014.6.1 iso安装 设置网络 有线网络 Arch Linux 默认开启DHCP. 静态ip 首先关闭DHCP:s ...
- redis5.0.3单实例简单安装记录
redis5.0.3单实例简单安装记录 日常需要测试使用,索性记录下来,免得临时又麻烦的找资料. yum -y install make gcc-c++ cmake bison-devel ncurs ...
- mysql5.7安装记录
mysql安装记录 版本5.7 windows系统 一.缺少my.ini文件 [mysql]# 设置mysql客户端默认字符集default-character-set=utf8 [mysqld]#设 ...
- Liunx/RHEL6.5 Oracle11 安装记录
1.创建用户组 groupadd oinstall #创建用户组oinstall groupadd dba #创建用户组dba useradd -g oinstall -g dba -m oracle ...
随机推荐
- stand up meeting 11/24/2015
part 组员 今日工作 工作耗时/h 明日计划 计划耗时/h 词典接口及数据转换 冯晓云 规范在线查词的各项请求,将返回结果解析成树状,并定义完成各种操作以方便其他部分完成调用,排序,增删等操作 3 ...
- G. 蚂蚁的镜像串
单点时限: 1.0 sec 内存限制: 512 MB 一只聪明的蚂蚁在学习了回文串之后,一直觉得回文串不够优美,所以它决定自己定义一种新的字符串——镜像串 所谓镜像串,就是对一个字符串进行一整个完全的 ...
- 落谷 P1734 最大约数和
题目描述 选取和不超过S的若干个不同的正整数,使得所有数的约数(不含它本身)之和最大. 输入格式 输入一个正整数S. 输出格式 输出最大的约数之和. 输入输出样例 输入 #1复制 11 输出 #1复制 ...
- 阿里面试官让我实现一个线程安全并且可以设置过期时间的LRU缓存,我蒙了!
目录 1. LRU 缓存介绍 2. ConcurrentLinkedQueue简单介绍 3. ReadWriteLock简单介绍 4.ScheduledExecutorService 简单介绍 5. ...
- ASP.Net内置对象之网页之间传参(一)
Response对象 主要运用于数据从服务器发送到浏览器,可以输出数据.页面跳转.各个网页之间传参数等操作. 以下讲解几个常用例子: 在页面中输出数据 主要通过Write .WriteFile方法输出 ...
- 微信小程序基本知识
逻辑实现 1 使用动态数据展示列表(可以考虑使用wx:for属性配合动态数组渲染全部列表项,以减少WXML页面的代码量) eg: <view class='listGroup' wx:for= ...
- 设计模式 - 命令模式详解及其在JdbcTemplate中的应用
基本介绍 在软件设计中,我们经常需要向某些对象发送一些请求,但是并不知道请求的接收者是谁,也不知道被请求的操作是哪个,我们只需要在程序运行时指定具体的请求接收者即可,此时,可以使用命令模式来设计,使得 ...
- word2sequence 把字符串转换数字编码
地址:http://ai.stanford.edu/~amaas/data/sentiment/,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条. 1.准备数据 d ...
- 关于如何在Linux上使用Nugix反向代理部署net core3.1项目
本文意在教大家如何在Linux上部署net core web项目,本人通过实践已经成功可以通过外网访问我部署在阿里云服务器上的站点. 一:需要用到的东西如下: 1:一个基于net core框架下的we ...
- 20199326《Linux内核原理与分析》第十二周作业
Collabtive系统跨站请求伪造攻击实验 实验背景 CSRF(Cross-site request forgery),中文名称:跨站请求伪造,也被称为:one click attack/sessi ...