hadoop部署安装(五)SPARK
1. 配置spark
4.1 解压压缩包
[root@centosmv ~]# tar xf spark-2.4.4-bin-without-hadoop.tgz
[root@centosmv ~]# mv spark-2.4.4-bin-without-hadoop /usr/local/spark
说 明:
将spark解压并移动到/usr/local下
4.2 配置spark环境
# cd /usr/local/spark/conf/
# cp -rp spark-env.sh.template spark-env.sh
说 明:
创建spark-env.sh配置文件,并指定scala目录、java目录、hadoop目录及hadoop配置文件目录。
spark-env.sh文件:
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/Hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=/usr/local/hadoop/*
export SPARK_MASTER_IP=master
export SPARK_LOCAL_DIRS=/usr/local/spark
export SPARK_WORKER_MEMORY=4G
export SPARK_DRIVER_MEMORY=4G
export SPARK_EXECUTOR_CORES=8
export SPARK_CLASSPATH=/usr/local/spark/extlib/*
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://master:9820/sparkhistorylogs"
export SPARK_MASTER_WEBUI_PORT=28080
export SPARK_DIST_CLASSPATH=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/common/*:/usr/local/hadoop/share/hadoop/common/lib/*:/usr/local/hadoop/share/hadoop/hdfs/*:/usr/local/hadoop/share/hadoop/hdfs/lib/*:/usr/local/hadoop/share/hadoop/mapreduce/*:/usr/local/hadoop/share/hadoop/mapreduce/lib/*:/usr/local/hadoop/share/hadoop/yarn/*:/usr/local/hadoop/share/hadoop/yarn/lib/*
export SCALA_HOME=/usr/local/scala
编辑环境变量:
[root@WW-JYT-SPA1 bin]# vim /etc/profile
#spark
export SPARK_HOME=/usr/local/spark
export PATH=${SPARK_HOME}/bin:$PATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native
4.3 修改spark配置文件
4.3.1修改slaves配置文件
# cp -rp /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves
说 明:
拷贝该配置文件,放入同层目录下slaves中,修改该文件,将指定worker节点,一行一个节点。
4.3.2修改spark-default.conf配置文件
# cd /usr/local/spark/conf/
# cp -rp spark-defaults.conf.template spark-defaults.conf
# vim spark-defaults.conf
说 明:
创建spark-defaults.conf文件,并配置对应信息,详细配置介绍如下:
- spark.master
spark master主节点
- spark.serializer
指定序列化机制为kryo,比java默认的序列化机制更加节约空间和CPU性能。
- spark.eventLog.enabled/spark.eventLog.dir
记录Spark事件的基本目录,如果spark.eventLog.enabled为true。 在此基本目录中,Spark为每个应用程序创建一个子目录,并在此目录中记录特定于应用程序的事件。 用户可能希望将其设置为统一位置,如HDFS目录,以便历史记录服务器可以读取历史记录文件。可以是hdfs://开头的HDFS路径,也可以是file://开头的本地路径,都需要提前创建。
- spark.driver.host
使用属性spark.driver.host来指定yarn-client模式运行中和Yarn通信的DriverHost,此时yarn-client模式可以正常运行
- spark.executor.memory
该参数用于设置每个Executor进程的内存。Executor内存的大小,很多时候直接决定了Spark作业的性能
- spark.driver.memory
driver进程运行的内存大小。可以在程序代码中通过SparkConf进行设置,也可以在spark-submit中使用--driver-memory进行设置
- spark.executor.logs.rolling.maxRetainedFiles
系统保留日志的最大数量,当超限时,旧的日志被删除,默认不启动
- spark.executor.logs.rolling.maxSize
日志文件保存策略之-系统保留日志文件的最大大小
- spark.yarn.historyServer.address
Spark history server的地址(不要加http://)。这个地址会在Spark应用程序完成后提交给YARN RM,然后RM将信息从RM UI写到history server UI上。
- spark.history.fs.logDirectory
用于为历史记录程序提供文件系统,包含要加载的应用程序事件日志的目录URL。 这可以是本地文件路径file://路径,HDFS路径hdfs://namenode:port /shared/spark-logs或Hadoop API支持的备用文件系统的路径。spark.eventLog.dir用于生成日志,spark.history.fs.logDirectory是Spark History Server发现日志事件的位置。
spark-defaults.conf文件内容:
spark.master spark://master:7077
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.eventLog.enabled true
#spark.eventLog.dir /tmp/spark-events
spark.eventLog.dir hdfs://master:9820/sparkhistorylogs
spark.eventLog.compress true
##spark.driver.host master
spark.executor.memory 4g
spark.driver.memory 4g
spark.port.maxRetries 128
spark.executor.logs.rolling.maxRetainedFiles 100
spark.executor.logs.rolling.maxSize 1g
spark.yarn.historyServer.address master:18080
spark.history.fs.logDirectory hdfs://master:9820/sparkhistorylogs
#spark.buffer.pageSize 16m
spark.sql.tungsten.enabled false
4.4 拷贝配置并修改master配置
scp -rp /usr/local/spark/ slave1:/usr/local/
scp -rp /usr/local/spark/ slave2:/usr/local/
scp -rp /etc/profile slave1:/etc/
scp -rp /etc/profile slave2:/etc/
[root@slave1 ~]# source /etc/profile
[root@slave2 ~]# source /etc/profile
[root@slave3 ~]# source /etc/profile
4.5创建历史日志事件目录及启动集群
hdfs dfs -mkdir /sparkhistorylogs
hdfs dfs -ls /
说 明:
创建历史日志事件目录,并查看目录是否创建成功。
/usr/local/spark/sbin/start-all.sh
/usr/local/spark/sbin/start-history-server.sh
jps
说 明:
在master节点处调spark/sbin下的start-all.sh脚本,并在每台机器执行jps命令查看是否调起对应的master/worker进程
注意4040端口占用问题
hadoop部署安装(五)SPARK的更多相关文章
- Hadoop教程(五)Hadoop分布式集群部署安装
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装 在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...
- Hadoop 2.2.0部署安装(笔记,单机安装)
SSH无密安装与配置 具体配置步骤: ◎ 在root根目录下创建.ssh目录 (必须root用户登录) cd /root & mkdir .ssh chmod 700 .ssh & c ...
- Hadoop之中的一个:Hadoop的安装部署
说到Hadoop不得不说云计算了,我这里大概说说云计算的概念,事实上百度百科里都有,我仅仅是copy过来,好让我的这篇hadoop博客内容不显得那么单调.骨感.云计算近期今年炒的特别火,我也是个刚開始 ...
- spark实验(三)--Spark和Hadoop的安装(1)
一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. ...
- 实验 3 Spark 和 Hadoop 的安装
1. 安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网"实验指南"栏目的"Hadoop 的安装和使用",完成 ...
- Hadoop学习---安装部署
hadoop框架 Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracke ...
- _00024 尼娜抹微笑伊拉克_云计算ClouderaManager以及CHD5.1.0群集部署安装文档V1.0
笔者博文:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...
- 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
- Docker+Redis镜像的原理以及部署安装(超详解附截图)
文章来源:公众号-智能化IT系统. 一. DOCKER介绍 Docker简介 (1)Docker 是一个开源的应用容器引擎,基于 Go 语言,并遵从Apache2.0协议开源. (2)Docker 可 ...
- Hadoop部署方式-完全分布式(Fully-Distributed Mode)
Hadoop部署方式-完全分布式(Fully-Distributed Mode) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本博客搭建的虚拟机是伪分布式环境(https://w ...
随机推荐
- 玩转云端|天翼云边缘安全加速平台AccessOne实用窍门之保障热门产品发售服务安全稳定
本文分享自天翼云开发者社区<玩转云端|天翼云边缘安全加速平台AccessOne实用窍门之保障热门产品发售服务安全稳定>,作者:天翼云社区官方账号 随着社会经济的发展和人民生活水平的提高,越 ...
- 文本处理命令head tail more less tr cut paste wc
文本处理命令 命令**head tail more less tr cut paste wc** 磁盘分区利用率 df|tr -s ' ' :|cut -d : -f5 df|tr -s ' ' :| ...
- HT-018 Div3 能量消耗 题解 [ 绿 ] [ 线性 dp ] [ 前缀和优化 ]
能量消耗:一个前缀和优化 dp 的大典题,要是数据水一点 \(O(n^3)\) 都能硬草过去. 思路 显然,定义 \(dp[i]\) 为考虑前 \(i\) 个塔,并且将第 \(i\) 个塔开启,将前面 ...
- kvm virtio window server2003
https://www.linux-kvm.org/page/Downloads 这是kvm官网对virtio讲解 http://www.linux-kvm.org/images/d/dd/KvmFo ...
- 百万架构师第三十七课:RabbitMq:高可用集群搭建步骤|JavaGuide
安装环境 Centos-7 三台虚拟机 192.168.8.150(磁盘节点) 192.168.8.45 (内存节点) 192.168.8.40 (内存节点) 一.安装Erlang 1.erlang ...
- 你的边比较松弛:最短路的 Bellman-Ford 和 SPFA 方法
Dijkstra 的局限性 在带权图的最短路径问题中,我们的目标是从一个起点出发,找到到达其他所有节点的最短路径.无论是交通导航中的最短耗时路线,还是金融网络中的最小成本路径,这一问题的核心始终是如何 ...
- 实战AI大模型辅助编程:新安江水文模型和SCE-UA优化算法的移植与实现
新安江水文模型与 SCE-UA 优化算法是水文学和水资源管理领域的重要工具,二者结合使用可以有效模拟流域的水文过程并优化模型参数. 新安江水文模型是一种概念性水文模型,主要用于模拟流域的降雨-径流关系 ...
- 零基础使用AI辅助编写易简历小程序的一些心得体会
春节期间利用了一点时间体验了Copilot开发了一个小程序,先说结论: AI只是AI,并不能取代程序员. 你能做的,AI能做的更快:你不能做的,AI就大概率会糊弄你. 开发小程序的背景就是本身有一个易 ...
- Java中List通过Lambda实现排序
目录 1.正常排序,1,2,3 2.倒序 3,2,1 1.正常排序,1,2,3 list=list.stream().sorted(Comparator.comparing(VipCardVo::ge ...
- Ruoyi-vue 左侧菜单栏默认保持收缩
在项目的 src\store\modules\app.js 路径下 sidebar: { opened: Cookies.get('sidebarStatus') ? !!+Cookies.get(' ...