1. 配置spark

4.1 解压压缩包

[root@centosmv ~]# tar xf spark-2.4.4-bin-without-hadoop.tgz

[root@centosmv ~]# mv spark-2.4.4-bin-without-hadoop /usr/local/spark

说 明:

将spark解压并移动到/usr/local下

4.2 配置spark环境

# cd /usr/local/spark/conf/

# cp -rp spark-env.sh.template spark-env.sh

说 明:

创建spark-env.sh配置文件,并指定scala目录、java目录、hadoop目录及hadoop配置文件目录。

spark-env.sh文件:

export JAVA_HOME=/usr/local/jdk

export HADOOP_HOME=/usr/local/Hadoop

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_CLASSPATH=/usr/local/hadoop/*

export SPARK_MASTER_IP=master

export SPARK_LOCAL_DIRS=/usr/local/spark

export SPARK_WORKER_MEMORY=4G

export SPARK_DRIVER_MEMORY=4G

export SPARK_EXECUTOR_CORES=8

export SPARK_CLASSPATH=/usr/local/spark/extlib/*

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://master:9820/sparkhistorylogs"

export SPARK_MASTER_WEBUI_PORT=28080

export SPARK_DIST_CLASSPATH=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/common/*:/usr/local/hadoop/share/hadoop/common/lib/*:/usr/local/hadoop/share/hadoop/hdfs/*:/usr/local/hadoop/share/hadoop/hdfs/lib/*:/usr/local/hadoop/share/hadoop/mapreduce/*:/usr/local/hadoop/share/hadoop/mapreduce/lib/*:/usr/local/hadoop/share/hadoop/yarn/*:/usr/local/hadoop/share/hadoop/yarn/lib/*

export SCALA_HOME=/usr/local/scala 

编辑环境变量:

[root@WW-JYT-SPA1 bin]# vim /etc/profile

#spark  

export SPARK_HOME=/usr/local/spark

export PATH=${SPARK_HOME}/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

4.3 修改spark配置文件

4.3.1修改slaves配置文件

# cp -rp /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves

说 明:

拷贝该配置文件,放入同层目录下slaves中,修改该文件,将指定worker节点,一行一个节点。

4.3.2修改spark-default.conf配置文件

# cd /usr/local/spark/conf/

# cp -rp spark-defaults.conf.template spark-defaults.conf

# vim spark-defaults.conf

说 明:

创建spark-defaults.conf文件,并配置对应信息,详细配置介绍如下:

  1. spark.master

spark master主节点

  1. spark.serializer

指定序列化机制为kryo,比java默认的序列化机制更加节约空间和CPU性能。

  1. spark.eventLog.enabled/spark.eventLog.dir

记录Spark事件的基本目录,如果spark.eventLog.enabled为true。 在此基本目录中,Spark为每个应用程序创建一个子目录,并在此目录中记录特定于应用程序的事件。 用户可能希望将其设置为统一位置,如HDFS目录,以便历史记录服务器可以读取历史记录文件。可以是hdfs://开头的HDFS路径,也可以是file://开头的本地路径,都需要提前创建。

  1. spark.driver.host

使用属性spark.driver.host来指定yarn-client模式运行中和Yarn通信的DriverHost,此时yarn-client模式可以正常运行

  1. spark.executor.memory

该参数用于设置每个Executor进程的内存。Executor内存的大小,很多时候直接决定了Spark作业的性能

  1. spark.driver.memory

driver进程运行的内存大小。可以在程序代码中通过SparkConf进行设置,也可以在spark-submit中使用--driver-memory进行设置

  1. spark.executor.logs.rolling.maxRetainedFiles

系统保留日志的最大数量,当超限时,旧的日志被删除,默认不启动

  1. spark.executor.logs.rolling.maxSize

日志文件保存策略之-系统保留日志文件的最大大小

  1. spark.yarn.historyServer.address

Spark history server的地址(不要加http://)。这个地址会在Spark应用程序完成后提交给YARN RM,然后RM将信息从RM UI写到history server UI上。

  1. spark.history.fs.logDirectory

用于为历史记录程序提供文件系统,包含要加载的应用程序事件日志的目录URL。 这可以是本地文件路径file://路径,HDFS路径hdfs://namenode:port /shared/spark-logs或Hadoop API支持的备用文件系统的路径。spark.eventLog.dir用于生成日志,spark.history.fs.logDirectory是Spark History Server发现日志事件的位置。

spark-defaults.conf文件内容:

spark.master spark://master:7077

spark.serializer  org.apache.spark.serializer.KryoSerializer

spark.eventLog.enabled           true

#spark.eventLog.dir               /tmp/spark-events

spark.eventLog.dir hdfs://master:9820/sparkhistorylogs

spark.eventLog.compress true

##spark.driver.host                master

spark.executor.memory            4g

spark.driver.memory              4g

spark.port.maxRetries 128

spark.executor.logs.rolling.maxRetainedFiles    100

spark.executor.logs.rolling.maxSize             1g

 

spark.yarn.historyServer.address        master:18080

spark.history.fs.logDirectory           hdfs://master:9820/sparkhistorylogs

 

#spark.buffer.pageSize 16m

spark.sql.tungsten.enabled false

4.4 拷贝配置并修改master配置

scp -rp /usr/local/spark/ slave1:/usr/local/

scp -rp /usr/local/spark/ slave2:/usr/local/

scp -rp /etc/profile slave1:/etc/

scp -rp /etc/profile slave2:/etc/

[root@slave1 ~]# source /etc/profile

[root@slave2 ~]# source /etc/profile

[root@slave3 ~]# source /etc/profile

4.5创建历史日志事件目录及启动集群

 hdfs dfs -mkdir /sparkhistorylogs

 hdfs dfs -ls /

说 明:

创建历史日志事件目录,并查看目录是否创建成功。

/usr/local/spark/sbin/start-all.sh

/usr/local/spark/sbin/start-history-server.sh

jps

说 明:

在master节点处调spark/sbin下的start-all.sh脚本,并在每台机器执行jps命令查看是否调起对应的master/worker进程

注意4040端口占用问题

hadoop部署安装(五)SPARK的更多相关文章

  1. Hadoop教程(五)Hadoop分布式集群部署安装

    Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装 在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...

  2. Hadoop 2.2.0部署安装(笔记,单机安装)

    SSH无密安装与配置 具体配置步骤: ◎ 在root根目录下创建.ssh目录 (必须root用户登录) cd /root & mkdir .ssh chmod 700 .ssh & c ...

  3. Hadoop之中的一个:Hadoop的安装部署

    说到Hadoop不得不说云计算了,我这里大概说说云计算的概念,事实上百度百科里都有,我仅仅是copy过来,好让我的这篇hadoop博客内容不显得那么单调.骨感.云计算近期今年炒的特别火,我也是个刚開始 ...

  4. spark实验(三)--Spark和Hadoop的安装(1)

    一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. ...

  5. 实验 3 Spark 和 Hadoop 的安装

      1.           安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网"实验指南"栏目的"Hadoop 的安装和使用",完成 ...

  6. Hadoop学习---安装部署

    hadoop框架 Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracke ...

  7. _00024 尼娜抹微笑伊拉克_云计算ClouderaManager以及CHD5.1.0群集部署安装文档V1.0

    笔者博文:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...

  8. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

  9. Docker+Redis镜像的原理以及部署安装(超详解附截图)

    文章来源:公众号-智能化IT系统. 一. DOCKER介绍 Docker简介 (1)Docker 是一个开源的应用容器引擎,基于 Go 语言,并遵从Apache2.0协议开源. (2)Docker 可 ...

  10. Hadoop部署方式-完全分布式(Fully-Distributed Mode)

    Hadoop部署方式-完全分布式(Fully-Distributed Mode) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本博客搭建的虚拟机是伪分布式环境(https://w ...

随机推荐

  1. nvme磁盘故障注入方法

    本文分享自天翼云开发者社区<nvme磁盘故障注入方法>,作者:曹****飞 在存储系统中,磁盘的故障是很可能出现的问题.存储软件的设计需要对故障进行处理,提高系统的健壮性.然而磁盘的故障是 ...

  2. 国产AI生态新突破!“息壤”+DeepSeek王炸组合来了!

    2025,国产AI火力全开! 天翼云"息壤"深度适配DeepSeek-R1/V3 实现"国产模型+国产算力+国产云服务" 全产业链闭环 打造国产AI新高度 助力 ...

  3. flutter-构造方法给数组list默认空值

    1 class NewstStyle extends StatelessWidget { 2 final List<DkCenterUpload> upload; 3 const News ...

  4. 让 LLM 来评判 | 奖励模型相关内容

    奖励模型相关内容 这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么 ...

  5. 赶上AI的大潮:在VSCode中使用DeepSeek编程的极简方法

    1 赶上AI的大潮:在VSCode中使用DeepSeek编程的极简方法 1.1 背景   DeepSeek在春节期间突然大行其道,欣喜国力大增的同时,对于普通IT工作者,如何才能享受这一波AI红利,让 ...

  6. 20 分钟高效掌握 cursor

    本身属于在前端小组的一次小分享,这里做个同步分享. 一.pro 权益说明 目前公司购买了 2 个 pro 月付账号,权益包括无限制 tab 补全与 ai 聊天,但每个月只有 500 个快速请求权益,如 ...

  7. CSS 清除内外边距

    网页元素很多都带有默认的内外边距,而且不同的浏览器的默认边距值也不一样.因此我们在布局之前,需要先清楚这些边距. <style> /* 这也是CSS的第一行代码 */ * { margin ...

  8. ATT&CK实战系列(一)

    环境下载 下载靶场环境,并导入虚拟机分别是win2003.win7.winserver2008 配置网络 虚拟机--编辑--虚拟机网络编辑器--添加网络VMnet2--仅主机模式分配的地址是192.1 ...

  9. XYBot:一款功能强大的微信机器人,超多插件等你来玩

    想象一下,拥有一个全能的微信机器人,它能帮你查天气.找新闻,甚至陪你聊天,这一切都不再是梦!XYBot,一款基于docker和pywxdll hook注入技术的微信机器人,让你的微信生活更有趣.更便捷 ...

  10. docker - [12] 镜像发布到DockerHub、阿里云

    题记部分 一.镜像发布到 DockerHub 1.地址:https://hub.docker.com/ 注册自己的账号 2.确定这个账号可以登录 3.在服务器上提交镜像 4.登录之后提交镜像即可. [ ...