配置spark历史服务(spark二)

1. 编辑spark-defaults.conf位置文件

添加spark.eventLog.enabled和spark.eventLog.dir的配置
修改spark.eventLog.dir为我们之前在hdfs配置的端口
hdfs配置参考hadoop(七)集群配置同步（hadoop完全分布式四）|9

[shaozhiqi@hadoop102 conf]$ pwd

/opt/module/spark-2.4.3-bin-hadoop2.7/conf

[shaozhiqi@hadoop102 conf]$ vim spark-defaults.conf

# spark.master spark://master:7077

# spark.eventLog.enabled true

# spark.eventLog.dir hdfs://namenode:8021/directory

# spark.serializer org.apache.spark.serializer.KryoSerializer

# spark.driver.memory 5g

# spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop102:9000/directory

2. 分发我们conf修改的配置文件

分发配置参考hadoop(六)rsync远程同步|xsync集群分发(完全分布式准备三)|8

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ testxsync conf/

找个机器看下是否同步成功

[shaozhiqi@hadoop103 spark-2.4.3-bin-hadoop2.7]$ cd conf

[shaozhiqi@hadoop103 conf]$ cat spark-defaults.conf

# spark.master spark://master:7077

# spark.eventLog.enabled true

# spark.eventLog.dir     hdfs://namenode:8021/directory

# spark.serializer org.apache.spark.serializer.KryoSerializer

# spark.driver.memory 5g

# spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop102:9000/directory

[shaozhiqi@hadoop103 conf]$

3. 启动我们的hdfs

防止启动报错，先删除data logs 然后格式化namenode
bin/hdfs namenode –format

[shaozhiqi@hadoop102 hadoop-3.1.2]$ start-dfs.sh

启动成功，查看进程

[shaozhiqi@hadoop102 hadoop-3.1.2]$ start-dfs.sh

Starting namenodes on [hadoop102]

Starting datanodes

hadoop103: WARNING: /opt/module/hadoop-3.1.2/logs does not exist. Creating.

hadoop104: WARNING: /opt/module/hadoop-3.1.2/logs does not exist. Creating.

Starting secondary namenodes [hadoop104]

[shaozhiqi@hadoop102 hadoop-3.1.2]$ jps

3088 Master

3168 Worker

4452 Jps

3366 CoarseGrainedExecutorBackend

4200 DataNode

4076 NameNode

3773 GetConf

[shaozhiqi@hadoop102 hadoop-3.1.2]$

Yarn等我们提交任务到yarn时再启动

4. 查看我们的hdfs namenode ui

image.png

5. 创建hdfs文件夹，和我们上面配置的spark-defaults.conf中的一样

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ hadoop fs -mkdir /directory

再次查看：

image.png

6. 再次修改spark-env.sh添加历史服务参数

[shaozhiqi@hadoop102 conf]$ vi spark-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

export SPARK_MASTER_HOS=hadoop102

export SPARK_MASTER_PORT=7077

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

7. 同步我们的spark-env.sh

shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ testxsync conf/spark-env.sh

8. 执行一个spark进程

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ bin/spark-submit \

> --class org.apache.spark.examples.SparkPi \

> --master spark://hadoop102:7077 \

> --executor-memory 1G \

> --total-executor-cores 2 \

> ./examples/jars/spark-examples_2.11-2.4.3.jar \

> 100

9. 查看spark ui多了我们的进程

image.png

点击spark pi进程，由于我们的任务还在执行，可以直接跳转

image.png

10. 发现好久都没有执行完看下日志

19/07/01 07:15:53 WARN TaskSchedulerImpl:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

难道是没有资源了？
点击kill掉spark shell和我们的spark Pi,然后单独提交spark Pi任务试下

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ bin/spark-submit \

> --class org.apache.spark.examples.SparkPi \

> --master spark://hadoop102:7077 \

> --executor-memory 1G \

> --total-executor-cores 2 \

> ./examples/jars/spark-examples_2.11-2.4.3.jar \

> 100

image.png

可以看到50多秒句结束了
当任务执行结束现在去访问spark 的4000，发现发问不了

11. 开启历史服务就可以访问已结束的任务了

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ sbin/start-history-server.sh

starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark-2.4.3-bin-hadoop2.7/logs/spark-shaozhiqi-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ jps

可以看到多了HistoryServer

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ jps

3505 Worker

4708 HistoryServer

4775 Jps

4027 DataNode

3437 Master

3901 NameNode

[shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$

12. 访问history ui,成功

image.png

13. 查看hdfsz有无生成执行结果文件

文件已生成历史服务配置成功

image.png

配置spark历史服务(spark二)的更多相关文章

Azure HDInsight 和 Spark 大数据实战(二)
HDInsight cluster on Linux 登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DAT ...
WSL2+Ubuntu配置Java Maven Hadoop Spark环境
所需文件: 更新日期为2021/5/8: Linux 内核更新包 JDK1.8 maven3.8.1 hadoop3.3.0 spark3.1.1 WSL?WSL2? WSL是适用于 Linux 的 ...
【译】Spark官方文档——Spark Configuration（Spark配置）
注重版权,尊重他人劳动转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...
【配置、开发】Spark入门教程[2]
本教程源于2016年3月出版书籍<Spark原理.机制及应用> ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍. Spark为使用者提供了大量的工具和脚本文件,使得其部署与开 ...
Spark（十二） -- Spark On Yarn & Spark as a Service & Spark On Tachyon
Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度进而可以实现不止Spark,多种处理框架并存工作的场景部署Spark On ...
Spark面试题（二）
首发于我的个人博客:Spark面试题(二) 1.Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子. 2.Spark有哪些聚合类的算子,我们应该尽量避免什么类 ...
Spark学习之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...
Hadoop 历史服务配置启动查看
历史服务配置启动查看 1)配置mapred-site.xml <property> <name>mapreduce.jobhistory.address</name> ...
spark集群配置以及java操作spark小demo
spark 安装配置使用java来操作spark spark 安装 tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz rm spark-2.4.0-bin-hadoo ...

随机推荐

计算机网络 Computer Networks 期末复习总提纲
平时不学习,期末火葬场. 一周时间靠王道考研和各路 pdf 自学计网,留下的提纲都在这里了.全是干货.全文 pdf 可以在这里下载:http://cloud.billc.io/s/xNHarppQPG ...
CUDA Pro Tip: Write Flexible Kernels with Grid-Stride Loops
https://devblogs.nvidia.com/cuda-pro-tip-write-flexible-kernels-grid-stride-loops/ One of the most c ...
JDBC链接数据库。
第一步,创建一个空包: 给包起个名字: 新建Modules: 给Modules起名: 创建libs文件: 点击file---->new---->project---->Directo ...
css3笔记系列-3.css中的各种选择器详解，不看后悔系列
点击上方蓝色字体,关注我最详细的css3选择器解析选择器是什么? 比较官方的解释:在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. 最常见的 CSS 选择器是元素选择器.换句话说 ...
Kubernetes中Pod健康检查
目录 1.何为健康检查 2.探针分类 2.1.LivenessProbe探针(存活性探测) 2.2.ReadinessProbe探针(就绪型探测) 3.探针实现方法 3.1.Container Exe ...
手机抓包HTTPS (Fiddler & Packet Capture)
手机抓包HTTPS (Fiddler & Packet Capture) 以前写了一个小游戏(消灭病毒)的刷金币小脚本,使用需要获取openid ,就需要抓微信的HTTPS包一直都是用Fid ...
ThinkPHP5.0 漏洞测试
ThinkPHP5.0 漏洞测试自从ThinkPHP发布漏洞补丁以来,服务器不知道多少次受到了批量扫描漏洞来抓取肉鸡的请求虽然官方早已发布补丁,还是想试一下TP漏洞,测试两个漏洞一.全版本执行漏 ...
session生命周期，与cookie的区别
sessinon在用户访问第一次访问服务器时创建. Session什么时候失效? 1. 服务器会把长时间没有活动的Session从服务器内存中清除,此时Session便失效.Tomcat中Sessio ...
《闲扯Redis一》五种数据类型之String型
一.前言 Redis 提供了5种数据类型:String(字符串).Hash(哈希).List(列表).Set(集合).Zset(有序集合),理解每种数据类型的特点对于redis的开发和运维非常重要. ...
如何从零基础开始学习LoadRunner12（一）
如何从零基础开始学习LoadRunner12(一) 上一篇文章讲到了如何安装LR12的教程,这一篇文章来讲一下怎么利用LoadRunner自带的Sample来学习LoadRunner的基本使用. 首先 ...

配置spark历史服务(spark二)

1. 编辑spark-defaults.conf位置文件

2. 分发我们conf修改的配置文件

找个机器看下是否同步成功

3. 启动我们的hdfs

4. 查看我们的hdfs namenode ui

5. 创建hdfs文件夹，和我们上面配置的spark-defaults.conf中的一样

6. 再次修改spark-env.sh添加历史服务参数

7. 同步我们的spark-env.sh

8. 执行一个spark进程

9. 查看spark ui多了我们的进程

10. 发现好久都没有执行完看下日志

11. 开启历史服务就可以访问已结束的任务了

12. 访问history ui,成功

13. 查看hdfsz有无生成执行结果文件

配置spark历史服务(spark二)的更多相关文章

随机推荐

热门专题