Spark学习之Spark调优与调试（7）

1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。

当创建一个SparkContext时就会创建一个SparkConf实例。

2. Spark特定的优先级顺序来选择实际配置：

优先级最高的是在用户代码中显示调用set()方法设置选项；

其次是通过spark-submit传递的参数；

再次是写在配置文件里的值；

最后是系统的默认值。

3.查看应用进度信息和性能指标有两种方式：网页用户界面、驱动器和执行器进程生成的日志文件。

4.Spark执行的组成部分：作业、任务和步骤

需求：使用Spark shell完成简单的日志分析应用。

scala> val input =sc.textFile("/home/spark01/Documents/input.text")

input: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at textFile at <console>:27

scala> val tokenized = input.map(line=>line.split(" ")).filter(words=>words.size>0)

tokenized: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[5] at filter at <console>:29

scala> val counts = tokenized.map(words=>(words(0),1)).reduceByKey{(a,b)=>a+b}

counts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[7] at reduceByKey at <console>:31

scala> // see RDD

scala> input.toDebugString

res0: String =

(1) MapPartitionsRDD[3] at textFile at <console>:27 []

 |  /home/spark01/Documents/input.text HadoopRDD[2] at textFile at <console>:27 []

scala> counts.toDebugString

res1: String =

(1) ShuffledRDD[7] at reduceByKey at <console>:31 []

 +-(1) MapPartitionsRDD[6] at map at <console>:31 []

    |  MapPartitionsRDD[5] at filter at <console>:29 []

    |  MapPartitionsRDD[4] at map at <console>:29 []

    |  MapPartitionsRDD[3] at textFile at <console>:27 []

    |  /home/spark01/Documents/input.text HadoopRDD[2] at textFile at <console>:27 []

scala> counts.collect()

res2: Array[(String, Int)] = Array((ERROR,1), (##input.text##,1), (INFO,4), ("",2), (WARN,2))

scala> counts.cache()

res3: counts.type = ShuffledRDD[7] at reduceByKey at <console>:31

scala> counts.collect()

res5: Array[(String, Int)] = Array((ERROR,1), (##input.text##,1), (INFO,4), ("",2), (WARN,2))

scala>

5. Spark网页用户界面

默认情况地址是http://localhost:4040

通过浏览器可以查看已经运行过的作业（job）的详细情况

如图下图：

图1所有任务用户界面

图二作业2详细信息用户界面

6. 关键性能考量：

代码层面：并行度、序列化格式、内存管理

运行环境：硬件供给。

Spark学习之Spark调优与调试（7）的更多相关文章

【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践
[原创 Hadoop&Spark 动手实践 7]Spark 应用经验.调优与动手实践目标: 1. 了解Spark 应用经验与调优的理论与方法,如果遇到Spark调优的事情,有理论思考框架. ...
Spark面试题（八）——Spark的Shuffle配置调优
Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)--数据倾斜调优 Spark面试题(六)--Spark资源调 ...
Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Spark学习之Spark SQL（8）
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...
Spark学习之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...
Spark学习之Spark调优与调试(一)
一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行 ...
Spark学习笔记6：Spark调优与调试
1.使用Sparkconf配置Spark 对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项. Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个 ...
Spark调优与调试
1.使用SparkConf配置Spark (1)在java中使用SparkConf创建一个应用: SparkConf conf =;i++){ javaBean bean =new javaBean( ...
【Spark】Sparkstreaming-性能调优
Sparkstreaming-性能调优 Spark Master at spark://node-01:7077 sparkstreaming 线程数量_百度搜索 streaming中partiti ...

随机推荐

KindEditor使用过程中，用JQ提交表单时，获取不到编辑器的内容
首先要说明的是.在使用提交button直接提交时.编辑器的内容是能够正常获取的,而使用 jq或js ,如$("#form").submit(),提交时,则编辑器的内容是无法获取的. ...
【iOS系列】-UITableView的使用
UITableView的使用: 第一:数据展示条件 1,UITableView的所有数据都是由数据源(dataSource)提供,所以想在UITableView展示数据,必须设置UITableview ...
jupyter环境的安装
1,什么是jupyter notebook? 简介:jupyter notebook是基于网页的用户交互计算机的应用程序,其可被用于全过程计算:开发,文档编写,运行代码,和展示结果简而言之,Jupy ...
Building Microservices: Using an API Gateway
What are microservices? http://microservices.io/ What are microservices? Microservices - also known ...
stl之vector的应用
这里主要是对vector容器的一些常见应用的总结.至于vector的构造函数及初始化能够參考http://blog.csdn.net/lsh_2013/article/details/21191289 ...
ABAP 读取服务器CSV文件到内表
DATA: BEGIN OF gs_data , cola TYPE string, colb TYPE string, ... END OF gs_data, gt_data LIKE TABLE ...
OAuth学习总结
1.为什么需要OAuth? 新浪微博就是你的家.偶尔你会想让一些人(第三方应用)去你的家里帮你做一些事,或取点东西.你可以复制一把钥匙(用户名和密码)给他们,但这里有三个问题: 1)别人拿了钥匙后可以 ...
c# 读取内存
C# 用内存映射文件读取大文件(.txt) 网上有好多这类的文章,大部分都是用C/C++写的,也有部分C#写的,都思想都是一样的,调用win32 API. 至于什么是内存映射文件,相信还是有好多人 ...
Pascal之while
program Project1; {$APPTYPE CONSOLE} uses SysUtils; begin { TODO -oUser -cConsole Main : Insert code ...
IE浏览器下错误，不能执行已释放script的代码
错误提示: 错误原因: 我使用layui打开子页面,用到了父页面中的一个全局变量(我用的数组),子页面关闭后,使用该数组方法(如:arr.join(",")),便提示此错误我的解 ...

Spark学习之Spark调优与调试（7）

Spark学习之Spark调优与调试（7）

1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项。

2. Spark特定的优先级顺序来选择实际配置：

3.查看应用进度信息和性能指标有两种方式：网页用户界面、驱动器和执行器进程生成的日志文件。

4.Spark执行的组成部分：作业、任务和步骤

5. Spark网页用户界面

6. 关键性能考量：

Spark学习之Spark调优与调试（7）的更多相关文章

随机推荐

热门专题