1 框架一览

事件处理的架构图如下所示。

2 优化总结

当我们第一次部署整个方案时，kafka和flume组件都执行得非常好，但是spark streaming应用需要花费4-8分钟来处理单个batch。这个延迟的原因有两点，一是我们使用DataFrame来强化数据，而强化数据需要从hive中读取大量的数据；二是我们的参数配置不理想。

为了优化我们的处理时间，我们从两方面着手改进：第一，缓存合适的数据和分区；第二，改变配置参数优化spark应用。运行spark应用的spark-submit命令如下所示。通过参数优化和代码改进，我们显著减少了处理时间，处理时间从4-8分钟降到了低于25秒。

/opt/app/dev/spark-1.5.2/bin/spark-submit \

 --jars  \

/opt/cloudera/parcels/CDH/jars/zkclient-0.3.jar,/opt/cloudera/parcels/CDH/jars/kafka_2.10-0.8.1.1.jar,\

/opt/app/dev/jars/datanucleus-core-3.2.2.jar,/opt/app/dev/jars/datanucleus-api-jdo-3.2.1.jar,/opt/app/dev/jars/datanucleus-rdbms-3.2.1.jar \

--files /opt/app/dev/spark-1.5.2/conf/hive-site.xml,/opt/app/dev/jars/log4j-eir.properties \

--queue spark_service_pool \

--master yarn \

--deploy-mode cluster \

--conf "spark.ui.showConsoleProgress=false" \

--conf "spark.driver.extraJavaOptions=-XX:MaxPermSize=6G -XX:+UseConcMarkSweepGC -Dlog4j.configuration=log4j-eir.properties" \

--conf "spark.sql.tungsten.enabled=false" \

--conf "spark.eventLog.dir=hdfs://nameservice1/user/spark/applicationHistory" \

--conf "spark.eventLog.enabled=true" \

--conf "spark.sql.codegen=false" \

--conf "spark.sql.unsafe.enabled=false" \

--conf "spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC -Dlog4j.configuration=log4j-eir.properties" \

--conf "spark.streaming.backpressure.enabled=true" \

--conf "spark.locality.wait=1s" \

--conf "spark.streaming.blockInterval=1500ms" \

--conf "spark.shuffle.consolidateFiles=true" \

--driver-memory 10G \

--executor-memory 8G \

--executor-cores 20 \

--num-executors 20 \

--class com.bigdata.streaming.OurApp \ /opt/app/dev/jars/OurStreamingApplication.jar external_props.conf

下面我们将详细介绍这些改变的参数。

2.1 driver选项

这里需要注意的是，driver运行在spark on yarn的集群模式下。因为spark streaming应用是一个长期运行的任务，生成的日志文件会很大。为了解决这个问题，我们限制了写入日志的消息的条数，并且用RollingFileAppender限制了它们的大小。我们也关闭了spark.ui.showConsoleProgress选项来禁用控制台日志消息。

通过测试，我们的driver因为永久代空间填满而频繁发生内存耗尽（永久代空间是类、方法等存储的地方，不会被重新分配）。将永久代空间的大小升高到6G可以解决这个问题。

spark.driver.extraJavaOptions=-XX:MaxPermSize=6G

2.2 垃圾回收

因为我们的spark streaming应用程序是一个长期运行的进程，在处理一段时间之后，我们注意到GC暂停时间过长，我们想在后台减少或者保持这个时间。调整UseConcMarkSweepGC参数是一个技巧。

--conf "spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC -Dlog4j.configuration=log4j-eir.properties" \

2.3 禁用Tungsten

Tungsten是spark执行引擎主要的改进。但是它的第一个版本是有问题的，所以我们暂时禁用它。

spark.sql.tungsten.enabled=false

spark.sql.codegen=false

spark.sql.unsafe.enabled=false

2.4 启用反压

Spark Streaming在批处理时间大于批间隔时间时会出现问题。换一句话说，就是spark读取数据的速度慢于kafka数据到达的速度。如果按照这个吞吐量执行过长的时间，它会造成不稳定的情况。即接收executor的内存溢出。设置下面的参数解决这个问题。

spark.streaming.backpressure.enabled=true

2.5 调整本地化和块配置

下面的两个参数是互补的。一个决定了数据本地化到task或者executor等待的时间，另外一个被spark streaming receiver使用对数据进行组块。块越大越好，但是如果数据没有本地化到executor，它将会通过网络移动到任务执行的地方。我们必须在这两个参数间找到一个好的平衡，因为我们不想数据块太大，并且也不想等待本地化太长时间。我们希望所有的任务都在几秒内完成。

因此，我们改变本地化选项从3s到1s，我们也改变块间隔为1.5s。

--conf "spark.locality.wait=1s" \

--conf "spark.streaming.blockInterval=1500ms" \

2.6 合并临时文件

在ext4文件系统中，推荐开启这个功能。因为这会产生更少的临时文件。

--conf "spark.shuffle.consolidateFiles=true" \

2.7 开启executor配置

在你配置kafka Dstream时，你能够指定并发消费线程的数量。然而，kafka Dstream的消费者会运行在相同的spark driver节点上面。因此，为了从多台机器上面并行消费kafka topic，我们必须实例化多个Dstream。虽然可以在处理之前合并相应的RDD，但是运行多个应用程序实例，把它们都作为相同kafka consumer group的一部分。

为了达到这个目的，我们设置20个executor，并且每个executor有20个核。

--executor-memory 8G

--executor-cores 20

--num-executors 20

2.8 缓存方法

使用RDD之前缓存RDD，但是记住在下次迭代之前从缓存中删除它。缓存那些需要使用多次的数据非常有用。然而，不要使分区数目过大。保持分区数目较低可以减少，最小化调度延迟。下面的公式是我们使用的分区数的计算公式。

# of executors * # of cores = # of partitions

Spark Streaming实时处理应用的更多相关文章

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据.我们可以很容易地在 Java 中使用 Kafka. Spark Streaming 是 Apache ...
Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
spark streaming 实战
最近在学习spark的相关知识, 重点在看spark streaming 和spark mllib相关的内容. 关于spark的配置: http://www.powerxing.com/spark-q ...
Spark Streaming和Flume-NG对接实验
Spark Streaming是一个新的实时计算的利器,而且还在快速的发展.它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理.它直接支持多种数据源:Kafka, Flu ...
spark streaming 实时计算
spark streaming 开发实例本文将分以下几部分 spark 开发环境配置如何创建spark项目编写streaming代码示例如何调试环境配置: spark 原生语言是scala, ...
Spark Streaming 原理剖析
通过源码呈现 Spark Streaming 的底层机制. 1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器,缓存接收到的流数据,并将流数据包装成 Spar ...
Spark Streaming 结合FlumeNG使用实例
SparkStreaming是一个对实时数据流进行高通量.容错处理的流式处理系统,可以对多种数据源(如Kdfka.Flume.Twitter.Zero和TCP 套接字)进行类似map.reduce.j ...
转：Sharethrough使用Spark Streaming优化实时竞价
文章来自于:http://www.infoq.com/cn/news/2014/04/spark-streaming-bidding 来自于Sharethrough的数据基础设施工程师Russell ...
Spark Streaming连接TCP Socket
1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitte ...

随机推荐

bind 详解
请看我的有道云笔记: http://note.youdao.com/noteshare?id=eaf4194473cf4294776fbc263ffe6b89&sub=5CB214C594E0 ...
npm 安装axios和使用增删改查
1:安装axios(建议安装淘宝镜像) npm install axios 2:项目导入 npm install --save axios vue-axios 3:页面导入 import axios ...
Scrum第三次冲刺
1.第三次冲刺任务概述我们设计的长大万能通系统主要实现以下几个功能: a.周边查询 b.快递代取 c.查看校内新闻动态 d.二手物品交易第三次冲刺我们计划实现周边查询功能.可以根据评分.距离最近. ...
Python变量和数据类型(入门2)
转载请标明出处: http://www.cnblogs.com/why168888/p/6400809.html 本文出自:[Edwin博客园] Python变量和数据类型一.整数 int = 20 ...
csu 1965
Description You are a boss who has N employers. One day, you have a message and you want to tell it ...
（第七场）A Minimum Cost Perfect Matching 【位运算】
题目链接:https://www.nowcoder.com/acm/contest/145/A A.Minimum Cost Perfect Matching You have a complete ...
【洛谷P1726】上白泽慧音
上白泽慧音题目链接强联通分量模板题,Tarjan求强联通分量,记录大小即可 #include<iostream> #include<cstring> #include< ...
o'Reill的SVG精髓（第二版）学习笔记——第四章
第四章:基本形状 4.1线段 SVG可以使用<line>元素画出一条直线段.使用时只需要指定线段起止点的x和y坐标即可.指定坐标时可以不带单位,此时会使用用户坐标,也可以带上单位,如em. ...
大专生自学web前端前前后后
先做个自我介绍,我13年考上一所很烂专科民办的学校,学的是生物专业,具体的学校名称我就不说出来献丑了.13年我就辍学了,我在那样的学校,一年学费要1万多,但是根本没有人学习,我实在看不到希望,我就退学 ...
lua浮点数取整
向下取整 math.floor(num) 向上取整 math.ceil(num) 取整取余 math.modf(num) 测试 num = 12.4 print(math.floor(num)) 12 ...

Spark Streaming实时处理应用