浪院长 | spark streaming的使用心得
今天。主要想聊聊spark streaming的使用心得。
1,基本使用
主要是转换算子。action。和状态算子,这些事实上,就依照api手冊或者源代码里接口介绍结合业务来编码。
事实上。想用好spark streaming 掌握spark core,spark rpc,spark 任务调度,spark 并行度等原理还非常有必要。
2,中间状态缓存
说到中间算子大家肯定都会想到UpdateStateByKey等状态。里面非常多注意事项。比方顺序性。key的超时机制维护。这个适合数据量不多,尤其是key的维度不多。value不大的情况。
当然数据量上来了,要想维护中间状态怎么办?事实上这个时候肯定是第三方存储,比方redis,alluxio。redis更适合那种key带超时机制的。并且数据量肯定不能过大。
而alluxio就非常适合那种高吞吐量的。比方去重统计。
3。结果输出
direct streaming能保证仅一次处理,可是要求输出存储支持密等性。或者主动将结果更改为存在更新不存在插入。
当然,假设外部存储系统支持事务那就更嗨。能实现恰一次处理。
实际上在offset维护这个层面上,spark streaming 不同版本号于kafka不同版本号结合实现有非常大不同。
4。监控告警及故障自己主动恢复
我认为对于监控告警及故障自己主动恢复。重要程度不亚于业务场景。由于再好的业务实现。架不住系统挂掉你不知道。由于你总不能二十四小时盯着系统。并且非常多公司对故障自己主动恢复都有kpi,比方3min,人工去检測故障并恢复不太可能,须要自己实现一套监控系统。
5,调优
调优对于spark streaming非常重要。由于一个批次处理延迟就会导致job堆积,结果输出延迟,深圳任务挂掉数据丢失。调优事实上最注重对spark 原理把控,数据量的了解及资源和数据的关系。
6,源代码
源代码阅读,为了帮助大家更透彻的理解原理。
主要会分三块:
spark streaming 与kafka-0.8.2 direct stream。
spark streaming 与kafka-0.8.2 receiver based stream。
spark streaming 与kafka-0.10.2 direct api。
这些内容比較多。本周日晚上八点到十点浪尖准备搞个qq直播。对这些内容有兴趣的小伙伴能够扫码參团,费用不高。算是对浪尖创作的支持吧。
当然,准备是两到三次。每次两个小时,实际次数看效率。
參与直播的直接联系微信 158570986
当然,要是喜欢浪尖,更希望增加浪尖知识星球,球友能够免费參与直播。
https://mmbiz.qpic.cn/mmbiz_jpg/adI0ApTVBFWEbA0t2WgVoUbCSPAic4uAuwkHOg8iczLJQ4gpogt2Gy2FelL1iaM9jW6IPAtjuB4c3ZmfmNb1vRy2w/640?wx_fmt=jpeg" alt="640?wx_fmt=jpeg" />
浪院长 | spark streaming的使用心得的更多相关文章
- Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权 作者 | 蒋专 蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...
- 基于Spark Streaming预测股票走势的例子(一)
最近学习Spark Streaming,不知道是不是我搜索的姿势不对,总找不到具体的.完整的例子,一怒之下就决定自己写一个出来.下面以预测股票走势为例,总结了用Spark Streaming开发的具体 ...
- Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
- Spark Streaming+Kafka
Spark Streaming+Kafka 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
- Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
- flume+kafka+spark streaming整合
1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输 ...
- spark streaming kafka example
// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...
- Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
- Spark Streaming源码解读之No Receivers彻底思考
本期内容 : Direct Acess Kafka Spark Streaming接收数据现在支持的两种方式: 01. Receiver的方式来接收数据,及输入数据的控制 02. No Receive ...
随机推荐
- BZOJ2084 [Poi2010]Antisymmetry Manachar
题目传送门 - BZOJ2084 题解 对于一个0我们把它看作01,1看作10,然后只要原串中的某个子串可以通过这两个变换成为回文串就可以满足条件了. 对于转换过的串,Manachar随便弄几下就可以 ...
- BZOJ1497 [NOI2006]最大获利 网络流 最小割 SAP
原文链接http://www.cnblogs.com/zhouzhendong/p/8371052.html 题目传送门 - BZOJ1497 题意概括 有n个站要被建立. 建立第i个站的花费为pi. ...
- BZOJ3531 [Sdoi2014]旅行 树链剖分 线段树
原文链接:http://www.cnblogs.com/zhouzhendong/p/8080189.html 题目传送门 - BZOJ3531 题意概括 一棵树,n个节点,每一个节点两个值,一个颜色 ...
- 最接近的三数之和(给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数, 使得它们的和与 target 最接近。返回这三个数的和)
例如,给定数组 nums = [-1,2,1,-4], 和 target = 1. 与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2). 思路:首先对数组进行排序 ...
- 归并排序(Java实现)
package sort; public class MergeSort { static void msort(int []a,int start,int end){ int mid=(start+ ...
- django-admin 仿写stark组件action,filter筛选过滤,search查询
写在StandLi里面的方法都是通过ModelSubject这个类里面的stand_li方法,在它里面用StandLi这个类实例化出来一个对象,这个实例化出来的对象把数据传给前端HTML模板进行渲染, ...
- 怎样将一个Long类型的数据转换成字节数组
直接上代码: //先写进去 long n = 1000000L; ByteArrayOutputStream baos = new ByteArrayOutputStream(); DataOutpu ...
- Python编程基础[条件语句if 循环语句 for,while](二)
ython条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块. 可以通过下图来简单了解条件语句的执行过程: if 判断条件: 执行语句……else: 执行语句…… x= ...
- 项目部署相关命令(pm2)
普通方式启动后台服务: nohup npm start & 关闭服务,需要找到进程号: lsof -i :3000 kill -9 进程号 通过pm2启动项目,可实现关闭自启动: 安装pm2: ...
- iOS12系统应用发送普通邮件构建邮件
iOS12系统应用发送普通邮件构建邮件 当确定设备支持邮件发送功能后,开发者就可以实现该功能.根据是否包含附件,邮件可以分为普通邮件和附件邮件两种.本节首先讲解如何发送普通邮件.实现过程如下: 1.构 ...