在sparkStreaming实时存储时的问题

1.实时插入mysql时遇到的问题，使用的updateStaeBykey有状态的算子必须设置checkpoint 如果报错直接删掉checkpoint

在创建的时候自己保存偏移量即可再次启动时读取正确偏移量就行了管他checkpoint 无关的事了

实时插入时有个问题是怎么进行mysql的数据覆盖掉一批次的值：

1.使用局部更新的sql ：

insert into area_user_amt (date,country,provence,amt)  values('${datekey}','${countrykey}','${provencekey}','${amt}') ON DUPLICATE KEY UPDATE `amt`= '${amt}'

2.使用replace 相当于先删除在插入

replace into stream_offset(topic,partitions,groupid,brokerlist,offset)values (?,?,?,?,?)

2.使用redis 不使用叠加状态的updateStaeBykey ，进行完reduceBykey(list1，list2)=>(list.zip(list2)).map(_.1+_.2)  reduceBykey的两个参（累计值，当前值）一直做zip操作，做完后
（10,1）.zip（20,2）=》（(10,20),(1,2)）在做map对里面每一个进行相加就是累加值 （只是当前批次的）

使用redis的hincrby 值增加的方法实现累加求和

.foreachPartition(iter=>{  
 //在各分区获取redis连接   
val jedis=JedisUtil.getJedisClient()   
iter.foreach(tp=>{     
//B2019040114 ,成功量 ,总量    
 jedis.hincrBy("P-"+tp._1._1.substring(0,8),tp._1._2,tp._2(0).toLong)
    //设置key的有效时间    
 jedis.expire(tp._1._1,60*60*24*7)   })   jedis.close()
 })

SparkStreaming使用checkpoint存在的问题

SparkStreaming在处理kafka中的数据时，存在一个kafka offset的管理问题：

官方的解决方案是checkpoint:
- checkpoint是对sparkstreaming运行过程中的元数据和每次rdds的数据状态保存到一个持久化系统中，当然这里面也包含了offset，一般是HDFS,S3，如果程序挂了，或者集群挂了，下次启动仍然能够从checkpoint中恢复，从而做到生产环境的7*24高可用。如果checkpoint存储做hdfs中，会带来小文件的问题。

但是checkpoint的最大的弊端在于，一旦你的流式程序代码或配置改变了，或者更新迭代新功能了，这个时候，你先停旧的sparkstreaming程序，然后新的程序打包编译后执行运行，会出现两种情况：

（1）启动报错，反序列化异常
（2）启动正常，但是运行的代码仍然是上一次的程序的代码。

为什么会出现上面的两种情况？

这是因为checkpoint第一次持久化的时候会把整个相关的jar给序列化成一个二进制文件，每次重启都会从里面恢复，但是当你新的程序打包之后序列化加载的仍然是旧的序列化文件，这就会导致报错或者依旧执行旧代码。有的同学可能会说，既然如此，直接把上次的checkpoint删除了，不就能启动了吗？确实是能启动，但是一旦你删除了旧的checkpoint，新启动的程序，只能从kafka的smallest或者largest的偏移量消费，默认是从最新的，如果是最新的，而不是上一次程序停止的那个偏移量就会导致有数据丢失，如果是老的，那么就会导致数据重复。不管怎么样搞，都有问题。

在sparkStreaming实时存储时的问题的更多相关文章

js读写Cookie问题（Cookie存储时长、Cookie存储域）汇总
在采集网站用户行为数据/使用js对用户行为做交互时,经常会使用到Cookie,了解Js Cookie的读写,以及一些细节,非常重要. 什么是Cookie 所谓Cookie,只是一条极为短小的信息, ...
求int型正整数在内存中存储时1的个数
题目描述: 输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: 输入一个整数(int类型) 输出描述: 这个数转换成2进制后,输出1的个数输入例子: 5 输出例子: ...
基于spark-streaming实时推荐系统
基于spark-streaming实时推荐系统(一) 基于spark-streaming实时推荐系统( 二) 基于spark-streaming实时推荐系统(三)
华为oj之求int型正整数在内存中存储时1的个数
题目: 求int型正整数在内存中存储时1的个数热度指数:4427 时间限制:1秒空间限制:32768K 题目描述输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: ...
（一）求 int 型数据在内存中存储时 1 的个数
题目:求 int 型数据在内存中存储时 1 的个数描述:输入一个 int 型数据,计算出该 int 型数据在内存中存储时 1 的个数运行时间限制: 10 sec 内存限制:128 MByte 输入 ...
Oracle RAC：使用 NFS 共享存储时的 mount 选项总结
oracle rac 使用nfs作为共享存储时,mount的选项有要求,不能随便设置 grid的要求: rw,bg,hard,nointr,rsize=32768,wsize=32768, ...
华为机试求int型数据在内存中存储时1的个数
题目描述输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: 输入一个整数(int类型) 输出描述: 这个数转换成2进制后,输出1的个数输入 5 输出 2 普通运算方 ...
求int型数据在内存中存储时1的个数
1.求int型数据在内存中存储时1的个数输入一个int型数据,计算出该int型数据在内存中存储时1的个数. 我们非常easy想到例如以下方法: #include <iostream> u ...
php实现求int型数据在内存中存储时1的个数（函数都可自己实现）
php实现求int型数据在内存中存储时1的个数(函数都可自己实现) 一.总结一句话总结:函数我们自己都可以实现,尤其是很多基础函数,没有工具的时候自己写. 1.php进制转换函数? base_co ...

随机推荐

Node.js_Buffer 缓冲区
Buffer 缓冲区虽然 JavaScript 支持未操作,但是并没有二进制数据的原生 node 引入了 Buffer 类,用于操作二进制数据是 V8 引擎的扩展,实际上是对内存的直接分配每 ...
js 第三期小肩膀第一段
var 时间戳 = new.Date().getTime();//系统引擎 var 时间戳 = Date.now(); //V8引擎数据类型 false = underfuned =null = ...
css学习_css布局案例
1.中间栏先加载 !!!(若不是这个条件的话 ,那可以用 calc 或者flex布局来实现中间栏自适应,左右栏定宽) 2.中间栏自适应 width:100% 3.左右栏固定宽左中右 ...
ASP.NET Core 2.2 迁移至 3.0 备忘录
将 ASP.NET Core 2.2 迁移至 ASP.NET Core 3.0 需要注意的地方记录在这篇随笔中. TargetFramework 改为 netcoreapp3.0 <Target ...
Sublime Text 3 使用心得
1.Ctrl + Shift + P : package control install package == > ConvertToUTF82.列模式: 苹果:OS X -鼠标左键+Optio ...
php中数组直接用加号相加array+array
php中数组功能非常强大,甚至也可以直接通过+相加来合并数组. A数组 $a = ['a', 'b']; B数组 $b = ['c', 'd', 'e']; A+B结果 Array ( [0] =&g ...
Python 3+selenium+unittest+HTMLTestRunner生成测试报告
一.下载HTMLTestRunner.py,解压,将它放到 python安装路径的site-packages目录下 https://pan.baidu.com/s/1epWlibxbxWlNoIcxL ...
JDK1.8 StampedLock: 解决ReentrantReadWriteLock在读多写少情况下，写线程饥饿问题
ReentrantReadWriteLock 在沒有任何读写锁时,才可以取得写入锁,这可用于实现了悲观读取(Pessimistic Reading), 即如果执行中进行读取时,经常可能有另一执行要写入 ...
基于binlog恢复工具mysqlbinlog_flashback
基于binlog恢复工具mysqlbinlog_flashback简介 mysqlbinlog_back.py 是在线读取row格式的mysqld的binlog,然后生成反向的sql语句的工具.一般用 ...
【Linux】Mac PD set centos static ip
2,修改Centos的网络设置. (1)进入脚本. vi /etc/sysconfig/network-scripts/ifcfg-eth0 My Mac ip: # 从dhcp改成static BO ...

在sparkStreaming实时存储时的问题

SparkStreaming使用checkpoint存在的问题

在sparkStreaming实时存储时的问题的更多相关文章

随机推荐

热门专题