kafka 0.8+spark offset 提交至mysql

kafka版本：<kafka.version> 0.8.2.1</kafka.version>

spark版本  <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>

object DmRealStat {

def main(args: Array[String]): Unit = {

/**

 * 1.集成kafka进行数据进行数据读取

* 程序第一次启动从数据库获取偏移量,开始读取

*/

val sparkConf = new SparkConf().setMaster("local[4]").setAppName("实时监控")

//开启背压 开启后spark自动根据系统负载选择最优消费速率

sparkConf.set("spark.streaming.backpressure.enabled", "true")

//spark.streaming.backpressure.initialRate （整数） 默认直接读取所有

sparkConf.set(" spark.streaming.backpressure.initialRate", "1000")

//（4）限制每秒每个消费线程读取每个kafka分区最大的数据量 （整数） 默认直接读取所有

sparkConf.set(" spark.streaming.kafka.maxRatePerPartition ", "500")

 sparkConf.set("spark.streaming.stopGracefullyOnShutdown", "true")

// sparkConf.set("spark.driver.memory","2G")

val ssc = new StreamingContext(sparkConf, Seconds(2))

val sc = ssc.sparkContext

//sparksql

val spark = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

//程序第一次启动,无偏移量

/*

def createDirectStream[

 K: ClassTag, key的类型

V: ClassTag, value的类型

KD <: Decoder[K]: ClassTag,

 VD <: Decoder[V]: ClassTag] (

 ssc: StreamingContext,

 kafkaParams: Map[String, String],

 topics: Set[String]

 ): InputDStream[(K, V)] = {

 val messageHandler = (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message)

 val kc = new KafkaCluster(kafkaParams)

 val fromOffsets = getFromOffsets(kc, kafkaParams, topics)

 new DirectKafkaInputDStream[K, V, KD, VD, (K, V)](

 ssc, kafkaParams, fromOffsets, messageHandler)

 }

 */

val conf = ConfigFactory.load()

val brokers = conf.getString("kafka.broker.list")

val topic = conf.getString("kafka.topic")

val groupid = "11"

val kafkaParams = Map(

"metadata.broker.list" -> brokers,

"auto.offset.reset" -> "smallest",

"group.id" -> groupid

 )

//加载配置信息 默认加载default.jdbc 如需设置生产环境 scalajdbcTest

 DBs.setup()

val fromOffsets: Map[TopicAndPartition, Long] = DB.readOnly { implicit session =>

sql"select topic,partitions,offset from stream_offset where groupid=? and topic=? and brokerlist=?".bind(groupid, topic, brokers).map(rs => {

 (TopicAndPartition(rs.get[String]("topic"), rs.get[Int]("partitions")), rs.long("offset"))

 }).list().apply()

}.toMap

val topics = Set(topic)

val stream = if (fromOffsets.size == 0) {

// 程序第一次启动

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

 }

else {

//程序非第一次启动

var checkOffset = Map[TopicAndPartition, Long]()

//思考:kafka默认的保存数据是7天 但在过程中在没有启动过消费者 ,保存的offset是过期的偏移量 所以

// 必须查询偏移量与当前有效的最早的偏移量进行比较 如果保存的比当前的小,说明过期了

val kafkaCluste = new KafkaCluster(kafkaParams);

//传进去TopicAndPartition

val earliestLeaderOffsets = kafkaCluste.getEarliestLeaderOffsets(fromOffsets.keySet)

if (earliestLeaderOffsets.isRight) {

//得到了分区和对应的偏移量

val topicAndOffset: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = earliestLeaderOffsets.right.get

 checkOffset = fromOffsets.map(selectOffset => {

//拿到当前集群的分区 最早偏移量

val currentOffset = topicAndOffset.get(selectOffset._1).get.offset

if (selectOffset._2 >= currentOffset) {

//数据库的大于当前集群的 就使用数据库offfset

 selectOffset

 } else {

(selectOffset._1, currentOffset)

// val a= new KafkaConsumer(Map[String,Object](""->"")

 }

 })

 checkOffset

 }

//此处从数据库获取偏移量 ,程序启动从此处开始往后消费

val messageHandler = (mm: MessageAndMetadata[String, String]) => {

 (mm.key(), mm.message())

 }

 KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, checkOffset, messageHandler)

 }

//2.处理数据

stream

 .foreachRDD(kafkardd => {

// val a: RDD[(String, String)] =kafkardd

val mapdata = LogUtils.logParse(kafkardd.map(_._2)).filter(log => log.contains("en") && log("en") == "e_dm")

 mapdata.foreach(println(_))

var minute = ""

//2实时进行审核信息统计

//看一下偏移量

//3.自主管理偏移量存入redis/或者mysql

val offsetRanges = kafkardd.asInstanceOf[HasOffsetRanges].offsetRanges

 offsetRanges.foreach(offsetRange => {

 DB.autoCommit(implicit session =>

sql"replace into stream_offset(topic,partitions,groupid,brokerlist,offset)values (?,?,?,?,?)".bind(

 offsetRange.topic,

 offsetRange.partition,

 groupid,

brokers,

 offsetRange.untilOffset

 ).update().apply()

 )

 println("topic:" + offsetRange.topic + "分区:" + offsetRange.partition + "开始消费" + offsetRange.fromOffset + "消费到" + offsetRange.untilOffset + "共计" + offsetRange.count())

 }

 )

 })

 ssc.start()

 ssc.awaitTermination()

 }

def dongmanStat(mapdata:RDD[mutable.Map[String,String]]): Unit ={

val baseData = mapdata.filter(map => map.contains("c_type_name") && map.contains("status")).map(_map => {

val baseData = mapdata.map(_map => {

// String contId = _map.get("c_id");

 // String cpId = _map.get("cp_id");

 // String contTypeName = _map.get("c_type_name");

 // String status = _map.get("status");

 // String duration = _map.get("dura");

 // String operator = _map.get("operator");

 // String bcTime = _map.get("bc_time");

val minute = _map("s_time").substring(0, 12)

val day = _map("s_time").substring(0, 8)

val c_type = _map("c_type_name");

val progId = _map("cp_id");

val bcTotal = if (_map("status").toInt >= 8) 1 else 0

val receive = if (_map("status").toInt == 8) 1 else 0

val waitingBc = if (_map("status").toInt == 8) 1 else 0

val bcPerson = _map.getOrElse("operator", " ");

val syncTime = _map.getOrElse("sync_time", "");

// val srcLog = _map.getOrElse("src_log");

 // val isDel = _map.getOrElse("is_delete",0)

 // val isBcReview = _map.getOrElse("is_bc_review","")

 (day, c_type, progId, bcPerson, syncTime, List[Int](bcTotal, receive, waitingBc))

 })

// //内容统计

// val contBcStat = baseData.map {

 // case (day, contId, progId, bcPerson, syncTime, list) => {

 // ((day, contId), list)

 // }

 // }.distinct().reduceByKey((list1, list2) => {

 // list1.zip(list2).map(i => {

 // i._1 + i._2

 // })

 // }).foreachPartition(rdd => {

 // val jedis = JedisUtil.getJedisClient()

 // rdd.foreach(data => {

 // val key: String = "cidStat" + "_" + data._1._1

 // val a = jedis.hincrBy(key, "bcTotal", data._2(0))

 // if (a > 0) println("自增成功") else println("自增失败")

 // jedis.hincrBy(key, "receive", data._2(1))

 // jedis.hincrBy(key, "waitingBc", data._2(2) - data._2(0))

 // })

 // jedis.close()

 // })

 //播控人内容统计 如果是相同的内容播控 条数去重

val bcPersonStat = baseData.map(t => ((t._1, t._4, t._2))).distinct()

// .updateStateByKey[Long]((seq: Seq[Int], state: Option[Long]) => {

 // //seq:Seq[Long] 当前批次中每个相同key的value组成的Seq

 // val currentValue = seq.sum

 // //state:Option[Long] 代表当前批次之前的所有批次的累计的结果，val对于wordcount而言就是先前所有批次中相同单词出现的总次数

// val preValue = state.getOrElse(0L)

 // Some(currentValue + preValue)

 // })

 .map(t => ((t._1, t._2), 1))

 .reduceByKey(_ + _)

 .foreachPartition(rdd => {

val jedis = JedisUtil.getJedisClient()

 rdd.foreach(data => {

val key: String = data._1._1 + "_" + data._1._2

 jedis.hincrBy(key, "bcPersonStat", data._2.toLong)

 })

//不释放的 会发生线程阻塞 无法进行数据插入

jedis.close()

 })

 })

 }

kafka 0.8+spark offset 提交至mysql的更多相关文章

kafka 0.11 spark 2.11 streaming例子
""" Counts words in UTF8 encoded, '\n' delimited text received from the network every ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
Offset Management For Apache Kafka With Apache Spark Streaming
An ingest pattern that we commonly see being adopted at Cloudera customers is Apache Spark Streaming ...
Kafka 0.9+Zookeeper3.4.6集群搭建、配置，新Client API的使用要点，高可用性测试，以及各种坑（转载）
Kafka 0.9版本对java client的api做出了较大调整,本文主要总结了Kafka 0.9在集群搭建.高可用性.新API方面的相关过程和细节,以及本人在安装调试过程中踩出的各种坑. 关于K ...
Kafka 0.10 KafkaConsumer流程简述
ConsumerConfig.scala 储存Consumer的配置按照我的理解,0.10的Kafka没有专门的SimpleConsumer,仍然是沿用0.8版本的. 1.从poll开始消费的规则 ...
Structured Streaming从Kafka 0.8中读取数据的问题
众所周知,Structured Streaming默认支持Kafka 0.10,没有提供针对Kafka 0.8的Connector,但这对高手来说不是事儿,于是有个Hortonworks的邵大牛(前段 ...
Kafka 0.11.0.0 实现 producer的Exactly-once 语义（中文）
很高兴地告诉大家,具备新的里程碑意义的功能的Kafka 0.11.x版本(对应 Confluent Platform 3.3)已经release,该版本引入了exactly-once语义,本文阐述的内 ...
【Spark】提交Spark任务-ClassNotFoundException-错误处理
提交Spark任务-ClassNotFoundException-错误处理 Overview - Spark 2.2.0 Documentation Spark Streaming - Spark 2 ...
Apache Kafka 0.9消费者客户端
当Kafka最初创建时,它与Scala生产者和消费者客户端一起运送.随着时间的推移,我们开始意识到这些API的许多限制.例如,我们有一个“高级”消费者API,它支持消费者组并处理故障转移,但不支持许多 ...

随机推荐

PyQt(Python+Qt)学习随笔：QTreeView树形视图的rootIsDecorated属性
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.属性说明 QTreeView树形视图的rootIsDecorated属性用于控制是否展示对顶层项 ...
PyQt(Python+Qt)学习随笔：Qt Designer中部件的 baseSize和sizeIncrement
1.baseSize 部件的 baseSize是部件的基础大小(单位:像素),如果部件设定了sizeIncrement,该属性用于在调整部件尺寸时计算部件应该调整到的合适值,但这个属性缺省值是QSiz ...
PyQt(Python+Qt)学习随笔：toolButton的popupMode属性
属性介绍 toolButton的popupMode属性为设有菜单集或Action列表的toolButton指定菜单弹出模式,类型为枚举类型ToolButtonPopupMode,有如下三种模式: 1. ...
FM解析（因子分解机，2010）
推荐参考:(知乎) https://zhuanlan.zhihu.com/p/37963267 要点理解: 1.fm应用场景,为什么提出了fm(和lr的不同点) ctr预测,特征组合,fm的隐向量分解 ...
jupyterlab 增加新内核的方法ipykernel
参考: https://blog.csdn.net/C_chuxin/article/details/82690830
js 二分查找
二分查找也叫对折查找,对于一个从小到大的有序数组,想要在数组中找到某个值,依次对折查找,小于就在从左边开始,大于就从右边开始,再判断对折后当前的那个索引的值和需要查找的值对比,如果小则high-1,小 ...
STL——容器（Set & multiset）的迭代器
1.set.insert(elem); //在容器中插入元素. 2.set.begin(); //返回容器中第一个数据的迭代器. 3.set.end(); / ...
STL——容器（Set & multiset） insert 的返回值和 pair 的用法
1. 使用 insert 插入时的返回值: 将一个元素插入 (insert) 到 set 或 multiset 中时,如果插入失败返回的类型是一个 pair 的自定类型,insert 源码如下: in ...
STL——容器（List）list 数据的存取
list.front(); //返回第一个元素 list.back(); //返回最后一个元素 1 #include <iostream> 2 #include <list> ...
SpringBoot快速入门（实战篇一）
SpringBoot快速入门(一) 一SpringBoot简介 1.spring开发经历的阶段 Spring 诞生时是 Java 企业版(Java Enterprise Edition,JEE,也称 ...

kafka 0.8+spark offset 提交至mysql

kafka 0.8+spark offset 提交至mysql的更多相关文章

随机推荐

热门专题