kafka 0.8+spark offset 提交至mysql

kafka版本：<kafka.version> 0.8.2.1</kafka.version>

spark版本  <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>

object DmRealStat {

def main(args: Array[String]): Unit = {

/**

 * 1.集成kafka进行数据进行数据读取

* 程序第一次启动从数据库获取偏移量,开始读取

*/

val sparkConf = new SparkConf().setMaster("local[4]").setAppName("实时监控")

//开启背压 开启后spark自动根据系统负载选择最优消费速率

sparkConf.set("spark.streaming.backpressure.enabled", "true")

//spark.streaming.backpressure.initialRate （整数） 默认直接读取所有

sparkConf.set(" spark.streaming.backpressure.initialRate", "1000")

//（4）限制每秒每个消费线程读取每个kafka分区最大的数据量 （整数） 默认直接读取所有

sparkConf.set(" spark.streaming.kafka.maxRatePerPartition ", "500")

 sparkConf.set("spark.streaming.stopGracefullyOnShutdown", "true")

// sparkConf.set("spark.driver.memory","2G")

val ssc = new StreamingContext(sparkConf, Seconds(2))

val sc = ssc.sparkContext

//sparksql

val spark = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

//程序第一次启动,无偏移量

/*

def createDirectStream[

 K: ClassTag, key的类型

V: ClassTag, value的类型

KD <: Decoder[K]: ClassTag,

 VD <: Decoder[V]: ClassTag] (

 ssc: StreamingContext,

 kafkaParams: Map[String, String],

 topics: Set[String]

 ): InputDStream[(K, V)] = {

 val messageHandler = (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message)

 val kc = new KafkaCluster(kafkaParams)

 val fromOffsets = getFromOffsets(kc, kafkaParams, topics)

 new DirectKafkaInputDStream[K, V, KD, VD, (K, V)](

 ssc, kafkaParams, fromOffsets, messageHandler)

 }

 */

val conf = ConfigFactory.load()

val brokers = conf.getString("kafka.broker.list")

val topic = conf.getString("kafka.topic")

val groupid = "11"

val kafkaParams = Map(

"metadata.broker.list" -> brokers,

"auto.offset.reset" -> "smallest",

"group.id" -> groupid

 )

//加载配置信息 默认加载default.jdbc 如需设置生产环境 scalajdbcTest

 DBs.setup()

val fromOffsets: Map[TopicAndPartition, Long] = DB.readOnly { implicit session =>

sql"select topic,partitions,offset from stream_offset where groupid=? and topic=? and brokerlist=?".bind(groupid, topic, brokers).map(rs => {

 (TopicAndPartition(rs.get[String]("topic"), rs.get[Int]("partitions")), rs.long("offset"))

 }).list().apply()

}.toMap

val topics = Set(topic)

val stream = if (fromOffsets.size == 0) {

// 程序第一次启动

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

 }

else {

//程序非第一次启动

var checkOffset = Map[TopicAndPartition, Long]()

//思考:kafka默认的保存数据是7天 但在过程中在没有启动过消费者 ,保存的offset是过期的偏移量 所以

// 必须查询偏移量与当前有效的最早的偏移量进行比较 如果保存的比当前的小,说明过期了

val kafkaCluste = new KafkaCluster(kafkaParams);

//传进去TopicAndPartition

val earliestLeaderOffsets = kafkaCluste.getEarliestLeaderOffsets(fromOffsets.keySet)

if (earliestLeaderOffsets.isRight) {

//得到了分区和对应的偏移量

val topicAndOffset: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = earliestLeaderOffsets.right.get

 checkOffset = fromOffsets.map(selectOffset => {

//拿到当前集群的分区 最早偏移量

val currentOffset = topicAndOffset.get(selectOffset._1).get.offset

if (selectOffset._2 >= currentOffset) {

//数据库的大于当前集群的 就使用数据库offfset

 selectOffset

 } else {

(selectOffset._1, currentOffset)

// val a= new KafkaConsumer(Map[String,Object](""->"")

 }

 })

 checkOffset

 }

//此处从数据库获取偏移量 ,程序启动从此处开始往后消费

val messageHandler = (mm: MessageAndMetadata[String, String]) => {

 (mm.key(), mm.message())

 }

 KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, checkOffset, messageHandler)

 }

//2.处理数据

stream

 .foreachRDD(kafkardd => {

// val a: RDD[(String, String)] =kafkardd

val mapdata = LogUtils.logParse(kafkardd.map(_._2)).filter(log => log.contains("en") && log("en") == "e_dm")

 mapdata.foreach(println(_))

var minute = ""

//2实时进行审核信息统计

//看一下偏移量

//3.自主管理偏移量存入redis/或者mysql

val offsetRanges = kafkardd.asInstanceOf[HasOffsetRanges].offsetRanges

 offsetRanges.foreach(offsetRange => {

 DB.autoCommit(implicit session =>

sql"replace into stream_offset(topic,partitions,groupid,brokerlist,offset)values (?,?,?,?,?)".bind(

 offsetRange.topic,

 offsetRange.partition,

 groupid,

brokers,

 offsetRange.untilOffset

 ).update().apply()

 )

 println("topic:" + offsetRange.topic + "分区:" + offsetRange.partition + "开始消费" + offsetRange.fromOffset + "消费到" + offsetRange.untilOffset + "共计" + offsetRange.count())

 }

 )

 })

 ssc.start()

 ssc.awaitTermination()

 }

def dongmanStat(mapdata:RDD[mutable.Map[String,String]]): Unit ={

val baseData = mapdata.filter(map => map.contains("c_type_name") && map.contains("status")).map(_map => {

val baseData = mapdata.map(_map => {

// String contId = _map.get("c_id");

 // String cpId = _map.get("cp_id");

 // String contTypeName = _map.get("c_type_name");

 // String status = _map.get("status");

 // String duration = _map.get("dura");

 // String operator = _map.get("operator");

 // String bcTime = _map.get("bc_time");

val minute = _map("s_time").substring(0, 12)

val day = _map("s_time").substring(0, 8)

val c_type = _map("c_type_name");

val progId = _map("cp_id");

val bcTotal = if (_map("status").toInt >= 8) 1 else 0

val receive = if (_map("status").toInt == 8) 1 else 0

val waitingBc = if (_map("status").toInt == 8) 1 else 0

val bcPerson = _map.getOrElse("operator", " ");

val syncTime = _map.getOrElse("sync_time", "");

// val srcLog = _map.getOrElse("src_log");

 // val isDel = _map.getOrElse("is_delete",0)

 // val isBcReview = _map.getOrElse("is_bc_review","")

 (day, c_type, progId, bcPerson, syncTime, List[Int](bcTotal, receive, waitingBc))

 })

// //内容统计

// val contBcStat = baseData.map {

 // case (day, contId, progId, bcPerson, syncTime, list) => {

 // ((day, contId), list)

 // }

 // }.distinct().reduceByKey((list1, list2) => {

 // list1.zip(list2).map(i => {

 // i._1 + i._2

 // })

 // }).foreachPartition(rdd => {

 // val jedis = JedisUtil.getJedisClient()

 // rdd.foreach(data => {

 // val key: String = "cidStat" + "_" + data._1._1

 // val a = jedis.hincrBy(key, "bcTotal", data._2(0))

 // if (a > 0) println("自增成功") else println("自增失败")

 // jedis.hincrBy(key, "receive", data._2(1))

 // jedis.hincrBy(key, "waitingBc", data._2(2) - data._2(0))

 // })

 // jedis.close()

 // })

 //播控人内容统计 如果是相同的内容播控 条数去重

val bcPersonStat = baseData.map(t => ((t._1, t._4, t._2))).distinct()

// .updateStateByKey[Long]((seq: Seq[Int], state: Option[Long]) => {

 // //seq:Seq[Long] 当前批次中每个相同key的value组成的Seq

 // val currentValue = seq.sum

 // //state:Option[Long] 代表当前批次之前的所有批次的累计的结果，val对于wordcount而言就是先前所有批次中相同单词出现的总次数

// val preValue = state.getOrElse(0L)

 // Some(currentValue + preValue)

 // })

 .map(t => ((t._1, t._2), 1))

 .reduceByKey(_ + _)

 .foreachPartition(rdd => {

val jedis = JedisUtil.getJedisClient()

 rdd.foreach(data => {

val key: String = data._1._1 + "_" + data._1._2

 jedis.hincrBy(key, "bcPersonStat", data._2.toLong)

 })

//不释放的 会发生线程阻塞 无法进行数据插入

jedis.close()

 })

 })

 }

kafka 0.8+spark offset 提交至mysql的更多相关文章

kafka 0.11 spark 2.11 streaming例子
""" Counts words in UTF8 encoded, '\n' delimited text received from the network every ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
Offset Management For Apache Kafka With Apache Spark Streaming
An ingest pattern that we commonly see being adopted at Cloudera customers is Apache Spark Streaming ...
Kafka 0.9+Zookeeper3.4.6集群搭建、配置，新Client API的使用要点，高可用性测试，以及各种坑（转载）
Kafka 0.9版本对java client的api做出了较大调整,本文主要总结了Kafka 0.9在集群搭建.高可用性.新API方面的相关过程和细节,以及本人在安装调试过程中踩出的各种坑. 关于K ...
Kafka 0.10 KafkaConsumer流程简述
ConsumerConfig.scala 储存Consumer的配置按照我的理解,0.10的Kafka没有专门的SimpleConsumer,仍然是沿用0.8版本的. 1.从poll开始消费的规则 ...
Structured Streaming从Kafka 0.8中读取数据的问题
众所周知,Structured Streaming默认支持Kafka 0.10,没有提供针对Kafka 0.8的Connector,但这对高手来说不是事儿,于是有个Hortonworks的邵大牛(前段 ...
Kafka 0.11.0.0 实现 producer的Exactly-once 语义（中文）
很高兴地告诉大家,具备新的里程碑意义的功能的Kafka 0.11.x版本(对应 Confluent Platform 3.3)已经release,该版本引入了exactly-once语义,本文阐述的内 ...
【Spark】提交Spark任务-ClassNotFoundException-错误处理
提交Spark任务-ClassNotFoundException-错误处理 Overview - Spark 2.2.0 Documentation Spark Streaming - Spark 2 ...
Apache Kafka 0.9消费者客户端
当Kafka最初创建时,它与Scala生产者和消费者客户端一起运送.随着时间的推移,我们开始意识到这些API的许多限制.例如,我们有一个“高级”消费者API,它支持消费者组并处理故障转移,但不支持许多 ...

随机推荐

Thread interrupt() 线程中断的详细说明
GitHub源码地址原创声明:作者:Arnold.zhao 博客园地址:https://www.cnblogs.com/zh94 一个线程不应该由其他线程来强制中断或停止,而是应该由线程自己自行停止 ...
Google浏览器PostMan插件版安装步骤
PostMan插件版安装步骤: 第一步:把下载后的.crx扩展名的离线Chrome插件的文件扩展名改成.zip或者.rar 第二步:右键点击该文件,并使用压缩软件(如winrar.360压缩等)对该压 ...
web安全漏洞
1.什么是Web漏洞 WEB漏洞通常是指网站程序上的漏洞,可能是由于代码编写者在编写代码时考虑不周全等原因而造成的漏洞.如果网站存在WEB漏洞并被黑客攻击者利用,攻击者可以轻易控制整个网站,并可进一步 ...
scrapy爬虫登录edusrc查看漏洞列表
scrapy登录界面的难点在于登录时候的验证码,我们通过使用scrapy.FormRequest向目标网站提交数据(表单提交),同时将验证码显示在本地,手动输入,进而登录. 验证码是类似于这种的,才可 ...
dm8数据库的安装 for linux
目录 dm8数据库的安装 for linux 1.创建用户 2.修改limit的文件 3.解压文件安装包 4.挂载iso镜像 5.对于安装介质和目录进行权限授予 6.切换用户安装数据库软件 7.dm数 ...
Panda Global 要点聚焦，区块链在数字医疗的落地应
据Panda Global,随着区块链技术影响力的不断扩大,其应用性已涉及更加广泛的领域,不断更新着人们的认知.在区块链技术未介入之前,关于医疗行业和数字经济结合早已不是什么新鲜话题,相关研究不少但 ...
记一道好VAN的数学题
2020.4.12 Solution 首先发掘几个性质: \(99\) 个点可以分成 \(33\) 组,每组中个\(3\) 个点组成等边三角形.两两端点相差 \(33\) 条弧. 任意状态下,已经染完 ...
使用Binlog日志恢复误删的MySQL数据
解到: MySQL的binlog日志是什么?通常是用来干什么的? 模拟一次误删数据的操作,并且使用binlog日志恢复误删的数据. 写这篇文章的初衷,是有一次我真的险些把测试数据库的一张表给删除了,当 ...
微信端video去除最顶层播放
https://x5.tencent.com/tbs/guide/video.html 给video标签添加属性 x5-video-player-type="h5"
Idea中Web项目Jsp文件找不到类解决方法
在src下创建package,java代码放到包中,编译时才能在WEB-INFO的classes文件夹中生成可识别的class文件 https://blog.csdn.net/youwanname/a ...

kafka 0.8+spark offset 提交至mysql

kafka 0.8+spark offset 提交至mysql的更多相关文章

随机推荐

热门专题