1. ScalikeJDBC

ScalikeJDBC 是一款Scala 开发者使用的简洁 DB 访问类库，它是基于 SQL 的，使用者只需要关注 SQL 逻辑的编写，所有的数据库操作都交给 ScalikeJDBC。这个类库内置包含了JDBC API，并且给用户提供了简单易用并且非常灵活的 API。并且，QueryDSL(通用查询查询框架)使你的代码类型安全的并且可重复使用。我们可以在生产环境大胆地使用这款 DB 访问类库。

2.配置文件

//配置数据库信息

//使用IDEA，在resources文件夹下新建文件File文件名为application.conf

db.default.driver="com.mysql.jdbc.Driver"

db.default.url="jdbc:mysql://hadoop01:3306/kafkaOffset?characterEncodeing=utf-8"

db.default.user="root"

db.default.password="root"

3.导入依赖的jar包

<!--Maven依赖-->

<!--通过mysql保存偏移量-->

        <dependency>

            <groupId>com.typesafe</groupId>

            <artifactId>config</artifactId>

            <version>1.3.1</version>

        </dependency>

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-core_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

4.源码测试

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.StringDecoder

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.KafkaCluster.Err

import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaCluster, KafkaUtils, OffsetRange}

import org.apache.spark.streaming.{Duration, StreamingContext}

import scalikejdbc.{DB, SQL}

import scalikejdbc.config.DBs

/*

将偏移量保存到MySQL中

 */

object SparkStreamingOffsetMySql {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("medd").setMaster("local[2]")

    val ssc = new StreamingContext(conf,Duration(5000))

    //配置一系列基本配置

    val groupid = "GPMMCC"

    val topic = "mysqlDemo"

    val brokerList = "hadoop01:9092,hadoop02:9092,hadoop03:9092"

   // val zkQuorum = "hadoop01:2181,hadoop02:2181,hadoop03:2181"

    val topics = Set(topic)

    //设置kafka的参数

    val kafkaParams = Map(

      "metadata.broker.list"->brokerList,

      "group.id"->groupid,

      "auto.offset.reset"->kafka.api.OffsetRequest.SmallestTimeString

    )

    //加载配置 application.conf

    DBs.setup()

    //不需要查询zk中的offset啦，直接查询MySQL中的offset

    val fromdbOffset:Map[TopicAndPartition,Long]=

      DB.readOnly{

        implicit  session=>{

          //查询每个分组下面的所有消息

          SQL(s"select * from offset where groupId = '${groupid}'" +

           //将MySQL中的数据赋值给元组

            s"").map(m=>(TopicAndPartition(m.string("topic"),m.string("partitions").toInt),m.string("untilOffset").toLong))

            .toList().apply()

        }.toMap  //最后toMap ,应为前面的返回值已经给定

      }

    //创建一个DStream,用来获取数据

    var kafkaDStream : InputDStream[(String,String)] = null

    //从MySql中获取数据进行判断

    if(fromdbOffset.isEmpty){

      kafkaDStream = KafkaUtils.createDirectStream[String,String,StringDecoder,

        StringDecoder](ssc,kafkaParams,topics)

    }else{

      //1\ 不能重复消费

      //2\ 保证偏移量

      var checkOffset = Map[TopicAndPartition,Long]()

      //加载kafka的配置

      val kafkaCluster = new KafkaCluster(kafkaParams)

      //首先获得kafka中的所有的topic和partition Offset

      val earliesOffset: Either[Err, Map[TopicAndPartition, KafkaCluster.LeaderOffset]

        ] = kafkaCluster.getEarliestLeaderOffsets(fromdbOffset.keySet)

      //然后开始比较大小，用mysql中的offset和kafka中的offset进行比较

      if(earliesOffset.isRight){

        //去到需要的 大Map

        //物取值

        val tap: Map[TopicAndPartition, KafkaCluster.LeaderOffset] =

        earliesOffset.right.get

        //比较，直接进行比较大小

        val checkOffset = fromdbOffset.map(f => {

          //取kafka中的offset

          //进行比较，不需要重复消费，取最大的

          val KafkatopicOffset = tap.get(f._1).get.offset

          if (f._2 > KafkatopicOffset) {

            f

          } else {

            (f._1, KafkatopicOffset)

          }

        })

        checkOffset

      }

      val messageHandler=(mmd:MessageAndMetadata[String,String])=>{

        (mmd.key(),mmd.message())

      }

      //不是第一次启动的话 ，按照之前的偏移量取数据的偏移量

      kafkaDStream = KafkaUtils.createDirectStream[String,String,StringDecoder

        ,StringDecoder,(String,String)](ssc,kafkaParams,checkOffset

      ,messageHandler)

    }

    var offsetRanges = Array[OffsetRange]()

    kafkaDStream.foreachRDD(kafkaRDD=>{

     offsetRanges = kafkaRDD.asInstanceOf[HasOffsetRanges].offsetRanges

      val map: RDD[String] = kafkaRDD.map(_._2)

      map.foreach(println)

      //更新偏移量

        DB.localTx(implicit session =>{

          //去到所有的topic partition offset

          for (o<- offsetRanges){

            /*SQL("update offset set groupId=? topic=?,partition=?," +

              "untilsOffset=?").bind(groupid,o.topic,o.partition,o.untilOffset).update().apply()*/

            SQL("replace into offset(groupId,topic,partitions,untilOffset) values(?,?,?,?)").bind(

              groupid,o.topic,o.partition.toString,o.untilOffset.toString

            ).update().apply()

          }

        })

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

SparkStreaming直连方式读取kafka数据，使用MySQL保存偏移量的更多相关文章

Java基础知识强化之网络编程笔记16：Android网络通信之使用Http的Get方式读取网络数据（基于HTTP通信技术）
使用Http的Get方式读取网络数据,使用Get方式与网络通信是最常见的Http通信,建立链接之后就可以通过输入流读取网络数据. 详见:Android(java)学习笔记209:采用get请求提交数据 ...
flume 读取kafka 数据
本文介绍flume读取kafka数据的方法代码: /************************************************************************* ...
spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...
使用 Http 的 Get 方式读取网络数据
作为移动平台的应用,一定避免不了与网络交换数据,不论是读取网页数据,还是调用API接口,都必须掌握Http通信技术代码如下: package zw1; import java.io.Buffered ...
flink 读取kafka 数据，partition分配
每个并发有个编号,只会读取kafka partition % 总并发数 == 编号的分区如: 6 分区, 4个并发分区: p0 p1 p2 p3 p4 p5 并发: 0 1 2 3 ...
jxl读写excel, poi读写excel,word, 读取Excel数据到MySQL
这篇blog是介绍: 1. java中的poi技术读取Excel数据,然后保存到MySQL数据中. 2. jxl读写excel 你也可以在 : java的poi技术读取和导入Excel了解到写入Exc ...
关于mapreducer 读取hbase数据存入mysql的实现过程
mapreducer编程模型是一种八股文的代码逻辑,就以用户行为分析求流存率的作为例子 1.map端来说:必须继承hadoop规定好的mapper类:在读取hbase数据时,已经有现成的接口 Tabl ...
java的poi技术读取Excel数据到MySQL
这篇blog是介绍java中的poi技术读取Excel数据,然后保存到MySQL数据中. 你也可以在 : java的poi技术读取和导入Excel了解到写入Excel的方法信息使用JXL技术可以在 ...
php+phpspreadsheet读取Excel数据存入mysql
先生成Excel模板,然后导入Excel数据到mysql,每条数据对应图片上传到阿里云 <?php /** * Created by PhpStorm. * User: Administrato ...

随机推荐

Java学习日报10.1
学习内容一 ********************************** 代码 **********************************public class EnumTest ...
Beta冲刺——第九天
这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzzcxy/2018SE1 这个作业要求在哪里 https://edu.cnblogs.com/campus/fz ...
软件工程与UML代码互改
这个作业属于哪个课程https://edu.cnblogs.com/campus/fzzcxy/2018SE1/ 这个作业的要求在哪里https://edu.cnblogs.com/campus/fz ...
java:原子类的CAS
当一个处理器想要更新某个变量的值时,向总线发出LOCK#信号,此时其他处理器的对该变量的操作请求将被阻塞,发出锁定信号的处理器将独占共享内存,于是更新就是原子性的了. 1.compareAndSet- ...
最开始的总结——JAVA
<最开始的总结> 回答自己几个问题:为什么去学它?学它有什么用?怎样去学它?自己目前目标是什么?估计自己会花多长时间去学习这些? 一.为什么学习Java,它有什么用? 答:我看中的是Jav ...
音视频入门-19-使用giflib处理GIF图片
* 音视频入门文章目录 * GIFLIB The GIFLIB project 上一篇 [手动生成一张GIF图片], 自己生成了一张 GIF 动态图 rainbow.gif. 下面,使用 GIFLIB ...
[从源码学设计]蚂蚁金服SOFARegistry 之 ChangeNotifier
[从源码学设计]蚂蚁金服SOFARegistry 之 ChangeNotifier 目录 [从源码学设计]蚂蚁金服SOFARegistry 之 ChangeNotifier 0x00 摘要 0x01 ...
SpringBoot项目，如何优雅的把接口参数中的空白值替换为null值？
问题发生我们公司代码生成的时候,查询列表统一都是使用了setEntity() ,查询写法如下: public List<BasReservoirArea> selectList(BasR ...
【Spring】Spring 入门
Spring 入门文章源码 Spring 概述 Spring Spring 是分层的 Java SE/EE 应用全栈式轻量级开源框架,以 IOC(Inverse Of Control,反转控制)和 ...
LeetCode108 将有序数组转为二叉搜索树
将一个按照升序排列的有序数组,转换为一棵高度平衡二叉搜索树. 本题中,一个高度平衡二叉树是指一个二叉树每个节点的左右两个子树的高度差的绝对值不超过 1. 示例: 给定有序数组: [-10,-3,0, ...

SparkStreaming直连方式读取kafka数据，使用MySQL保存偏移量

SparkStreaming直连方式读取kafka数据，使用MySQL保存偏移量

1. ScalikeJDBC

2.配置文件

3.导入依赖的jar包

4.源码测试

SparkStreaming直连方式读取kafka数据，使用MySQL保存偏移量的更多相关文章

随机推荐

热门专题