Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

SparkSQL读取Kudu,写出到Kafka

背景：通过spark SQL读kudu表，写入到kafka

参考：1.spark向kafka写入数据 2.通过Spark向Kafka写入数据

1. pom.xml 依赖

    <dependencies>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>6.0.6</version>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <dependency>

            <groupId>c3p0</groupId>

            <artifactId>c3p0</artifactId>

            <version>0.9.1.1</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.6.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-client -->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-client</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--spark集成kudu-->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--执行sql脚本-->

        <dependency>

            <groupId>org.mybatis</groupId>

            <artifactId>mybatis</artifactId>

            <version>3.5.3</version>

        </dependency>

        <!--读取配置-->

        <dependency>

            <groupId>commons-configuration</groupId>

            <artifactId>commons-configuration</artifactId>

            <version>1.8</version>

        </dependency>

        <!--clickhouse-->

        <dependency>

            <groupId>cc.blynk.clickhouse</groupId>

            <artifactId>clickhouse4j</artifactId>

            <version>1.4.4</version>

        </dependency>

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.36</version>

        </dependency>

        <!--druid-->

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>druid-spring-boot-starter</artifactId>

            <version>1.1.10</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

        </dependency>

        <!--kafka-->

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>1.1.0</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <!-- 这是个编译scala代码的 -->

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.1</version>

                <executions>

                    <execution>

                        <id>scala-compile-first</id>

                        <phase>process-resources</phase>

                        <goals>

                            <goal>add-source</goal>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- 这是个编译java代码的 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.0</version>

                <configuration>

                    <!--注意这里使用jdk8,否则不能使用java8的lambda表达式和流API-->

                    <source>8</source>

                    <target>8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

                <executions>

                    <execution>

                        <phase>compile</phase>

                        <goals>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!--maven-assembly-plugin不能打包spring Framework框架的项目，

            可以使用maven-shade-plugin插件-->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>2.5.5</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>com.tal.mysql2kudu.MysqlToKudu_v1</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

package com.tal.spark

import java.util.concurrent.Future

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}

class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {

  /* This is the key idea that allows us to work around running into

     NotSerializableExceptions. */

  lazy val producer = createProducer()

  def send(topic: String, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, key, value))

  def send(topic: String, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, value))

  def send(topic: String, partition: Int, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, partition, key, value))

}

object KafkaSink {

  import scala.collection.JavaConversions._

  def apply[K, V](config: Map[String, Object]): KafkaSink[K, V] = {

    val createProducerFunc = () => {

      val producer = new KafkaProducer[K, V](config)

      sys.addShutdownHook {

        // Ensure that, on executor JVM shutdown, the Kafka producer sends

        // any buffered messages to Kafka before shutting down.

        println("KafkaSink close producer")

        producer.close()

      }

      producer

    }

    new KafkaSink(createProducerFunc)

  }

  def apply[K, V](config: java.util.Properties): KafkaSink[K, V] = apply(config.toMap)

}

3.利用广播变量，将KafkaProducer广播到每一个executor

完整代码

package com.tal.spark

import java.util.Properties

import com.alibaba.fastjson.JSONObject

import org.apache.kafka.clients.producer.KafkaProducer

import org.apache.kafka.common.serialization.StringSerializer

import org.apache.spark.broadcast.Broadcast

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.slf4j.{Logger, LoggerFactory}

/**

 * @description: TODO 读kudu写入kafka

 * @author: HaoWu

 * @create: 2021年06月30日

 */

object Kudu2Kafka {

  private val logger: Logger = LoggerFactory.getLogger(Kudu2Kafka.getClass)

  //kudu配置信息

  private val kuduMaster = "hadoop101:7051"

  //private val kuduTableName1 = "impala::dwddb.rt_dwd_rm_distribution_res_data_detail_new"

  private val kuduTableName = "person"

  //kafka 配置信息

  private val bootstrapServers = "hadoop102:9092"

  private val topic = "kudu_to_kafka_test"

  val schema = Array("id", "CompanyId", "WorkId", "Name", "Gender", "Photo")

  def main(args: Array[String]): Unit = {

    // 构建SparkSession

    /*        val spark: SparkSession = SparkSession

              .builder()

              .config("spark.default.parallelism", 200)

              .config("spark.shuffle.file.buffer", "128k")

              .config("spark.reducer.maxSizeInFlight", "96m")

              .config("spark.shuffle.memoryFraction", 0.3)

              .config("spark.storage.memoryFraction", 0.3)

              .enableHiveSupport()

              .getOrCreate()*/

    //1. 构建SparkSession实例对象

    val spark: SparkSession = SparkSession.builder()

      .master("local[2]")

      .config("spark.sql.shuffle.partitions", "2")

      .config("spark.default.parallelism", 200)

      .config("spark.shuffle.file.buffer", "128k")

      .config("spark.reducer.maxSizeInFlight", "96m")

      .config("spark.shuffle.memoryFraction", 0.3)

      .config("spark.storage.memoryFraction", 0.3)

      .getOrCreate()

    logger.info("加载kudu数据~~")

    val time1 = System.currentTimeMillis()

    val result: DataFrame = getKuduData(spark, kuduMaster, kuduTableName)

    val time2 = System.currentTimeMillis()

    val time = time2 - time1

    logger.info("加载完成~~~：耗时：" + time + " ms！")

    logger.info("数据开始发送到kafka")

    write2Kafka(result, spark, 3,bootstrapServers,topic)

    logger.info("-----> 数据发送到kafka完成完成！！！ <-------")

    spark.stop()

  }

  /**

   * TODO 获取 kudu DF

   *

   * @param spark

   * @param kuduMaster

   * @param kuduTableName

   */

  def getKuduData(spark: SparkSession, kuduMaster: String, kuduTableName: String): DataFrame = {

    import spark.implicits._

    // 1. 定义 map 集合，封装 kudu的master地址.表名

    val options = Map(

      "kudu.master" -> kuduMaster,

      "kudu.table" -> kuduTableName,

      // 200M

      "kudu.batchSize" -> "419430400",

      // 10G

      "kudu.splitSizeBytes" -> "10737418240",

      "kudu.keepAlivePeriodMs" -> "36000000",

      "kudu.scanRequestTimeoutMs" -> "36000000",

      "kudu.faultTolerantScan" -> "true",

      "kudu.scanLocality" -> "leader_only" // 设置， 否则可能出现scanner not found异常

    )

    // 2. 从Kudu表加载数据

    val kuduDF: DataFrame = spark.read

      .format("kudu")

      .options(options)

      .load()

    //打印

//    kuduDF.printSchema()

//    kuduDF.show(10, truncate = false)

    val tempView = "person"

    kuduDF.createOrReplaceTempView(tempView)

    val sql =

      s"""

         |select

         |    row_number() over(order by CompanyId) as id,

         |    CompanyId,

         |    WorkId,

         |    Name,

         |    Gender,

         |    Photo

         |from ${tempView}

         |""".stripMargin

    val result: DataFrame = spark.sql(sql)

    result

  }

  /**

   * TODO 写出 kafka

   *

   * @param result

   * @param spark

   * @param numPartitions

   */

  def write2Kafka(result: DataFrame, spark: SparkSession, numPartitions: Int,bootstrapServers:String,topic:String): Unit = {

    // 广播KafkaSink

    val kafkaProducer: Broadcast[KafkaSink[String, String]] = {

      val kafkaProducerConfig = {

        val p = new Properties()

        p.setProperty("bootstrap.servers",bootstrapServers)

        p.setProperty("key.serializer", classOf[StringSerializer].getName)

        p.setProperty("value.serializer", classOf[StringSerializer].getName)

        p

      }

      logger.warn("kafka producer init done!")

      spark.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConfig))

    }

    //输出到kafka

    try {

      result.foreach(

       row => {

            val jsonObj = new JSONObject()

            schema.foreach(field => {

              val fieldKey = field

              val fieldValue = row.getAs[Any](fieldKey)

              jsonObj.put(fieldKey, fieldValue)

            })

            kafkaProducer.value.send(topic,jsonObj.toString)

          })

    } catch {

      case ex:Exception =>

        logger.error("写入kafka异常，异常为："+ex)

        throw ex

    }

  }

}

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

storm集成kafka的应用，从kafka读取，写入kafka
storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流 ...
金融量化分析【day110】：Pandas-DataFrame读取与写入
一.DataFrame DataFrame是一个表格型的数据结构,含有一组有序的列 DataFrame可以被看作是有Series组成的字典并且工用一个索引 1.创建方式 pd.DataFrame({' ...
Flume 读取RabbitMq消息队列消息，并将消息写入kafka
首先是关于flume的基础介绍组件名称功能介绍 Agent代理使用JVM 运行Flume.每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks. Client ...
Spark学习之数据读取与保存总结(二)
8.Hadoop输入输出格式除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互.Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性. 要使用新版的 Ha ...
Kafka设计解析（二十一）关于Kafka幂等producer的讨论
转载自 huxihx,原文链接关于Kafka幂等producer的讨论众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS) ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
spark基础知识介绍(包含foreachPartition写入mysql）
数据本地性数据计算尽可能在数据所在的节点上运行,这样可以减少数据在网络上的传输,毕竟移动计算比移动数据代价小很多.进一步看,数据如果在运行节点的内存中,就能够进一步减少磁盘的I/O的传输.在spar ...
牢记！SQL Server数据库开发的二十一条注意点
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS). ...
SQL Server数据库开发的二十一条军规
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS).在这 ...

随机推荐

栈的压入、弹出顺序牛客网剑指Offer
栈的压入.弹出顺序牛客网剑指Offer 题目描述输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否可能为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是 ...
udev 使用方法
原文地址 http://blog.163.com/againinput4@yeah/blog/static/122764271200962305339483/ 最近有在研究SD卡设备节点自动创建及挂载 ...
『学了就忘』Linux基础 — 16、Linux系统与Windows系统的不同
目录 1.Linux严格区分大小写 2.Linux一切皆文件 3.Linux不靠扩展名区分文件类型 4.Linux中所有的存储设备都必须在挂载之后才能使用 5.Windows下的程序不能直接在Linu ...
接口自动化 - pytest-fixture -scope作用范围
接口自动化-pytest中的fixture - scope 介绍 fixture文章中介绍的比较少,同学们可以去搜索下fixture的详解或者去看看源码 ...
Java Logback简易教程
本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可. 一.前言本文以一个简单的项目为例,一步步展示logback的同步和异步配置方法,并且配置的日志要求满足阿里巴巴Java开发手册- ...
2020美亚团体—Daniel篇
Daniel的桌上计算机的哈希值(SHA-256)是甚么? 通过取证大师计算 SHA-256值为 07DD40CF28603F421F3A09CD38F1C8AA40A2AC4BFB46ECF8299 ...
[LINUX] Arch Linux 硬盘拷贝式装系统+新增 home 分区
目录前言 1. 实操 1.1 整个磁盘拷贝 1.2 创建 home 分区 1.3 修改 fstab 实现自动挂载 2. 涉及到的知识点 2.1 fstab 2.2 dd 命令 2.3 fdisk 命 ...
WPF进阶技巧和实战09-事件（2-多点触控）
多点触控输入多点触控输入和传统的基于比的输入的区别是多点触控识别手势,用户可以移动多根手指以执行常见的操作,放大,旋转,拖动等. 多点触控的输入层次 WPF允许使用键盘和鼠标的高层次输入(例如单击和 ...
菜鸡的Java笔记实践 - java 数组操作
讲解一个继承的实现思路要求定义一个数组操作类(Array类),在这个类里面可以进行整型数组的操作,由外部传入数组的大小 ,并且要求实现数据的保存以及数据的 ...
ASP.NET Core 学习笔记第五篇 ASP.NET Core 中的选项
前言还记得上一篇文章中所说的配置吗?本篇文章算是上一篇的延续吧.在 .NET Core 中读取配置文件大多数会为配置选项绑定一个POCO(Plain Old CLR Object)对象,并通过依赖注 ...

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

1. pom.xml 依赖

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

3.利用广播变量，将KafkaProducer广播到每一个executor

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

随机推荐

热门专题