Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

SparkSQL读取Kudu,写出到Kafka

背景：通过spark SQL读kudu表，写入到kafka

参考：1.spark向kafka写入数据 2.通过Spark向Kafka写入数据

1. pom.xml 依赖

    <dependencies>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>6.0.6</version>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <dependency>

            <groupId>c3p0</groupId>

            <artifactId>c3p0</artifactId>

            <version>0.9.1.1</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.6.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-client -->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-client</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--spark集成kudu-->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--执行sql脚本-->

        <dependency>

            <groupId>org.mybatis</groupId>

            <artifactId>mybatis</artifactId>

            <version>3.5.3</version>

        </dependency>

        <!--读取配置-->

        <dependency>

            <groupId>commons-configuration</groupId>

            <artifactId>commons-configuration</artifactId>

            <version>1.8</version>

        </dependency>

        <!--clickhouse-->

        <dependency>

            <groupId>cc.blynk.clickhouse</groupId>

            <artifactId>clickhouse4j</artifactId>

            <version>1.4.4</version>

        </dependency>

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.36</version>

        </dependency>

        <!--druid-->

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>druid-spring-boot-starter</artifactId>

            <version>1.1.10</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

        </dependency>

        <!--kafka-->

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>1.1.0</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <!-- 这是个编译scala代码的 -->

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.1</version>

                <executions>

                    <execution>

                        <id>scala-compile-first</id>

                        <phase>process-resources</phase>

                        <goals>

                            <goal>add-source</goal>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- 这是个编译java代码的 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.0</version>

                <configuration>

                    <!--注意这里使用jdk8,否则不能使用java8的lambda表达式和流API-->

                    <source>8</source>

                    <target>8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

                <executions>

                    <execution>

                        <phase>compile</phase>

                        <goals>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!--maven-assembly-plugin不能打包spring Framework框架的项目，

            可以使用maven-shade-plugin插件-->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>2.5.5</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>com.tal.mysql2kudu.MysqlToKudu_v1</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

package com.tal.spark

import java.util.concurrent.Future

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}

class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {

  /* This is the key idea that allows us to work around running into

     NotSerializableExceptions. */

  lazy val producer = createProducer()

  def send(topic: String, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, key, value))

  def send(topic: String, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, value))

  def send(topic: String, partition: Int, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, partition, key, value))

}

object KafkaSink {

  import scala.collection.JavaConversions._

  def apply[K, V](config: Map[String, Object]): KafkaSink[K, V] = {

    val createProducerFunc = () => {

      val producer = new KafkaProducer[K, V](config)

      sys.addShutdownHook {

        // Ensure that, on executor JVM shutdown, the Kafka producer sends

        // any buffered messages to Kafka before shutting down.

        println("KafkaSink close producer")

        producer.close()

      }

      producer

    }

    new KafkaSink(createProducerFunc)

  }

  def apply[K, V](config: java.util.Properties): KafkaSink[K, V] = apply(config.toMap)

}

3.利用广播变量，将KafkaProducer广播到每一个executor

完整代码

package com.tal.spark

import java.util.Properties

import com.alibaba.fastjson.JSONObject

import org.apache.kafka.clients.producer.KafkaProducer

import org.apache.kafka.common.serialization.StringSerializer

import org.apache.spark.broadcast.Broadcast

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.slf4j.{Logger, LoggerFactory}

/**

 * @description: TODO 读kudu写入kafka

 * @author: HaoWu

 * @create: 2021年06月30日

 */

object Kudu2Kafka {

  private val logger: Logger = LoggerFactory.getLogger(Kudu2Kafka.getClass)

  //kudu配置信息

  private val kuduMaster = "hadoop101:7051"

  //private val kuduTableName1 = "impala::dwddb.rt_dwd_rm_distribution_res_data_detail_new"

  private val kuduTableName = "person"

  //kafka 配置信息

  private val bootstrapServers = "hadoop102:9092"

  private val topic = "kudu_to_kafka_test"

  val schema = Array("id", "CompanyId", "WorkId", "Name", "Gender", "Photo")

  def main(args: Array[String]): Unit = {

    // 构建SparkSession

    /*        val spark: SparkSession = SparkSession

              .builder()

              .config("spark.default.parallelism", 200)

              .config("spark.shuffle.file.buffer", "128k")

              .config("spark.reducer.maxSizeInFlight", "96m")

              .config("spark.shuffle.memoryFraction", 0.3)

              .config("spark.storage.memoryFraction", 0.3)

              .enableHiveSupport()

              .getOrCreate()*/

    //1. 构建SparkSession实例对象

    val spark: SparkSession = SparkSession.builder()

      .master("local[2]")

      .config("spark.sql.shuffle.partitions", "2")

      .config("spark.default.parallelism", 200)

      .config("spark.shuffle.file.buffer", "128k")

      .config("spark.reducer.maxSizeInFlight", "96m")

      .config("spark.shuffle.memoryFraction", 0.3)

      .config("spark.storage.memoryFraction", 0.3)

      .getOrCreate()

    logger.info("加载kudu数据~~")

    val time1 = System.currentTimeMillis()

    val result: DataFrame = getKuduData(spark, kuduMaster, kuduTableName)

    val time2 = System.currentTimeMillis()

    val time = time2 - time1

    logger.info("加载完成~~~：耗时：" + time + " ms！")

    logger.info("数据开始发送到kafka")

    write2Kafka(result, spark, 3,bootstrapServers,topic)

    logger.info("-----> 数据发送到kafka完成完成！！！ <-------")

    spark.stop()

  }

  /**

   * TODO 获取 kudu DF

   *

   * @param spark

   * @param kuduMaster

   * @param kuduTableName

   */

  def getKuduData(spark: SparkSession, kuduMaster: String, kuduTableName: String): DataFrame = {

    import spark.implicits._

    // 1. 定义 map 集合，封装 kudu的master地址.表名

    val options = Map(

      "kudu.master" -> kuduMaster,

      "kudu.table" -> kuduTableName,

      // 200M

      "kudu.batchSize" -> "419430400",

      // 10G

      "kudu.splitSizeBytes" -> "10737418240",

      "kudu.keepAlivePeriodMs" -> "36000000",

      "kudu.scanRequestTimeoutMs" -> "36000000",

      "kudu.faultTolerantScan" -> "true",

      "kudu.scanLocality" -> "leader_only" // 设置， 否则可能出现scanner not found异常

    )

    // 2. 从Kudu表加载数据

    val kuduDF: DataFrame = spark.read

      .format("kudu")

      .options(options)

      .load()

    //打印

//    kuduDF.printSchema()

//    kuduDF.show(10, truncate = false)

    val tempView = "person"

    kuduDF.createOrReplaceTempView(tempView)

    val sql =

      s"""

         |select

         |    row_number() over(order by CompanyId) as id,

         |    CompanyId,

         |    WorkId,

         |    Name,

         |    Gender,

         |    Photo

         |from ${tempView}

         |""".stripMargin

    val result: DataFrame = spark.sql(sql)

    result

  }

  /**

   * TODO 写出 kafka

   *

   * @param result

   * @param spark

   * @param numPartitions

   */

  def write2Kafka(result: DataFrame, spark: SparkSession, numPartitions: Int,bootstrapServers:String,topic:String): Unit = {

    // 广播KafkaSink

    val kafkaProducer: Broadcast[KafkaSink[String, String]] = {

      val kafkaProducerConfig = {

        val p = new Properties()

        p.setProperty("bootstrap.servers",bootstrapServers)

        p.setProperty("key.serializer", classOf[StringSerializer].getName)

        p.setProperty("value.serializer", classOf[StringSerializer].getName)

        p

      }

      logger.warn("kafka producer init done!")

      spark.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConfig))

    }

    //输出到kafka

    try {

      result.foreach(

       row => {

            val jsonObj = new JSONObject()

            schema.foreach(field => {

              val fieldKey = field

              val fieldValue = row.getAs[Any](fieldKey)

              jsonObj.put(fieldKey, fieldValue)

            })

            kafkaProducer.value.send(topic,jsonObj.toString)

          })

    } catch {

      case ex:Exception =>

        logger.error("写入kafka异常，异常为："+ex)

        throw ex

    }

  }

}

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

storm集成kafka的应用，从kafka读取，写入kafka
storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流 ...
金融量化分析【day110】：Pandas-DataFrame读取与写入
一.DataFrame DataFrame是一个表格型的数据结构,含有一组有序的列 DataFrame可以被看作是有Series组成的字典并且工用一个索引 1.创建方式 pd.DataFrame({' ...
Flume 读取RabbitMq消息队列消息，并将消息写入kafka
首先是关于flume的基础介绍组件名称功能介绍 Agent代理使用JVM 运行Flume.每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks. Client ...
Spark学习之数据读取与保存总结(二)
8.Hadoop输入输出格式除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互.Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性. 要使用新版的 Ha ...
Kafka设计解析（二十一）关于Kafka幂等producer的讨论
转载自 huxihx,原文链接关于Kafka幂等producer的讨论众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS) ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
spark基础知识介绍(包含foreachPartition写入mysql）
数据本地性数据计算尽可能在数据所在的节点上运行,这样可以减少数据在网络上的传输,毕竟移动计算比移动数据代价小很多.进一步看,数据如果在运行节点的内存中,就能够进一步减少磁盘的I/O的传输.在spar ...
牢记！SQL Server数据库开发的二十一条注意点
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS). ...
SQL Server数据库开发的二十一条军规
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS).在这 ...

随机推荐

hdu 1069 Monkey and Banana（记忆搜）
题意: N(不超过30)种木块,每种木块有长.宽.高x,y,z. 木块A可以搭在木块B上当且仅当A的底面长和宽都分别小于B的顶面的长与宽,即不能有超出B的部分. 问垒起来的"木块塔" ...
Centos 8 阿里yum源配置
编辑 CentOS-AppStream.repo配置文件,注释原有url,加入以下url baseurl=https://mirrors.aliyun.com/centos/$releasever/A ...
Linux下向windows传输文件【sz 文件】没有弹框提示下载到什么位置
Linux环境向windows环境传输文件 security crt工具,同同一个软件,连接不同服务器,有的服务器传送文件没有弹框选择要下载的文件路径,可以在[Options]-[Session Op ...
四种 AI 技术方案，教你拥有自己的 Avatar 形象
大火的 Avatar到底是什么 ? 随着元宇宙概念的大火,Avatar 这个词也开始越来越多出现在人们的视野.2009 年,一部由詹姆斯・卡梅隆执导 3D 科幻大片<阿凡达>让很多人认识了 ...
PTA 列车调度 (25分)
PTA 列车调度 (25分) [程序实现] #include<bits/stdc++.h> using namespace std; int main(){ int num,n; cin& ...
vue修改启动的端口和host
打开vue项目(dev) dev/config/ 路径修改index.js文件然后对host和pord修改指定的即可 host: 'localhost', // can be overwritten ...
史上最简单的排序算法？看起来却满是bug
大家好,我是雨乐. 今天在搜论文的时候,偶然发现一篇文章,名为<Is this the simplest (and most surprising) sorting algorithm ever ...
求求你们了，别再写满屏的 if/ else 了！
为什么我们写的代码都是 if-else? 程序员想必都经历过这样的场景:刚开始自己写的代码很简洁,逻辑清晰,函数精简,没有一个 if-else,可随着代码逻辑不断完善和业务的瞬息万变:比如需要对入参进 ...
IntelliJ IDEA竟然出了可以在云端编码的功能？
前言自从我用了正版的IntelliJ IDEA后,基本上都是与时俱进,出一个新版本就立马更新,这也能能让我体验到最新最快的功能. 最近在闲逛Jetbrains的官网时,看到了最新的2021.3EAP ...
HTTP1.1 Keep-Alive到底算不算长连接？
在基础架构部沉浸了半年,有一些认知刷新想和童靴们交代一下, 不一定全面,仅代表此时的认知, 也欢迎筒靴们提出看法. 本文聊一聊口嗨用语:"长连接.短连接", 文章会按照下面的思维导 ...

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

1. pom.xml 依赖

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

3.利用广播变量，将KafkaProducer广播到每一个executor

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

随机推荐

热门专题