sparkStreaming读取kafka写入hive表

sparkStreaming：

package hive

import java.io.File

import org.apache.kafka.clients.consumer.ConsumerRecord

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

/**

  * spark消费多个topic的数据写入不同的hive表

  */

object SparkToHive {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)

    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)

    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath

    @transient

    val spark = SparkSession

      .builder()

      .appName("Spark SQL To Hive")

      .config("spark.sql.warehouse.dir", warehouseLocation)

      .enableHiveSupport()

      .getOrCreate()

    spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    @transient

    val sc = spark.sparkContext

    val scc = new StreamingContext(sc, Seconds(1))

    val kafkaParams = Map[String, Object](

      "auto.offset.reset" -> "latest", //latest,earliest

      "value.deserializer" -> classOf[StringDeserializer]

      , "key.deserializer" -> classOf[StringDeserializer]

      , "bootstrap.servers" -> "10.200.10.24:6667,10.200.10.26:6667,10.200.10.29:6667"

      , "group.id" -> "test_jason"

      , "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    var stream: InputDStream[ConsumerRecord[String, String]] = null

    val topics = Array("test", "test1","test2")

    stream = KafkaUtils.createDirectStream[String, String](

      scc,

      LocationStrategies.PreferConsistent,

      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd=>{

      if (!rdd.isEmpty()) {

        val cache_rdd = rdd.map(_.value()).cache()

        // a 表

        val a = cache_rdd.filter(_.contains("hello"))

        // b 表

        val b = cache_rdd.filter(_.contains("jason"))

        // 都可以打印结果,下面的代码就不在写了,可以参考另一篇博客里面写hive的

        a.foreach(println)

        b.foreach(println)

      }

    })

    scc.start()

    scc.awaitTermination()

  }

}

sparkStreaming读取kafka写入hive表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
ASP.NET中如何读取和写入注册表
直接给源码: 读取注册表内容: RegistryKey regkey=Registry.LocalMachine.OpenSubKey(@"SOFTWARE\Microsoft\Window ...
【Visual Installer】如何读取与写入注册表信息
引入:using Microsoft.Win32; (1)读取注册表信息代码: RegistryKey rsg = null; rsg = Registry.LocalMachine.OpenSub ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
flume的sink写入hive表
flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind= ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
【翻译】Flink Table Api & SQL — Hive —— 读写 Hive 表
本文翻译自官网:Reading & Writing Hive Tables https://ci.apache.org/projects/flink/flink-docs-release-1 ...
ArcGIS AddIN开发之COM对象写入注册表
做一个交互式绘制文字的工具,希望这次设置的Symbol,下次打开ArcMap时自动调用这个Symbol,并支持对其进行修改. 解决方法是将这个Symbol写入注册表中,每次自动读取上一次设置的Symb ...

随机推荐

web模拟终端 --使用shellinabox
关于shellinabox ShellInABox实现了一个Web服务器,可以将任意命令行工具导出到基于Web的终端仿真器.任何支持JavaScript和CSS的Web浏览器都可以访问此模拟器,并且不 ...
浅谈Python设计模式 - 原型模式
声明,本系列文章主要参考<精通Python设计模式>一书,并且参考一些资料,结合自己的一些看法来总结而来. 在<精通Python设计模式>中把设计模式分为三种类型: 创建型模式 ...
H3C 无线交换机的数据转发原理
chrome开发者工具--使用 Network 面板测量您的网站网络性能。
转自:Tools for Web Developers Network 面板记录页面上每个网络操作的相关信息,包括详细的耗时数据.HTTP 请求与响应标头和 Cookie,等等. TL;DR 使用 ...
python测试开发django-67.templates模板变量取值
前言 django 的模板里面变量取值是通过句点语法来取值,就是一个点(.)符号.取值的对象也可以是字符串,int类型,list列表,字典键值对,也可以是一个类的实例对象. views视图比如我在 ...
vue 实战总结
相对angular 和react ,本人比较喜欢vue,现在的工作项目也在用vue,前两个有朋友在问我在使用vue中有没有遇到一些很难解决的问题,一下我也只能说出一两个,所以索性就抽时间总结一下我在项 ...
Properties 取值和设置函数 Hashtable的静态内部类Entry的结构和克隆方法
### Error updating database. Cause: java.sql.SQLIntegrityConstraintViolationException: ORA-02291: 违反完整约束条件 (SSM.SYS_C0011830) - 未找到父项关键字
在向Oracle数据库里面插入数据时发生了以下错误 ; ]; ORA-: 违反完整约束条件 (SSM.SYS_C0011830) - 未找到父项关键字 ; nested exception : 违反完 ...
项目（二） esp32-cam 网页图像人脸
https://randomnerdtutorials.com/esp32-cam-video-streaming-face-recognition-arduino-ide/ ESP32-CAM Pi ...
[Algorithm] 136. Single Number
Given a non-empty array of integers, every element appears twice except for one. Find that single on ...

sparkStreaming读取kafka写入hive表

sparkStreaming读取kafka写入hive表的更多相关文章

随机推荐

热门专题