sparkStreaming读取kafka写入hive表

sparkStreaming：

package hive

import java.io.File

import org.apache.kafka.clients.consumer.ConsumerRecord

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

/**

  * spark消费多个topic的数据写入不同的hive表

  */

object SparkToHive {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)

    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)

    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath

    @transient

    val spark = SparkSession

      .builder()

      .appName("Spark SQL To Hive")

      .config("spark.sql.warehouse.dir", warehouseLocation)

      .enableHiveSupport()

      .getOrCreate()

    spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    @transient

    val sc = spark.sparkContext

    val scc = new StreamingContext(sc, Seconds(1))

    val kafkaParams = Map[String, Object](

      "auto.offset.reset" -> "latest", //latest,earliest

      "value.deserializer" -> classOf[StringDeserializer]

      , "key.deserializer" -> classOf[StringDeserializer]

      , "bootstrap.servers" -> "10.200.10.24:6667,10.200.10.26:6667,10.200.10.29:6667"

      , "group.id" -> "test_jason"

      , "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    var stream: InputDStream[ConsumerRecord[String, String]] = null

    val topics = Array("test", "test1","test2")

    stream = KafkaUtils.createDirectStream[String, String](

      scc,

      LocationStrategies.PreferConsistent,

      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd=>{

      if (!rdd.isEmpty()) {

        val cache_rdd = rdd.map(_.value()).cache()

        // a 表

        val a = cache_rdd.filter(_.contains("hello"))

        // b 表

        val b = cache_rdd.filter(_.contains("jason"))

        // 都可以打印结果,下面的代码就不在写了,可以参考另一篇博客里面写hive的

        a.foreach(println)

        b.foreach(println)

      }

    })

    scc.start()

    scc.awaitTermination()

  }

}

sparkStreaming读取kafka写入hive表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
ASP.NET中如何读取和写入注册表
直接给源码: 读取注册表内容: RegistryKey regkey=Registry.LocalMachine.OpenSubKey(@"SOFTWARE\Microsoft\Window ...
【Visual Installer】如何读取与写入注册表信息
引入:using Microsoft.Win32; (1)读取注册表信息代码: RegistryKey rsg = null; rsg = Registry.LocalMachine.OpenSub ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
flume的sink写入hive表
flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind= ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
【翻译】Flink Table Api & SQL — Hive —— 读写 Hive 表
本文翻译自官网:Reading & Writing Hive Tables https://ci.apache.org/projects/flink/flink-docs-release-1 ...
ArcGIS AddIN开发之COM对象写入注册表
做一个交互式绘制文字的工具,希望这次设置的Symbol,下次打开ArcMap时自动调用这个Symbol,并支持对其进行修改. 解决方法是将这个Symbol写入注册表中,每次自动读取上一次设置的Symb ...

随机推荐

一步一步从PostgreSQL安装到delphi 访问
今天,我们使用ubuntu 19 来安装PostgreSQL. 1.直接使用包安装 sudo apt-get install postgresql 按Y,直接安装. 安装完毕. 初次安装后,默认生成一 ...
spring注入注解@Resource和@Autowired
一.@Autowired和@Qualifier @Autowired是自动注入的注解,写在属性.方法.构造方法上,会按照类型自动装配属性或参数.该注解,可以自动装配接口的实现类,但前提是spring容 ...
《linux就该这么学》课堂笔记10 SWAP、磁盘容量配额、软硬链接、RAID
1988年,加利福尼亚大学伯克利分校首次提出并定义了RAID技术的概念.RAID技术通过把多个硬盘设备组合成一个容量更大.安全性更好的磁盘阵列,并把数据切割成多个区段后分别存放在各个不同的物理硬盘设备 ...
k8s的pod或者ns资源一直terminating删除办法
假设你要删掉的ns资源,发现一直删不了处于terminating状态 1.首先试一下先把这个ns的所有pod都删掉kubectl delete pod --all -n <terminating ...
Virtualbox 设置虚拟机和物理机共享文件夹
Virtualbox 设置虚拟机和物理机共享文件夹概述当我们在本地机安装好一个虚拟机后,特别是安装linux系统的朋友们,经常需要将本地机的文件传递到虚拟机中, 能实现的方式肯定是多式多样的,就本 ...
driver.implicitly_wait()与time.sleep()的区别
implicitly_wait(5)属于隐式等待,5秒钟内只要找到了元素就开始执行,5秒钟后未找到,就超时: time.sleep(5)表示必须等待5秒定位: 如何灵活运用这两种方式: 当某个页面元素 ...
Vue工程化之引入element-ui框架后图标失效
场景: vue-cli搭建的工程化项目,引入element框架后发现图标无效,变为方块解决方案: 在index.html引入样式文件CDN链接即可  <l ...
NameNode和SecondaryNameNode
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/weixin_37838429/artic ...
31 Game-Based Learning Resources for Educators
https://www.legendsoflearning.com/resource/31-game-based-learning-resources-for-educators/ Game base ...
What is react-native link?
What is react-native link? or Should you just use react-native link when linking any dependency or s ...

sparkStreaming读取kafka写入hive表

sparkStreaming读取kafka写入hive表的更多相关文章

随机推荐

热门专题