sparkStreaming读取kafka写入hive表
sparkStreaming:
package hive import java.io.File
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} /**
* spark消费多个topic的数据写入不同的hive表
*/
object SparkToHive {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)
Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)
val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath
@transient
val spark = SparkSession
.builder()
.appName("Spark SQL To Hive")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") @transient
val sc = spark.sparkContext
val scc = new StreamingContext(sc, Seconds(1))
val kafkaParams = Map[String, Object](
"auto.offset.reset" -> "latest", //latest,earliest
"value.deserializer" -> classOf[StringDeserializer]
, "key.deserializer" -> classOf[StringDeserializer]
, "bootstrap.servers" -> "10.200.10.24:6667,10.200.10.26:6667,10.200.10.29:6667"
, "group.id" -> "test_jason"
, "enable.auto.commit" -> (true: java.lang.Boolean)
) var stream: InputDStream[ConsumerRecord[String, String]] = null
val topics = Array("test", "test1","test2") stream = KafkaUtils.createDirectStream[String, String](
scc,
LocationStrategies.PreferConsistent,
ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
) stream.foreachRDD(rdd=>{
if (!rdd.isEmpty()) {
val cache_rdd = rdd.map(_.value()).cache()
// a 表
val a = cache_rdd.filter(_.contains("hello"))
// b 表
val b = cache_rdd.filter(_.contains("jason"))
// 都可以打印结果,下面的代码就不在写了,可以参考另一篇博客里面写hive的
a.foreach(println)
b.foreach(println)
}
})
scc.start()
scc.awaitTermination()
}
}
sparkStreaming读取kafka写入hive表的更多相关文章
- spark读取mongodb数据写入hive表中
		
一 环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
 - ASP.NET中如何读取和写入注册表
		
直接给源码: 读取注册表内容: RegistryKey regkey=Registry.LocalMachine.OpenSubKey(@"SOFTWARE\Microsoft\Window ...
 - 【Visual Installer】如何读取与写入注册表信息
		
引入:using Microsoft.Win32; (1)读取注册表信息 代码: RegistryKey rsg = null; rsg = Registry.LocalMachine.OpenSub ...
 - 【原创】大叔经验分享(65)spark读取不到hive表
		
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
 - sparkStreaming读取kafka的两种方式
		
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
 - flume的sink写入hive表
		
flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind= ...
 - 将DataFrame数据如何写入到Hive表中
		
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
 - 【翻译】Flink Table Api & SQL — Hive —— 读写 Hive 表
		
本文翻译自官网:Reading & Writing Hive Tables https://ci.apache.org/projects/flink/flink-docs-release-1 ...
 - ArcGIS AddIN开发之COM对象写入注册表
		
做一个交互式绘制文字的工具,希望这次设置的Symbol,下次打开ArcMap时自动调用这个Symbol,并支持对其进行修改. 解决方法是将这个Symbol写入注册表中,每次自动读取上一次设置的Symb ...
 
随机推荐
- 一步一步从PostgreSQL安装到delphi 访问
			
今天,我们使用ubuntu 19 来安装PostgreSQL. 1.直接使用包安装 sudo apt-get install postgresql 按Y,直接安装. 安装完毕. 初次安装后,默认生成一 ...
 - spring注入注解@Resource和@Autowired
			
一.@Autowired和@Qualifier @Autowired是自动注入的注解,写在属性.方法.构造方法上,会按照类型自动装配属性或参数.该注解,可以自动装配接口的实现类,但前提是spring容 ...
 - 《linux就该这么学》课堂笔记10 SWAP、磁盘容量配额、软硬链接、RAID
			
1988年,加利福尼亚大学伯克利分校首次提出并定义了RAID技术的概念.RAID技术通过把多个硬盘设备组合成一个容量更大.安全性更好的磁盘阵列,并把数据切割成多个区段后分别存放在各个不同的物理硬盘设备 ...
 - k8s的pod或者ns资源一直terminating删除办法
			
假设你要删掉的ns资源,发现一直删不了处于terminating状态 1.首先试一下先把这个ns的所有pod都删掉kubectl delete pod --all -n <terminating ...
 - Virtualbox 设置虚拟机和物理机共享文件夹
			
Virtualbox 设置虚拟机和物理机共享文件夹 概述 当我们在本地机安装好一个虚拟机后,特别是安装linux系统的朋友们,经常需要将本地机的文件传递到虚拟机中, 能实现的方式肯定是多式多样的,就本 ...
 - driver.implicitly_wait()与time.sleep()的区别
			
implicitly_wait(5)属于隐式等待,5秒钟内只要找到了元素就开始执行,5秒钟后未找到,就超时: time.sleep(5)表示必须等待5秒定位: 如何灵活运用这两种方式: 当某个页面元素 ...
 - Vue工程化之引入element-ui框架后图标失效
			
场景: vue-cli搭建的工程化项目,引入element框架后发现图标无效,变为方块 解决方案: 在index.html引入样式文件CDN链接即可 <!-- 引入样式 --> <l ...
 - NameNode和SecondaryNameNode
			
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/weixin_37838429/artic ...
 - 31 Game-Based Learning Resources for Educators
			
https://www.legendsoflearning.com/resource/31-game-based-learning-resources-for-educators/ Game base ...
 - What is react-native link?
			
What is react-native link? or Should you just use react-native link when linking any dependency or s ...