Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例

场景：使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作；

Kafka发送过来的数据格式为：id、name、cityId，分隔符为tab

       zhangsan

       lisi

       wangwu

       zhaoliu

MySQL的表city结构为：id int, name varchar

    bj

    sz

    sh

本案例的结果为：select s.id, s.name, s.cityId, c.name from student s join city c on s.cityId=c.id;

Kafka安装参见：Kafka单机版环境搭建

启动Kafka：

zkServer.sh start

kafka-server-start.sh  $KAFKA_HOME/config/server.properties  &

kafka-topics.sh --create --zookeeper hadoop000: --replication-factor  --partitions   --topic luogankun_topic

kafka-console-producer.sh --broker-list hadoop000: --topic luogankun_topic

实例代码：

package com.asiainfo.ocdc

case class Student(id: Int, name: String, cityId: Int)

package com.asiainfo.ocdc

import org.apache.spark.streaming._

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.kafka._

/**

 * Spark Streaming处理Kafka的数据并结合Spark JDBC外部数据源处理

 *

 * @author luogankun

 */

object KafkaStreaming {

  def main(args: Array[String]) {

    if (args.length < 4) {

      System.err.println("Usage: KafkaStreaming <zkQuorum> <group> <topics> <numThreads>")

      System.exit(1)

    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf()

    val sc = new SparkContext(sparkConf)

    val ssc = new StreamingContext(sc, Seconds(5))

    val sqlContext = new HiveContext(sc)

    import sqlContext._

    import com.luogankun.spark.jdbc._

    //使用External Data Sources处理MySQL中的数据

    val cities = sqlContext.jdbcTable("jdbc:mysql://hadoop000:3306/test", "root", "root", "select id, name from city")

    //将cities RDD注册成city临时表

    cities.registerTempTable("city")

    val topicpMap = topics.split(",").map((_, numThreads.toInt)).toMap

    val inputs = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap, StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

    inputs.foreachRDD(rdd => {

      if (rdd.partitions.length > 0) {

        //将Streaming中接收到的数据注册成student临时表

        rdd.map(_.split("\t")).map(x => Student(x(0).toInt, x(1), x(2).toInt)).registerTempTable("student")

        //关联Streaming和MySQL表进行查询操作

        sqlContext.sql("select s.id, s.name, s.cityId, c.name from student s join city c on s.cityId=c.id").collect().foreach(println)

      }

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

提交到集群执行脚本：sparkstreaming_kafka_jdbc.sh

#!/bin/sh

. /etc/profile

set -x

cd $SPARK_HOME/bin

spark-submit \

--name KafkaStreaming \

--class com.asiainfo.ocdc.KafkaStreaming \

--master spark://hadoop000:7077 \

--executor-memory 1G \

--total-executor-cores  \

/home/spark/software/source/streaming-app/target/streaming-app-V00B01C00-SNAPSHOT-jar-with-dependencies.jar \

hadoop000: test-consumer-group luogankun_topic

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例的更多相关文章

Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作: 使用技术:Spark Streaming + Spark JDBC External Data ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
spark streaming kafka example
// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...
Spark踩坑记：Spark Streaming+kafka应用及调优
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从k ...
Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...

随机推荐

在Eclipse上建立hbase 0.98.3/0.96.2源代码阅读环境
2.1. 切换到源代码目录,执行: mvn 黄色部分作用为设置代理.由于本人的编译环境在公司内网,所以需要设置代理 2.2. 生成eclipse项目环境: mvn eclipse:eclipse -D ...
SAP web 开发 (第二篇 bsp 开发 mvc模式 Part1 )
Model-View-Controller 简称MVC. 简单的说就是把数据处理,显示,页面事件及处理过程分离开来,企业应用多数都采用这种方式,多层架构的优缺点不再多言,google一下啥都知道. 在 ...
php大力力 [044节] PHP的POST语句一定要大写！！if(!empty($_POST['id'])) {
早上花了几个小时,寻找错误!!! 不应该这样写 if(!empty($_Post['id'])) { 应该这样写 if(!empty($_POST['id'])) { 万万不能小谢!
使用POSIX正则库匹配一行中多个结果
正则匹配与正则表达式是什么东西我就不说了,在这里说下POSIX这个c语言正则库在对字符串进行正则匹配时取出多个结果的问题. 首先简单说明下POSIX正则库的几个函数和使用方法第一个函数:int re ...
Eos持久化实体
持久化实体 2009-11-30 20:53:38| 分类: 记事本_学习笔记 | 标签: |举报 |字号大中小订阅在EOS的实体定义中,如果使用了关联实体方式,主实体的外键属性是不存 ...
String和StringBuffer
已知在Java中,boolean.byte.short.int.long.char.float.double这八种是基本数据类型,其余的都是引用类型,比如String.数组.接口.对象等. 当我们声明 ...
SpringMVC 用http请求的Get和Post请求作为路由的方法的重载方式
@Controller @RequestMapping("/messageProcessing") public class WechatPushController { @Aut ...
Kerberos认证原理简介
1.1 What is Kerberos 1.1.1 简单介绍 Kerberos是一个用于鉴定身份(authentication)的协议, 它采取对称密钥加密(symmetric-key crypto ...
转 UML类图几种关系的总结
UML类图几种关系的总结在UML类图中,常见的有以下几种关系: 泛化(Generalization), 实现(Realization),关联(Association),聚合(Aggregati ...
JAVA 编码中文简述
中文编码问题虽然是个老问题,但对不熟悉的人来说还是不好处理的.不过Java中已经有了一套比较成熟的解决方案. 首先对中文编码格式予以简单介绍:中文编码有三套国标:GB2312,GBK,GB18030, ...

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例的更多相关文章

随机推荐

热门专题