基于Kafka+Spark Streaming+HBase实时点击流案例

背景

Kafka实时记录从数据采集工具Flume或业务系统实时接口收集数据，并作为消息缓冲组件为上游实时计算框架提供可靠数据支撑，Spark 1.3版本后支持两种整合Kafka机制（Receiver-based Approach 和 Direct Approach），具体细节请参考文章最后官方文档链接，数据存储使用HBase

实现思路

实现Kafka消息生产者模拟器
Spark Streaming采用Direct Approach方式实时获取Kafka中数据
Spark Streaming对数据进行业务计算后存储到HBase

组件版本

Spark 2.1.0  Kafka0.9.0.1 HBase1.2.0

代码实现

Kafka消息模拟器

object KafkaMessageGenerator {

  private val random = new Random()

  private var pointer = -

  private val os_type = Array(

    "Android", "IPhone OS",

    "None", "Windows Phone"

  )

  def click(): Double = {

    random.nextInt()

  }

  def getOsType(): String = {

    pointer = pointer +

    if (pointer >= os_type.length) {

      pointer =

      os_type(pointer)

    } else {

      os_type(pointer)

    }

  }

    def main(args: Array[String]): Unit = {

      val topic = "user_events"

      val props = new Properties()

      props.put("bootstrap.servers", "10.3.71.154:9092")

      props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer")

      props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")

      val producer = new KafkaProducer[String, String](props)

      while (true) {

        val event: JSONObject = new JSONObject()

        event.put("uid", UUID.randomUUID()) //随机生成用户id

        event.put("event_time", System.currentTimeMillis.toString) //记录事件发生时间

        event.put("os_type", getOsType) //设备类型

        event.put("click_count", click) //点击次数

        val record = new ProducerRecord[String, String](topic, event.toString)

        producer.send(record)

        println("Message sent: " + event)

        Thread.sleep()

      }

    }

}

Spark Streaming主类

object PageViewStream {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("PageViewStream").setMaster("local[*]")

    //创建StreamingContext  批处理间隔5s

    val ssc = new StreamingContext(conf, Seconds())

    // kafka配置

    val kafkaParams = Map[String, String](

      "metadata.broker.list" -> "10.3.71.154:9092",

      "serializer.class" -> "kafka.serializer.StringEncoder"

    )

    //创建一个direct stream

    val kafkaStream: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, Set("user_events"))

    val events: DStream[JSONObject] = kafkaStream.flatMap(line => {

      val data: JSONObject = JSON.parseObject(line._2)

      Some(data)

    })

    // 计算用户点击次数

    val userClicks: DStream[(String, Integer)] = events.map(x => (x.getString("uid"), x.getInteger("click_count"))).reduceByKey(_ + _)

    userClicks.foreachRDD(rdd => {

      rdd.foreachPartition(partitionOfRecords => {

        //Hbase配置

        val tableName = "PageViewStream2"

        val hbaseConf = HBaseConfiguration.create()

        hbaseConf.set("hbase.zookeeper.quorum", "master66")

        hbaseConf.set("hbase.zookeeper.property.clientPort", "")

        val conn = ConnectionFactory.createConnection(hbaseConf)

        val StatTable = conn.getTable(TableName.valueOf(tableName))

        partitionOfRecords.foreach(pair => {

          //用户ID

          val uid = pair._1

          //点击次数

          val click = pair._2

          //组装数据 创建put对象 rowkey

          val put = new Put(Bytes.toBytes(uid))

          put.addColumn("Stat2".getBytes, "ClickStat".getBytes, Bytes.toBytes("TESTS============"))

          StatTable.put(put)

        })

      })

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

基于Kafka+Spark Streaming+HBase实时点击流案例的更多相关文章

日志=>flume=>kafka=>spark streaming=>hbase
日志=>flume=>kafka=>spark streaming=>hbase 日志部分 #coding=UTF-8 import random import time ur ...
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了 ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
使用 Kafka 和 Spark Streaming 构建实时数据处理系统来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技 ...
使用 Kafka 和 Spark Streaming 构建实时数据处理系统（转）
原文链接:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/index.html?ca=drs-&ut ...
Apache Kafka + Spark Streaming Integration
1.目标为了构建实时应用程序,Apache Kafka - Spark Streaming Integration是最佳组合.因此,在本文中,我们将详细了解Kafka中Spark Streamin ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...

随机推荐

这款Office密码破解工具，无坚不摧！
你是否曾经陷入过这样的尴尬:因为忘记Word文档密码去找了一个Word密码破解工具,接着又忘记Excel文档密码去找了一个专门破击Excel的工具,那么如果忘记PowerPoint.Outlook.P ...
join()函数的用法【python】
转自:http://www.jb51.net/article/63598.htm
int()
int() 用于将一个对象转换为整数,可转换的对象如下: In [1]: int(') # 将纯数字的字符串转换为整数 Out[1]: 10 In [2]: int(10.6) # 将浮点数转换为整数 ...
INSTALL_FAILED_INVALID_APK
在项目中无意中把APP只写成了 xxx 没有xxx.xxx.xxx 掉坑里了,找了好久,给大家提不醒
VMware创建虚拟机教程详解及问题解决
关于VMware Workstation Pro虚拟机创建教程,本教程主要详细描述使用软件VMware Workstation Pro建虚拟系统过程中步骤详解,以及个人安装时所出现部分问题的解决方案. ...
IOS实例方法和类方法的区别
类方法和实例方法实例方法是— 类开头是+ 实例方法是用实例对象访问,类方法的对象是类而不是实例,通常创建对象或者工具类. 在实例方法里,根据继承原理发送消息给self和super其实都是发送给s ...
AndroidWear开发之下载SDK[Android W/Android L]
Android L Developer Preview SDK发布了,但是天朝还是无法更新到.打开SDK Manager依旧一成不变,这时候就需要利器了. 第一步: 打开Goagent,不要说不知道什 ...
深入浅出Docker（四）：Docker的集成测试部署之道
1. 背景敏捷开发已经流行了很长时间,如今有越来越多的企业开始践行敏捷开发所提倡的以人为中心.迭代.循序渐进的开发理念.在这样的场景下引入Docker技术,首要目的就是使用Docker提供的虚拟化方 ...
window.location.href和document.location.href、document.URL的区别
1.document表示的是一个文档对象,window表示的是一个窗口对象,一个窗口下可以有多个文档对象. 所以一个窗口下只有一个window.location.href,但是可能有多个documen ...
Lucene中最简单的索引和搜索示例
package com.jiaoyiping.lucene; import org.apache.lucene.analysis.standard.StandardAnalyzer; import o ...

基于Kafka+Spark Streaming+HBase实时点击流案例

背景

实现思路

组件版本

代码实现

基于Kafka+Spark Streaming+HBase实时点击流案例的更多相关文章

随机推荐

热门专题