StreamingContext.getOrCreate

/**

  */

object AppRealTime {

  def main(args: Array[String]): Unit = {

    if (args.length < ) {

      println("please input args like: seconds checkpointdir kafkaBrokerList groupId topic")

      System.exit()

    }

    val logger = LoggerFactory.getLogger(AppRealTime.getClass)

    /**

      * 创建StreamContext

      *

      * @return

      */

    def createStreamingContext: StreamingContext = {

      val conf = new SparkConf

      //StreamingContext,里面包含SparkContext

      val ssc = new StreamingContext(conf, Seconds(args().trim.toInt))

      //设置checkpoint,保存运行数据

      ssc.checkpoint(args().trim)

      //kafka连接参数

      val kafkaParams = Map("metadata.broker.list" -> args().trim, "group.id" -> args().trim)

      //指定要读取的topics

      val topics = Set(args().trim)

      //创建directStream从kafka读取数据

      val data = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

      //迭代处理数据

      data.foreachRDD(rdd => {

        rdd.foreachPartition(p => {

          val conf = HBaseConfiguration.create()

          //连接Connection

          val hConnection = ConnectionFactory.createConnection(conf)

          //获取table

          val click = hConnection.getTable(TableName.valueOf(Constants.HISTORY_CLICK))

          val statistic = hConnection.getTable(TableName.valueOf(Constants.RESULT_STATISTIC))

          try {

            while (p.hasNext) {

              val tuple = p.next()

              val logType = tuple._1

              val logVal = tuple._2

              println(logType+"\t"+logVal)

              logType match {

                case "click" => {

                  val clickObj = new Click(logVal)

                  if (HBaseUtil.isExists(click, clickObj.getRowKey)) {

                    clickObj.doRepeat(statistic)

                  } else {

                    clickObj.doNoRepeat(click, statistic)

                  }

                }

                case _ => {

                  logger.info("msg:" + logVal)

                }

              }

            }

          } catch {

            case ex: Exception => {

              logger.error("error :", ex)

            }

          } finally {

            click.close()

            statistic.close()

            hConnection.close()

          }

        })

      })

      ssc

    }

    val ssc = StreamingContext.getOrCreate(args().trim, createStreamingContext _)

    ssc.start()

    ssc.awaitTermination()

  }

}

经过粗略的实验(一个分区)发现,使用了这个方法之后可以实现不丢失数据

StreamingContext.getOrCreate的更多相关文章

spark streaming中使用checkpoint
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种,一种指的是metadata的checkpoint,用于恢复你的streaming:一种是r ...
Apache Spark源码走读之5 -- DStream处理的容错性分析
欢迎转载,转载请注明出处,徽沪一郎,谢谢. 在流数据的处理过程中,为了保证处理结果的可信度(不能多算,也不能漏算),需要做到对所有的输入数据有且仅有一次处理.在Spark Streaming的处理机制 ...
使用streaming window函数统计用户不同时间段平均消费金额等指标
场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了,他想知道每个用户半年,每个月,每天,或者一小时消费的总额,来店消费的次数以及平均金额. 给出的例子计算的是每5秒,每30秒,每1分钟的用户消 ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
Spark Streaming官方文档学习--下
Accumulators and Broadcast Variables 这些不能从checkpoint重新恢复如果想启动检查点的时候使用这两个变量,就需要创建这写变量的懒惰的singleton实例 ...
spark streaming 实时计算
spark streaming 开发实例本文将分以下几部分 spark 开发环境配置如何创建spark项目编写streaming代码示例如何调试环境配置: spark 原生语言是scala, ...
Spark Streaming metadata checkpoint
Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等).为了使这成为可能,Spark Streaming需要checkpoint足 ...
Spark Streaming笔记——技术点汇总
目录目录概况原理 API DStream WordCount示例 Input DStream Transformation Operation Output Operation 缓存与持久化 C ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

随机推荐

web前端学习笔记-瀑布流的算法分析与代码实现
瀑布流效果目前应用很广泛,像花瓣,新浪轻博,蘑菇街,美丽说等好多网站都有.也有好多支持该效果的前段框架,今天学习了一下这种效果的实现,不依赖插件,自己动手分析实现过程,为了便于叙述清楚,分析中的一些名 ...
SQL如何获得本季度第一天、一年的第一天、本月的最后一天
nterval 参数,具有以下设定值: 设置描述 Year yy, yyyy 年 quarter qq, q 季 Month mm, m 月 dayofyear dy, y 一年的日数 Day dd ...
豆瓣上9分以上的IT书籍-编程语言篇
我当要学习某些技术时,第一时间就是去找相关的书籍.而豆瓣读书是我主要的参考依据,主要是它的评分基本比较靠谱,对于技术书籍,一般来说评分在8分以上就是不错的书籍了,而达到9分就可以列入"必读& ...
java中的switch case default break
package com.didispace; /** * Created by gmq on 2017/08/07. * * @version 1.0 * @since 2017/08/07 10:4 ...
ajaxupload.js调用始终进入error回调
现象:脚本调用成功,文件上传也成功,但是始终进入error的回调函数. 1. ajaxfileupload.js jQuery.extend({ handleError: function( s, x ...
[转]JSON Web Token - 在Web应用间安全地传递信息
JSON Web Token(JWT)是一个非常轻巧的规范.这个规范允许我们使用JWT在用户和服务器之间传递安全可靠的信息. 让我们来假想一下一个场景.在A用户关注了B用户的时候,系统发邮件给B用户, ...
wpf 添加滚动条 ScrollViewer
在WPF中有些控件没有滚动条,微软提供了控件ScrollViewer,这个控件是设置滚动条 <ScrollViewer Name="scrollViewer1" /> ...
jQuery学习笔记（jquery.form插件）
官网: http://malsup.com/jquery/form/ jQuery Form插件是一个优秀的Ajax表单插件,可以非常容易地.无侵入地升级HTML表单以支持Ajax.jQuery Fo ...
如何使用 Chrome 浏览器调试动态加载的 Javascript 脚本
在IE中,可以在调试程序的文档列表最下方看到一个"动态脚本"的文件夹,里面可以找到动态加载的脚本,但是...数量繁多,也不能自定义名称... 但是在 Chrome 中,貌似根本找不 ...
Android 加载大图
在 Android 开发中, Bitmap 是个吃内存大户,稍微操作不当就会 OOM .虽然现在第三方的图片加载库已经很多,很完善,但是作为一个 Androider 还得知道如何自己进行操作来加载大图 ...

StreamingContext.getOrCreate

StreamingContext.getOrCreate的更多相关文章

随机推荐

热门专题