spark streaming checkpoint

Checkpoint机制

通过前期对Spark Streaming的理解，我们知道，Spark Streaming应用程序如果不手动停止，则将一直运行下去，在实际中应用程序一般是24小时*7天不间断运行的，因此Streaming必须对诸如系统错误、JVM出错等与程序逻辑无关的错误（failures ）具体很强的弹性，具备一定的非应用程序出错的容错性。Spark Streaming的Checkpoint机制便是为此设计的，它将足够多的信息checkpoint到某些具备容错性的存储系统如HDFS上，以便出错时能够迅速恢复。有两种数据可以chekpoint：

（1）Metadata checkpointing
将流式计算的信息保存到具备容错性的存储上如HDFS，Metadata Checkpointing适用于当streaming应用程序Driver所在的节点出错时能够恢复，元数据包括：
Configuration（配置信息） - 创建streaming应用程序的配置信息
DStream operations - 在streaming应用程序中定义的DStreaming操作
Incomplete batches - 在列队中没有处理完的作业

（2）Data checkpointing
将生成的RDD保存到外部可靠的存储当中，对于一些数据跨度为多个bactch的有状态tranformation操作来说，checkpoint非常有必要，因为在这些transformation操作生成的RDD对前一RDD有依赖，随着时间的增加，依赖链可能会非常长，checkpoint机制能够切断依赖链，将中间的RDD周期性地checkpoint到可靠存储当中，从而在出错时可以直接从checkpoint点恢复。

具体来说，metadata checkpointing主要还是从drvier失败中恢复，而Data Checkpoing用于对有状态的transformation操作进行checkpointing

http://blog.csdn.net/wisgood/article/details/55667612

http://www.cnblogs.com/dt-zhw/p/5664663.html

import java.io.File

import java.nio.charset.Charset

import com.google.common.io.Files

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.{Time, Seconds, StreamingContext}

import org.apache.spark.util.IntParam

/**

 * Counts words in text encoded with UTF8 received from the network every second.

 *

 * Usage: RecoverableNetworkWordCount <hostname> <port> <checkpoint-directory> <output-file>

 *   <hostname> and <port> describe the TCP server that Spark Streaming would connect to receive

 *   data. <checkpoint-directory> directory to HDFS-compatible file system which checkpoint data

 *   <output-file> file to which the word counts will be appended

 *

 * <checkpoint-directory> and <output-file> must be absolute paths

 *

 * To run this on your local machine, you need to first run a Netcat server

 *

 *      `$ nc -lk 9999`

 *

 * and run the example as

 *

 *      `$ ./bin/run-example org.apache.spark.examples.streaming.RecoverableNetworkWordCount \

 *              localhost 9999 ~/checkpoint/ ~/out`

 *

 * If the directory ~/checkpoint/ does not exist (e.g. running for the first time), it will create

 * a new StreamingContext (will print "Creating new context" to the console). Otherwise, if

 * checkpoint data exists in ~/checkpoint/, then it will create StreamingContext from

 * the checkpoint data.

 *

 * Refer to the online documentation for more details.

 */

object RecoverableNetworkWordCount {

  def createContext(ip: String, port: Int, outputPath: String, checkpointDirectory: String)

    : StreamingContext = {

    //程序第一运行时会创建该条语句，如果应用程序失败，则会从checkpoint中恢复，该条语句不会执行

    println("Creating new context")

    val outputFile = new File(outputPath)

    if (outputFile.exists()) outputFile.delete()

    val sparkConf = new SparkConf().setAppName("RecoverableNetworkWordCount").setMaster("local[4]")

    // Create the context with a 1 second batch size

    val ssc = new StreamingContext(sparkConf, Seconds())

    ssc.checkpoint(checkpointDirectory)

    //将socket作为数据源

    val lines = ssc.socketTextStream(ip, port)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, )).reduceByKey(_ + _)

    wordCounts.foreachRDD((rdd: RDD[(String, Int)], time: Time) => {

      val counts = "Counts at time " + time + " " + rdd.collect().mkString("[", ", ", "]")

      println(counts)

      println("Appending to " + outputFile.getAbsolutePath)

      Files.append(counts + "\n", outputFile, Charset.defaultCharset())

    })

    ssc

  }

  //将String转换成Int

  private object IntParam {

  def unapply(str: String): Option[Int] = {

    try {

      Some(str.toInt)

    } catch {

      case e: NumberFormatException => None

    }

  }

}

  def main(args: Array[String]) {

    if (args.length != ) {

      System.err.println("You arguments were " + args.mkString("[", ", ", "]"))

      System.err.println(

        """

          |Usage: RecoverableNetworkWordCount <hostname> <port> <checkpoint-directory>

          |     <output-file>. <hostname> and <port> describe the TCP server that Spark

          |     Streaming would connect to receive data. <checkpoint-directory> directory to

          |     HDFS-compatible file system which checkpoint data <output-file> file to which the

          |     word counts will be appended

          |

          |In local mode, <master> should be 'local[n]' with n >

          |Both <checkpoint-directory> and <output-file> must be absolute paths

        """.stripMargin

      )

      System.exit()

    }

   val Array(ip, IntParam(port), checkpointDirectory, outputPath) = args

    //getOrCreate方法，从checkpoint中重新创建StreamingContext对象或新创建一个StreamingContext对象

    val ssc = StreamingContext.getOrCreate(checkpointDirectory,

      () => {

        createContext(ip, port, outputPath, checkpointDirectory)

      })

    ssc.start()

    ssc.awaitTermination()

  }

}

spark streaming checkpoint的更多相关文章

Spark Streaming Checkpoint反序列化问题分析
转载自:https://mp.weixin.qq.com/s/EQgDUSf3TK0oVg1xmg-49Q Checkpoint是Spark Streaming中的核心机制,它为应用程序的7*24小时 ...
Spark Streaming之四：Spark Streaming 与 Kafka 集成分析
前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择.这篇内容主要介绍Spark Streaming 数据接收 ...
Apache Kafka + Spark Streaming Integration
1.目标为了构建实时应用程序,Apache Kafka - Spark Streaming Integration是最佳组合.因此,在本文中,我们将详细了解Kafka中Spark Streamin ...
Spark Streaming metadata checkpoint
Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等).为了使这成为可能,Spark Streaming需要checkpoint足 ...
Spark Streaming揭秘 Day33 checkpoint的使用
Spark Streaming揭秘 Day33 checkpoint的使用今天谈下sparkstreaming中,另外一个至关重要的内容Checkpoint. 首先,我们会看下checkpoint的 ...
Spark Streaming源码分析 – Checkpoint
PersistenceStreaming没有做特别的事情,DStream最终还是以其中的每个RDD作为job进行调度的,所以persistence就以RDD为单位按照原先Spark的方式去做就可以了, ...
60、Spark Streaming：缓存与持久化机制、Checkpoint机制
一.缓存与持久化机制与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中.对DStream调用persist()方法,就可以让Spark Stream ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

【转】Tesla Autopilot
Tesla Autopilot 以下内容是<Tesla Model S的设计失误>一文中新加入的小节.由于写作时间相距太远,而且由于它的时效性,现在也把它单独提出来,独立成文. 两个月前, ...
Linux内核同步：RCU
linux内核 RCU机制详解简介 RCU(Read-Copy Update)是数据同步的一种方式,在当前的Linux内核中发挥着重要的作用.RCU主要针对的数据对象是链表,目的是提高遍历读取数据的 ...
还没被玩坏的robobrowser(6)——follow_link
背景在做spider的时候,我们经常会有点击链接的需求. 考虑这样的一个简单spider:获取qq.com主页上的今日话题中的内容. 一般思路是先去qq.com首页上找到今日话题的链接,然后点击这个 ...
[转]使用自定义HttpMessageConverter对返回内容进行加密
今天上午技术群里的一个人问” 如何在 Spring MVC 中统一对返回的 Json 进行加密?”. 大部分人的第一反应是通过 Spring 拦截器(Interceptor)中的postHandler ...
[转]同一个tomcat不同项目的session共享问题
问题描述: session常常用来存储一些公共信息供不同页面访问,比如用户登录信息.访问同一个tomcat下的不同项目所创建的session是不一样的.自然地面临了如何共享session的问题. 解决 ...
Python MySQLdb select（选择）封装
对MySQL选择的封装 def select_data(sql): conn = MySQLdb.connect(host="10.10.10.77", user="xx ...
git 放弃本地修改(转)
如果在修改时发现修改错误,而要放弃本地修改时, 一, 未使用 git add 缓存代码时. 可以使用 git checkout -- filepathname (比如: git checkout -- ...
hive元数据研究
hive的元数据存放在关系型数据库中,元数据中存储了hive中所有表格的信息,包括表格的名字,表格的字段,字段的类型,注释.这些信息分散的存放在各个表中,给定一个hive中的表格名字,查询这个表中含有 ...
grafana 邮件报警
https://my.oschina.net/go4it/blog/830714 grafana 教程 http://download.csdn.net/detail/shuijinglei198 ...
利用sdkman安装kotlin和java环境
如果想在命令行下面运行kotlin程序,最省事的办法就是用sdkman来安装了: 1.安装sdkman: curl -s "https://get.sdkman.io" | bas ...

spark streaming checkpoint

Checkpoint机制

spark streaming checkpoint的更多相关文章

随机推荐

热门专题