Spark- SparkStreaming可更新状态的实例

Producer

package zx.zx.sparkkafka

import java.util.Properties

import kafka.producer.{KeyedMessage, Producer, ProducerConfig}

import scala.util.Random

/**

 * Created by 166 on 2017/9/6.

 */

object Producer {

  val topic="myWordCount1"

  val buffer: StringBuilder = new StringBuilder

  val message: Array[String] = Array("hadoop","scala","spark","kafka","java","storm","redis","hello","world")

  def getMessage:String={

    buffer.clear()

    for(info<- to )

      {

        if(info!=) buffer.append(message(Random.nextInt(message.length)).concat(" ")) else buffer.append(message(Random.nextInt(message.length)))

      }

    buffer.toString()

  }

  def main(args: Array[String]) {

    //properties用户保存一下配置信息的

    val properties= new Properties

    //添加配置信息:metadata.broker.list指定kafka的Borker的地址和端口,可以是多个Borker的地址

    properties.put("metadata.broker.list","192.168.1.88:9092,192.168.1.89:9092,192.168.1.90:9092")

    //数据写入到kafka中的使用序列化方式

    properties.put("serializer.class","kafka.serializer.StringEncoder")

    val producer= new Producer[String,String](new ProducerConfig(properties))

    for (i<- until Integer.MAX_VALUE){

      Thread.sleep()

      val message: KeyedMessage[String, String] = KeyedMessage[String,String](topic,"",null,getMessage)

      producer.send(message)

    }

  }

}

SparkStreamingDemo

注意必须设置checkpoint

package zx.zx.sparkkafka

import org.apache.log4j.{Level, Logger}

import org.apache.spark.{HashPartitioner, SparkConf}

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

 * Created by 166 on 2017/9/6.

 */

object SparkStreamingDemo {

  /**

   * Iterator[(String, Seq[Int], Option[Int])]

   * 第一个:key,单词

   * 第二个:当前批次该单词出现的次数

   * 第三个:初始值或者以前累加过的值

   */

  val updataFunc=(iter:Iterator[(String, Seq[Int], Option[Int])])=>{

      iter.map(t=>(t._1,t._2.sum+t._3.getOrElse()))

  }

  def main(args: Array[String]) {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    //创建SparkConf并设置AppName

    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")

    //创建StreamingContext

    val ssc: StreamingContext = new StreamingContext(conf,Seconds())

    //设置检查点-----如果想要更新历史状态(累加),要设置checkpoint

//checkpoint必须设置,一般来说设置中HDFS

    ssc.checkpoint("C:\\Users\\166\\Desktop\\Data\\ck")

    //接受命令行中的参数

    //从kafka中拉取数据

    val zkQuorum="srv01:2181,srv02:2181,srv03:2181"

    val groupId="g1"//groupID=UUID.randomUUID().toString

    //当话题很多时就使用这个要切分---topics={t1,t2,t3}

    //val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    val topic = Map("myWordCount1"->)

    val topicAndLine: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc,zkQuorum,groupId,topic)

    //(key,message)--->map(_._2)===>message

    val lines: DStream[String] = topicAndLine.map(_._2) //该数据可能是多行的

    //一行一行地取出来,切分数据

    //redis spark scala hadoop hello scala java java hadoop scala world

    //(redis,1),(spark,1)

    val words: DStream[(String, Int)] = lines.map(_.split(" ")).flatMap(x=>x).map((_,))//一行一行地取出来,切分数据

    //统计单词数量

    val result: DStream[(String, Int)] = words.updateStateByKey(updataFunc,new HashPartitioner(ssc.sparkContext.defaultParallelism),true)

    //将结果打印到控制台

    result.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

Spark- SparkStreaming可更新状态的实例的更多相关文章

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
【Spark】Spark Streaming 动态更新filter关注的内容
Spark Streaming 动态更新filter关注的内容 spark streaming new thread on driver_百度搜索 (1 封私信)Spark Streaming 动态更 ...
hdu 5023 线段树延迟更新+状态压缩
/* 线段树延迟更新+状态压缩 */ #include<stdio.h> #define N 1100000 struct node { int x,y,yanchi,sum; }a[N* ...
git实战-linux定时监控github更新状态（二）
系列文章 git介绍-常用操作(一)✓ git实战-linux定时监控github更新状态(二)✓ 本文主要内容如何查看github的本地仓库和远程仓库的同步情况 linux服务器定时监控githu ...
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理 ...
一个handle使用更新线程的实例
handle更新线程实例 package com.example.administrator.handle; import android.app.Activity;import android.os ...
Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）
本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试).以下是我测试结果: ...
[转]MongoDB更新操作replaceOne()实例讲解
最近正在学习MongoDB,作为数据库的学习当然是要从CRUD开始学起了.这篇文章默认读者是知道如何安装MongoDB.如何运行MongoDB实例以及了解了MongoDB中的collection.do ...
WPF以access为数据库，简单实现一个显示数据和更新数据的实例
做一个小实例,如下图,

随机推荐

poj 3537 Crosses and Crosses 博弈论之grundy值
题意: 给1*n的格子,轮流在上面叉叉,最先画得3个连续叉叉的赢.问先手必胜还是必败. 分析: 求状态的grundy值(也就是sg值),详细怎么求详见代码.为什么这么求要自己想的,仅仅可意会(别人都说 ...
Junit内部解密之三：单元测试用例运行的全过程
转自:http://blog.sina.com.cn/s/blog_6cf812be0100x8sb.html 我们以一个非常简单的TestCalculator类为例,只有一个测试方法: Public ...
《TomCat与Java Web开发技术详解》（第二版）第六章节的学习总结 ---- JSP技术
第六章主要介绍了JSP的相关知识. 1.JSP:是通过在HTML文件中加入java程序片段(Java Scriptlet)和JSP标记,就构成了JSP文件.JSP实质上是Servlet.JSP的API ...
Dockerfile安装KOD可道云
[root@docker01 base2]# cat Dockerfile FROM centos:6.8 RUN yum install openssh-server -y RUN /etc/ini ...
如何在struts2中实现下载?
<a href="${pageContext.request.contextPath}/download?filename="+filename>点击下载</a& ...
mysql数据索引
索引是建立在数据库表中的某些列的上面.因此,在创建索引的时候,应该仔细考虑在哪些列上可以创建索引,在哪些列上不能创建索引.一般来说,应该在这些列上创建索引,例如:在经常需要搜索的列上,可以加快搜索的速 ...
unity 常用的几种相机跟随
固定相机跟随这种相机有一个参考对象,它会保持与该参考对象固定的位置,跟随改参考对象发生移动 using UnityEngine; using System.Collections; public c ...
jqury 如何获取 kindeditor 中textarea 的值
获取文本内容,可是的创建时怎么也不能获取,利用FF的firebug查看到自己所写的内容在一个iframe中,于是想从iframe中获取文本,想要用 $(“ifame”).html();获取内容,可是依 ...
Java泛型的应用
一.泛型类 package generics; /** * 泛型类,格式:public class 类名<泛型类型1, ...> * @author zhongfg * @date 201 ...
thrift实例
Thrift实例 Apache thrift是 Facebook 实现的一种高效的.支持多种编程语言的远程服务调用的框架. 它采用接口描述语言定义并创建服务,支持可扩展的跨语言服务开发,所包含的代码生 ...

Spark- SparkStreaming可更新状态的实例

Spark- SparkStreaming可更新状态的实例的更多相关文章

随机推荐

热门专题