Spark- SparkStreaming可更新状态的实例

Producer

package zx.zx.sparkkafka

import java.util.Properties

import kafka.producer.{KeyedMessage, Producer, ProducerConfig}

import scala.util.Random

/**

 * Created by 166 on 2017/9/6.

 */

object Producer {

  val topic="myWordCount1"

  val buffer: StringBuilder = new StringBuilder

  val message: Array[String] = Array("hadoop","scala","spark","kafka","java","storm","redis","hello","world")

  def getMessage:String={

    buffer.clear()

    for(info<- to )

      {

        if(info!=) buffer.append(message(Random.nextInt(message.length)).concat(" ")) else buffer.append(message(Random.nextInt(message.length)))

      }

    buffer.toString()

  }

  def main(args: Array[String]) {

    //properties用户保存一下配置信息的

    val properties= new Properties

    //添加配置信息:metadata.broker.list指定kafka的Borker的地址和端口,可以是多个Borker的地址

    properties.put("metadata.broker.list","192.168.1.88:9092,192.168.1.89:9092,192.168.1.90:9092")

    //数据写入到kafka中的使用序列化方式

    properties.put("serializer.class","kafka.serializer.StringEncoder")

    val producer= new Producer[String,String](new ProducerConfig(properties))

    for (i<- until Integer.MAX_VALUE){

      Thread.sleep()

      val message: KeyedMessage[String, String] = KeyedMessage[String,String](topic,"",null,getMessage)

      producer.send(message)

    }

  }

}

SparkStreamingDemo

注意必须设置checkpoint

package zx.zx.sparkkafka

import org.apache.log4j.{Level, Logger}

import org.apache.spark.{HashPartitioner, SparkConf}

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

 * Created by 166 on 2017/9/6.

 */

object SparkStreamingDemo {

  /**

   * Iterator[(String, Seq[Int], Option[Int])]

   * 第一个:key,单词

   * 第二个:当前批次该单词出现的次数

   * 第三个:初始值或者以前累加过的值

   */

  val updataFunc=(iter:Iterator[(String, Seq[Int], Option[Int])])=>{

      iter.map(t=>(t._1,t._2.sum+t._3.getOrElse()))

  }

  def main(args: Array[String]) {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    //创建SparkConf并设置AppName

    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")

    //创建StreamingContext

    val ssc: StreamingContext = new StreamingContext(conf,Seconds())

    //设置检查点-----如果想要更新历史状态(累加),要设置checkpoint

//checkpoint必须设置,一般来说设置中HDFS

    ssc.checkpoint("C:\\Users\\166\\Desktop\\Data\\ck")

    //接受命令行中的参数

    //从kafka中拉取数据

    val zkQuorum="srv01:2181,srv02:2181,srv03:2181"

    val groupId="g1"//groupID=UUID.randomUUID().toString

    //当话题很多时就使用这个要切分---topics={t1,t2,t3}

    //val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    val topic = Map("myWordCount1"->)

    val topicAndLine: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc,zkQuorum,groupId,topic)

    //(key,message)--->map(_._2)===>message

    val lines: DStream[String] = topicAndLine.map(_._2) //该数据可能是多行的

    //一行一行地取出来,切分数据

    //redis spark scala hadoop hello scala java java hadoop scala world

    //(redis,1),(spark,1)

    val words: DStream[(String, Int)] = lines.map(_.split(" ")).flatMap(x=>x).map((_,))//一行一行地取出来,切分数据

    //统计单词数量

    val result: DStream[(String, Int)] = words.updateStateByKey(updataFunc,new HashPartitioner(ssc.sparkContext.defaultParallelism),true)

    //将结果打印到控制台

    result.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

Spark- SparkStreaming可更新状态的实例的更多相关文章

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
【Spark】Spark Streaming 动态更新filter关注的内容
Spark Streaming 动态更新filter关注的内容 spark streaming new thread on driver_百度搜索 (1 封私信)Spark Streaming 动态更 ...
hdu 5023 线段树延迟更新+状态压缩
/* 线段树延迟更新+状态压缩 */ #include<stdio.h> #define N 1100000 struct node { int x,y,yanchi,sum; }a[N* ...
git实战-linux定时监控github更新状态（二）
系列文章 git介绍-常用操作(一)✓ git实战-linux定时监控github更新状态(二)✓ 本文主要内容如何查看github的本地仓库和远程仓库的同步情况 linux服务器定时监控githu ...
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理 ...
一个handle使用更新线程的实例
handle更新线程实例 package com.example.administrator.handle; import android.app.Activity;import android.os ...
Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）
本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试).以下是我测试结果: ...
[转]MongoDB更新操作replaceOne()实例讲解
最近正在学习MongoDB,作为数据库的学习当然是要从CRUD开始学起了.这篇文章默认读者是知道如何安装MongoDB.如何运行MongoDB实例以及了解了MongoDB中的collection.do ...
WPF以access为数据库，简单实现一个显示数据和更新数据的实例
做一个小实例,如下图,

随机推荐

交易应用及网站驱动不兼容Windows 10的解决方案
微软公司于2015年7月29日正式发布了Windows 10操作系统.全球范围内已有数以千万计的用户踊跃地升级到了Windows 10,在新用户享受Windows 10所带来的全新使用体验的同 ...
centos 7 安装 mail
yum install -y sendmail 将下面内容粘贴到/etc/mail.rc中 set ssl-verify=ignore set nss-config-dir=/root/.certs ...
04 Memcached过期机制与删除机制
一:Memcached过期机制(1)当某个值过期后,并没有从内存删除,因此stats统计时,curr_item有气信息.(2)如果之前有没有get取其值时,将不会自动删除.当某个新值去占用他的位置的时 ...
rebound是facebook的开源动画库
网址:http://www.jcodecraeer.com/a/opensource/2015/0121/2338.html 介绍: rebound是facebook的开源动画库.可以认为这个动画库是 ...
一次 read by other session 的处理过程
一个哥们给我打电话.他说系统中一直出现等待事件 read by other session .而且该等待都是同一个sql引起的.比較紧急,请我帮忙远程看看. 远程过去之后,用脚本把等待事件给抓 ...
函数柯里化常见应用---add(1,2) add(1)(2) add(1)(2)(3) add(1,2,3)(4)
这是一道经典的题目,先上代码: 解法1: function add () { var args = Array.prototype.slice.call(arguments); var fn = fu ...
判断终端是ios还是安卓的一些妙用
最近遇到一个项目要求有两个icon(就是下载地址下载安卓的apk 和ios的安装包) 一开始的方案是什么设备都显示这两个icon 但是后来老大说这样不好安卓用户给他下载ios 也不行 ...
下载某资源文件并加载其中的所有Prefab到场景中
using System.Collections; using System.Collections.Generic; using UnityEngine; /// <summary> / ...
DrawRightEditText自定义EditText实现有内容时右侧图标按钮显示无内容时右侧图标按钮隐藏加上为空时晃动动画（二）
经过大神指导,上面封装的还不够全面,触摸事件应该也放进自定义中去,那么问题来了,怎么区分呢!,这就涉及到了自定义属性的介绍了我通过设置属性来判断在onTouch事件中应该进行什么操作,接下来看看改良 ...
基于jquery的bootstrap在线文本编辑器插件Summernote （转）
Summernote是一个基于jquery的bootstrap超级简单WYSIWYG在线编辑器.Summernote非常的轻量级,大小只有30KB,支持Safari,Chrome,Firefox.Op ...

Spark- SparkStreaming可更新状态的实例

Spark- SparkStreaming可更新状态的实例的更多相关文章

随机推荐

热门专题