Flink统计日活



.keyBy(0)

      .window(TumblingProcessingTimeWindows.of(Time.days(1), Time.hours(-8)))

      .trigger(ContinuousProcessingTimeTrigger.of(Time.seconds(10)))

      .evictor(TimeEvictor.of(Time.seconds(0), true))

      .process(new ProcessWindowFunction[(String, String), (String, String, Long), Tuple, TimeWindow] {

        /*

        这是使用state是因为，窗口默认只会在创建结束的时候触发一次计算，然后数据结果，

        如果长时间的窗口，比如：一天的窗口，要是等到一天结束在输出结果，那还不如跑批。

        所有大窗口会添加trigger，以一定的频率输出中间结果。

        加evictor 是因为，每次trigger，触发计算是，窗口中的所有数据都会参与，所以数据会触发很多次，比较浪费，加evictor 驱逐已经计算过的数据，就不会重复计算了

        驱逐了已经计算过的数据，导致窗口数据不完全，所以需要state 存储我们需要的中间结果

         */

        var wordState: MapState[String, String] = _

        var pvCount: ValueState[Long] = _

        override def open(parameters: Configuration): Unit = {

          // new MapStateDescriptor[String, String]("word", classOf[String], classOf[String])

          wordState = getRuntimeContext.getMapState(new MapStateDescriptor[String, String]("word", classOf[String], classOf[String]))

          pvCount = getRuntimeContext.getState[Long](new ValueStateDescriptor[Long]("pvCount", classOf[Long]))

        }

        override def process(key: Tuple, context: Context, elements: Iterable[(String, String)], out: Collector[(String, String, Long)]): Unit = {

          var pv = 0;

          val elementsIterator = elements.iterator

          // 遍历窗口数据，获取唯一word

          while (elementsIterator.hasNext) {

            pv += 1

            val word = elementsIterator.next()._2

            wordState.put(word, null)

          }

          // add current

          pvCount.update(pvCount.value() + pv)

          var count: Long = 0

          val wordIterator = wordState.keys().iterator()

          while (wordIterator.hasNext) {

            wordIterator.next()

            count += 1

          }

          // uv

          out.collect((key.getField(0), "uv", count))

          out.collect(key.getField(0), "pv", pv)

        }

      })

Flink统计日活的更多相关文章

TPS和QPS 并发量区别；日活访问量活跃度
一.系统承载吞度量系统的吞度量(承压能力)与request对CPU的消耗.外部接口.IO等等紧密关联.单个reqeust 对CPU消耗越高,外部系统接口.IO影响速度越慢,系统吞吐能力越低,反之越高 ...
读<阿里亿级日活网关通道架构演进>有感
读<阿里亿级日活网关通道架构演进>时对优化方法有些概念不理解,特意搜索了一下,拓展自己的思路. 其中的优化: 优化方法中1,2比较常见,3,4我知道的比较少,很感兴趣.就继续追踪下去: 于 ...
Flink统计当日的UV、PV
Flink 统计当日的UV.PV 测试环境: flink 1.7.2 1.数据流程 a.模拟数据生成,发送到kafka(json 格式) b.flink 读取数据,count c. 输出数据到kafk ...
疫情之下微软收入猛增15%！远程办公产品Teams日活达7500万
当地时间 2020 年 4 月 29 日,微软公布了截止 2020 年 3 月 31 日的 2020 财年第三季度财报. 这是微软首次在财报中显示新冠疫情的影响——疫情之下,远程办公.远程教育和游戏场 ...
VAST助推NGK公链热度升温，日活超过以太坊！
在区块链市场,如果说过去是比特币和以太坊的时代,那么现在和未来绝对是NGK的时代. NGK公链的出现,让区块链市场看到了新的希望.它不仅仅是开放的和可编程的,而且是低Gas燃耗的,以及创新共识机制的. ...
sql 日志统计-日、周、月活跃数
近日网站需求:统计日志表的日.周.月活跃数.最终研究了出来了,分享给大家看下. 如果有更好的sql语句也可以评论下方. --日活跃量 ), cr.AddTime, )as addtimt,COUN ...
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府.医疗.教育.企业等各个行业.大家从文章8天扩容100万核,腾讯会议是如何做到的?都知道腾讯会议背后的计 ...
flink统计根据账号每30秒金额的平均值
package com.zetyun.streaming.flink; import org.apache.flink.api.common.functions.MapFunction;import ...
【2019个推开发者节】亿级日活APP都在用的个推SDK, 现在全部免费！
1024程序员节来了双11近了各路满减.折扣.领券.秒杀.集赞营销玩法猛于虎,一看优惠两毛五日常拼命赶"需求" 修"Bug"的开发者们想找个好用又不贵 ...

随机推荐

Linux nginx安装篇
目录前言版本安装 1.下载 2.安装依赖 3.编译安装 4.启动 5.服务启动参考资料前言最近新申请了一台服务器,需要安装下nginx服务,安装nginx不是第一次,之前反反复复也装过,由 ...
Java Bean拷贝工具Orika原理解析
最近面试被问及对象拷贝怎样才能高效,实际上问的就是Orika或者BeanCopier的原理.由于网上对Orika原理的解析并不太多-因此本文重点讲解一下Orika的原理.(Orika是基于JavaBe ...
C#设计模式-装饰器模式（Decorator Pattern）
引言当我们完成一个软件产品开发后就需要对其进行各种测试,适配快速迭代下质量的保障.当有一个完善的产品的对象后,如果我们想要给他添加一个测试功能,那么我们可以用一个新的类去装饰它来实现对原有对象职责的 ...
java实验类的实现
1 //1.矩形类的定义及应用 2 package classwork_5; 3 4 public class juxing1 { 5 private double a,b;//长,宽 6 priva ...
决胜IT十八招-前言
决胜IT十八招走资讯这一行转眼间八年多了,从大学的时候,我有长达十年的时间思索在从事软体开發这一行到底怎麽存活下来,这思考下来,为自己总算找到一个出口来,这十八招只是其一的绝学,见阵这一行干软体开發 ...
学习笔记（1):零基础掌握 Python 入门到实战-列表与元祖到底该用哪个？（二）...
立即学习:https://edu.csdn.net/course/play/26676/338778?utm_source=blogtoedu 列表不能通过增加索引增加元素可以使用list中的app ...
老猿学5G扫盲贴：中国移动网络侧CHF主要功能及计费处理的主要过程
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt+moviepy音视频剪辑实战专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录一. ...
利用Python特殊变量__dict__快速实现__repr__的一种方法
在<第8.15节 Python重写自定义类的__repr__方法>.<Python中repr(变量)和str(变量)的返回值有什么区别和联系>.<第8.13节 Pytho ...
第二十六章、containers容器类部件QToolBox工具箱详解
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.概述容器部件就是可以在部件内放置其他部件的部件,在Qt Designer中可以使用的容器部件有 ...
第15.20节 PyQt(Python+Qt)入门学习：QColumnView的作用及开发中对应Model的使用
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.概述在Qt Designer的Item Views(Model-based)部件中,Colum ...

Flink统计日活

Flink统计日活的更多相关文章

随机推荐

热门专题