Spark Streaming的样本demo统计

废话不多说，直接上代码

package com.demo;

import java.util.List;

import java.util.regex.Pattern;

import org.apache.log4j.Level;

import org.apache.log4j.Logger;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.StorageLevels;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import com.google.common.base.Optional;

import com.google.common.collect.Lists;

import scala.Tuple2;

public class NetWorkWordCount {

    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) {

        //屏蔽日志

        Logger.getLogger("org.apache.spark").setLevel(Level.OFF);

        // Create the context with a 1 second batch size

        SparkConf sparkConf = new SparkConf().setAppName("NetworkWordCount").setMaster("local[2]");

        JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.seconds(1));

        // Create a JavaReceiverInputDStream on target ip:port and count the

        // words in input stream of \n delimited text (eg. generated by 'nc')

        // Note that no duplication in storage level only for running locally.

        // Replication necessary in distributed scenario for fault tolerance.

        JavaReceiverInputDStream<String> lines = ssc.socketTextStream("192.168.49.151",9999, StorageLevels.MEMORY_AND_DISK_SER);

        //增加checkpoint

        ssc.checkpoint("/home/dinpay/stream/checkpoint");

        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

          @Override

          public Iterable<String> call(String x) {

            return Lists.newArrayList(SPACE.split(x));

          }

        });

        JavaPairDStream<String, Integer> wordCounts = words.mapToPair(

          new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) {

              return new Tuple2<String, Integer>(s, 1);

            }

          });

        //无状态统计计算

        JavaPairDStream<String, Integer> nostat =  wordCounts.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer i1, Integer i2) {

              return i1 + i2;

            }

          });

        //有状态统计计算

        JavaPairDStream<String, Integer> stat =  wordCounts.updateStateByKey(new Function2<List<Integer>, Optional<Integer>,

                Optional<Integer>>() {

            @Override

            public Optional<Integer> call(List<Integer> values, Optional<Integer> state){

                Integer updateValue = 0;

                if(state.isPresent()){

                    updateValue = state.get();

                }

                for (Integer value : values) {

                    updateValue += value;

                }

                return Optional.of(updateValue);

            }

        });

        //窗口计算 滑动10秒 统计窗口长度是15秒

        JavaPairDStream<String, Integer> windowstat = wordCounts

                .reduceByKeyAndWindow(new Function2<Integer, Integer, Integer>() {

                      @Override

                      public Integer call(Integer i1, Integer i2) {

                        return i1 + i2;

                      }

                }, Durations.seconds(15), Durations.seconds(30));

        //nostat.print();

        //stat.print();

        windowstat.print();

        ssc.start();

        ssc.awaitTermination();

        ssc.close();

    }

}

Spark Streaming的样本demo统计的更多相关文章

Spark Streaming socketTextStream简单demo
正文 SparkStreaming的入口是StreamingContext,通过scala实现一个简单的实时获取数据.代码SparkStreaming官网也可以找到. object SocketDS ...
Spark Streaming 进阶与案例实战
Spark Streaming 进阶与案例实战 1.带状态的算子: UpdateStateByKey 2.实战:计算到目前位置累积出现的单词个数写入到MySql中 1.create table CRE ...
Spark Streaming：大规模流式数据处理的新贵（转）
原文链接:Spark Streaming:大规模流式数据处理的新贵摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业.本文阐释了Spark Str ...
Spark Streaming：大规模流式数据处理的新贵
转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data 提到Spark Streaming,我们不得不说一 ...
初步了解Spark生态系统及Spark Streaming
一. 场景 ◆ Spark[4]: Scope: a MapReduce-like cluster computing framework designed for low-laten ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
Spark Streaming 002 统计单词的例子
1.准备事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://a ...
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一.top3热门商品实时统计案例 1.概述 Spark Streaming最强大的地方在于,可以与Spark Core.Spark SQL整合使用,之前已经通过transform.foreachRDD ...

随机推荐

yum 快速安装 Rabbitmq for CentOS6
1.安装CENTOS6的系统. 2.配置源 ,说明:https://github.com/rabbitmq/erlang-rpm To use Erlang 20.x on CentOS 6: # I ...
URIs, URLs, and URN
首先,URI,是uniform resource identifier,统一资源标识符,用来唯一的标识一个资源.而URL是uniform resource locator,统一资源定位器,它是一种具体 ...
Nodejs项目网页图标的处理
今天,我要说的是Nodejs中,关于网页图标的处理. 在讲解怎么处理之前,我们的了解一下什么是网页图标.网页图标就是我们网页打开之后,标签页的图标,比如下面这个前面的小人就是我们博客园的网页图标. ...
密码（pasuwado）
密码 (pasuwado) 题目描述哪里有压迫,哪里就有反抗. moreD的宠物在法庭的帮助下终于反抗了.作为一只聪明的宠物,他打算把魔法使moreD的魔法书盗去,夺取moreD的魔法能力.但mor ...
crontab中执行java程序的脚本
测试场景说明(操作系统:centos7): 有一个bash脚本,脚本内容是执行某个java程序,该脚本为 /data/project1/start.sh crontab -e,添加了以下任务: * * ...
zabbix3.4 源码部署
centos6.8 系统 zabbix3.4.9 msyql5.7.22 php5.6.24 在centos6上面源码部署zabbix.3.4 问题比较多,需要花不少时间去解决,建议 ...
element el-cascader设置默认值
原文:https://www.jianshu.com/p/b690d7fe6ec0 注意两点就行了 <el-form-item label="AP名称"> <el ...
JS 改变鼠标样式
此片记录如何改变鼠标样式: document.body.style.cursor = "url(resource/pic/icons/magnifier3.cur) 12 12,crossh ...
使用filter: blur() 的时候解决图片周围泛白和容器外范围变模糊的问题
类似于这种,这个时候出现了周围变模糊,并且边缘泛白的情况周围模糊这个问题很好解决,给父容器加overflow:hidden:就可以了效果如上,至于周围泛白的问题就需要动点脑筋了,给目标添加 tra ...
linux之stat
stat指令:文件/文件系统的详细信息显示: 使用格式:stat 文件名 stat命令主要用于显示文件或文件系统的详细信息,该命令的语法格式如下: -f 不显示文件本身的信息,显示文件所在文件系统的信 ...

Spark Streaming的样本demo统计

Spark Streaming的样本demo统计的更多相关文章

随机推荐

热门专题