Spark Streaming的样本demo统计

废话不多说，直接上代码

package com.demo;

import java.util.List;

import java.util.regex.Pattern;

import org.apache.log4j.Level;

import org.apache.log4j.Logger;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.StorageLevels;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import com.google.common.base.Optional;

import com.google.common.collect.Lists;

import scala.Tuple2;

public class NetWorkWordCount {

    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) {

        //屏蔽日志

        Logger.getLogger("org.apache.spark").setLevel(Level.OFF);

        // Create the context with a 1 second batch size

        SparkConf sparkConf = new SparkConf().setAppName("NetworkWordCount").setMaster("local[2]");

        JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.seconds(1));

        // Create a JavaReceiverInputDStream on target ip:port and count the

        // words in input stream of \n delimited text (eg. generated by 'nc')

        // Note that no duplication in storage level only for running locally.

        // Replication necessary in distributed scenario for fault tolerance.

        JavaReceiverInputDStream<String> lines = ssc.socketTextStream("192.168.49.151",9999, StorageLevels.MEMORY_AND_DISK_SER);

        //增加checkpoint

        ssc.checkpoint("/home/dinpay/stream/checkpoint");

        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

          @Override

          public Iterable<String> call(String x) {

            return Lists.newArrayList(SPACE.split(x));

          }

        });

        JavaPairDStream<String, Integer> wordCounts = words.mapToPair(

          new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) {

              return new Tuple2<String, Integer>(s, 1);

            }

          });

        //无状态统计计算

        JavaPairDStream<String, Integer> nostat =  wordCounts.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer i1, Integer i2) {

              return i1 + i2;

            }

          });

        //有状态统计计算

        JavaPairDStream<String, Integer> stat =  wordCounts.updateStateByKey(new Function2<List<Integer>, Optional<Integer>,

                Optional<Integer>>() {

            @Override

            public Optional<Integer> call(List<Integer> values, Optional<Integer> state){

                Integer updateValue = 0;

                if(state.isPresent()){

                    updateValue = state.get();

                }

                for (Integer value : values) {

                    updateValue += value;

                }

                return Optional.of(updateValue);

            }

        });

        //窗口计算 滑动10秒 统计窗口长度是15秒

        JavaPairDStream<String, Integer> windowstat = wordCounts

                .reduceByKeyAndWindow(new Function2<Integer, Integer, Integer>() {

                      @Override

                      public Integer call(Integer i1, Integer i2) {

                        return i1 + i2;

                      }

                }, Durations.seconds(15), Durations.seconds(30));

        //nostat.print();

        //stat.print();

        windowstat.print();

        ssc.start();

        ssc.awaitTermination();

        ssc.close();

    }

}

Spark Streaming的样本demo统计的更多相关文章

Spark Streaming socketTextStream简单demo
正文 SparkStreaming的入口是StreamingContext,通过scala实现一个简单的实时获取数据.代码SparkStreaming官网也可以找到. object SocketDS ...
Spark Streaming 进阶与案例实战
Spark Streaming 进阶与案例实战 1.带状态的算子: UpdateStateByKey 2.实战:计算到目前位置累积出现的单词个数写入到MySql中 1.create table CRE ...
Spark Streaming：大规模流式数据处理的新贵（转）
原文链接:Spark Streaming:大规模流式数据处理的新贵摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业.本文阐释了Spark Str ...
Spark Streaming：大规模流式数据处理的新贵
转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data 提到Spark Streaming,我们不得不说一 ...
初步了解Spark生态系统及Spark Streaming
一. 场景 ◆ Spark[4]: Scope: a MapReduce-like cluster computing framework designed for low-laten ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
Spark Streaming 002 统计单词的例子
1.准备事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://a ...
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一.top3热门商品实时统计案例 1.概述 Spark Streaming最强大的地方在于,可以与Spark Core.Spark SQL整合使用,之前已经通过transform.foreachRDD ...

随机推荐

POJ 3268 Silver Cow Party 最短路—dijkstra算法的优化。
POJ 3268 Silver Cow Party Description One cow from each of N farms (1 ≤ N ≤ 1000) conveniently numbe ...
HTML5与HTML4的比较
HHTML5封装一些标签和属性,方便了开发. <form> <p> <label>Username:<input name="search" ...
省选算法学习-dp优化-四边形不等式
嗯......四边形不等式的确长得像个四边形[雾] 我们在dp中,经常见到这样一类状态以及转移方程: 设$dp\left[i\right]\left[j\right]$表示闭区间$\left[i,j\ ...
旅行商（sale）
旅行商(sale) 题目描述 camp国有n座城市,由1,2,-,n编号.城市由n–1条双向道路相连.任意两个城市之间存在唯一的道路连通.有m个旅行商,第i个旅行商会从城市ai旅行到城市bi,贩卖ci ...
vue-router 页面切换后保持在页面顶部而不是保持原先的滚动位置的办法
vue-router有提供一个方法scrollBehavior,它可以使切换到新路由时,想要页面滚到顶部,或者是保持原先的滚动位置,就像重新加载页面那样. 这个功能只在 HTML5 history 模 ...
Linux 命令行下使用多行输入
比较简单,建议实操,直接上图: 一行结束,直接敲回车换行.上一个例子,输入eof,终止多行输入:下一个例子,输入done,终止多行 ~~ 如果是参数太多,一行输入不完,可以通过 "空格\en ...
洛谷 [P3338] 力
FFT \[E_i = F_i / q_i = \sum_{i<j} \frac {q_j} {(i - j)^2} - \sum _{ i > j} \frac{q _ j} {(i - ...
Cover
[题目描述] 有 N 个时间段,某个时间段可能包含其它时间段. 请找出能包含其它时间段最多的那个段,并计算出它包括的其它时间段有多少? [数据范围] 1 <= N <= 25,000 1 ...
VIJOS【1234】口袋的天空
背景小杉坐在教室里,透过口袋一样的窗户看口袋一样的天空. 有很多云飘在那里,看起来很漂亮,小杉想摘下那样美的几朵云,做成棉花糖. 描述给你云朵的个数N,再给你M个关系,表示哪些云朵可以连在一起. ...
遍历简单XML节点
原文发布时间为:2009-08-26 -- 来源于本人的百度文章 [由搬家工具导入] <?xml version="1.0" encoding="gb2312&qu ...

Spark Streaming的样本demo统计

Spark Streaming的样本demo统计的更多相关文章

随机推荐

热门专题