sparkStream---1

1.本地scala版

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

object SparkStreamingDemo {

  def main(args: Array[String]): Unit = {

    //local[n] n > 1

    val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    //创建Spark流上下文,批次时长是1s

    val ssc = new StreamingContext(conf, Seconds())

    //创建socket文本流

    val lines = ssc.socketTextStream("localhost", )

    //压扁

    val words = lines.flatMap(_.split(" "))

    //变换成对偶

    val pairs = words.map((_,));

    val count = pairs.reduceByKey(_+_) ;

    count.print()

    //启动

    ssc.start()

    //等待结束

    ssc.awaitTermination()

  }

}

2.java版的，本地

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.Optional;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Seconds;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import scala.Some;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

/**

 * Created by Administrator on 2017/4/3.

 */

public class JavaSparkStreamingWordCountApp {

    public static void main(String[] args) throws Exception {

        SparkConf conf = new SparkConf();

        conf.setAppName("wc");

        conf.setMaster("local[4]");

        //创建Spark流应用上下文

        JavaStreamingContext jsc = new JavaStreamingContext(conf, Seconds.apply());

        jsc.checkpoint("file:///d:/scala/check");

        //创建socket离散流

        JavaReceiverInputDStream sock = jsc.socketTextStream("localhost",);

        //压扁

        JavaDStream<String> wordsDS = sock.flatMap(new FlatMapFunction<String,String>() {

            public Iterator call(String str) throws Exception {

                List<String> list = new ArrayList<String>() ;

                String[] arr = str.split(" ");

                for(String s : arr){

                    list.add(s);

                }

                return list.iterator();

            }

        });

        //映射成元组

        JavaPairDStream<String,Integer> pairDS = wordsDS.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String,Integer>(s,);

            }

        }) ;

        JavaPairDStream<String,Integer> jps = pairDS.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

            public Optional<Integer> call(List<Integer> v1, Optional<Integer> v2) throws Exception {

                Integer newCount = v2.isPresent() ? v2.get() :   ;

                System.out.println("old value : " + newCount);

                for(Integer i : v1){

                    System.out.println("new value : " + i);

                    newCount = newCount +  i;

                }

                return Optional.of(newCount);

            }

        });

        //聚合

        JavaPairDStream<String,Integer> countDS = jps.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        //打印

        countDS.print();

        jsc.start();

        jsc.awaitTermination();

        jsc.stop();

    }

}

3.集群跑。

将文件打成jar包，放到远程机器中

spark-submit --name wcstreaming

                --class com.spark.java.JavaSparkStreamingWordCountApp 
                  //上面是包名加类名

                --master spark://s201:7077

                SparkDemo1-1.0-SNAPSHOT.jar

sparkStream---1的更多相关文章

SparkStream：4)foreachRDD详解
转载自:http://blog.csdn.net/jiangpeng59/article/details/53318761 foreachRDD通常用来把SparkStream运行得到的结果保存到外部 ...
064 SparkStream与kafka的集成，主要是编程
这里面包含了如何在kafka+sparkStreaming集成后的开发,也包含了一部分的优化. 一:说明 1.官网指导网址:http://spark.apache.org/docs/1.6.1/st ...
060 SparkStream 的wordcount示例
1.SparkStream 入口:StreamingContext 抽象:DStream 2.SparkStreaming内部原理当一个批次到达的时候,会产生一个rdd,这个rdd的数据就是这个批次 ...
059 SparkStream介绍
离线计算框架:MR,hive-->对时间要求不严格实时计算框架:SparkCore-->要求job执行时间比较快交互式计算框架:SparkSQL,Hive,-->提供SQL操作的 ...
九、sparkStream的scala示例
简介 sparkStream官网:http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview spark ...
Flume+kakfa+sparkStream实时处理数据测试
flume:从数据源拉取数据 kafka:主要起到缓冲从flume拉取多了的数据 sparkStream:对数据进行处理一.flume拉取数据 1.源数据文件读取配置在flume目录的 ...
记录下sparkStream的做法(scala)
一直用storm做实时流的开发,之前系统学过spark但是一直没做个模版出来用,国庆节有时间准备做个sparkStream的模板用来防止以后公司要用.(功能模拟华为日常需求,db入库hadoop环境) ...
【Spark篇】---SparkStream初始与应用
一.前述 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展.高吞吐量.容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, Zer ...
063 SparkStream数据接收方式
1.两种方式 2.Basic Source 由StreamingContext可以提供的API 上面做的wordcount中的方式就算是第一种方式. 3.Advanced Source 使用数据接收器 ...
062 SparkStream内部原理
1.DStream 内部是一系列的RDD组成的,每个RDD与RDD的产生时间形成一个pair保存在内存中(下面有) RDD包含了对应时间段的所有block数据. 2.DStream下的方法 /** T ...

随机推荐

Petrozavodsk Winter Training Camp 2018 Jagiellonian U Contest Problem A. XOR
先把所有的数异或起来得到sum 然后sum有一些位是1一些位是0 是0的位表示所有数里面有这位的数是偶数个则无论怎么划分数这一位对最终的答案都是不会有贡献的因为偶数=偶数+偶数/奇数+奇数 ...
spring replaced method 注入
replaced method注入是spring动态改变bean里方法的实现.需要改变的方法,使用spring内原有其他类(需要继承接口org.springframework.beans ...
0010Springboot整合thymeleaf
1.pom.xml中添加thymeleaf的起步依赖 2.编写html文件并放在classpath:/templates/路径下 3.编写controller并返回字符串,会到classpath:/t ...
.NET 推荐博客
燎原之星的博客农码一生博文索引 http://www.cnblogs.com/zhaopei/p/Indexes.html 那些年搞不懂的术语.概念:协变.逆变.不变体 http://www.cnb ...
[WebMethod]参数介绍
一.WebService的调试 net 2.0新建webservice为了安全考虑,默认关闭了Post和Get方法 .让其打开,可在Web.config文件的<system.web>下增加 ...
es批量导入进一对多的数据
es批量导入进一对多的数据我有一个产品表一个产品对应多个属性名一个属性名对应多个属性值一个产品还对应一个分类名称控制层 @ApiOperation(value = "导入所有 ...
linux命令集合(二)
yum源的配置 yum 得配置yum源,配置阿里云的两个 yum源 ,阿里云的yum源中,会有 mariadb的软件包阿里云的yum仓库中,mariadb版本如下 mariadb ...
「NOI2015」荷马史诗（k叉huffman树/k叉合并果子）
是个多叉huffman树,思想类比合并果子. 具体见 CrazyDave 的博客 CODE #include <bits/stdc++.h> using namespace std; ty ...
Activation HDU - 4089 （概率DP）
kuangbin的博客强 #include <bits/stdc++.h> using namespace std; const int MAXN = 2005; const doubl ...
关于npm audit fix
https://blog.csdn.net/weixin_40817115/article/details/81007774 npm audit : npm@5.10.0 & npm@6,允许 ...

sparkStream---1

sparkStream---1的更多相关文章

随机推荐

热门专题