WordCount程序【Spark Streaming版本】

前置

~~

Spark Streaming 常常对接：本地文件、HDFS、端口、flume、kafka

package february.streaming

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

  *              ====   Spark Streaming可以监听本地文件、HDFS、端口、flume、kafka  =====

  *

  *

  * Description:  使用Spark Streaming处理文件系统(local/hdfs)的数据

  * 通过 SparkStreaming 来实现WordCount

  * Spark Streaming

  *

  * 提交代码

  * spark-submit --master spark://spark001:7077 --deploy-mode client --class february.streaming.SparkStreamingWordCount /home/liuge36/jars/SparkDayDemo.jar

  *

  * @Author: 留歌36

  * @Date: 2019/2/21 17:27

  */

object SparkStreamingWordCount {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf()

      .setMaster("local[2]") //local[2] 或local也都可以

      .setAppName(this.getClass.getSimpleName)

    //拿到StreamingContext 这个上下文对象

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // 读取Windows 10电脑上的文件目录,没有成功，可能是因为moving的原因吧

//    val input = ssc.textFileStream("file:///f:\\tmp")

    // 读取centos local  从源码中也可以看出，需要移动文件到指定目录下，才能检测到

    val input = ssc.textFileStream("file:///home/liuge36/feb/")

    // 读取Linux服务器的文件目录

//    val lines = ssc.textFileStream("file:///")

    val lines = input.flatMap(line => line.split(","))

    val count = lines.map(word => (word, 1)).reduceByKey{case (x, y)=> x+y }

    // 输出结果

    println("==================华丽分割线开始============================")

    count.print()

    //启动主程序，

    ssc.start()

    //阻塞 等待主程序被关闭

    ssc.awaitTermination()

  }

}

更多相关小demo：每天一个程序：https://blog.csdn.net/liuge36/column/info/34094

WordCount程序【Spark Streaming版本】的更多相关文章

Spark Streaming数据限流简述
Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理: 流处理与批处理有明显区别,批处理中的数据有明显的边界.数据规模已知:而流处理数 ...
Spark Streaming状态管理函数updateStateByKey和mapWithState
Spark Streaming状态管理函数updateStateByKey和mapWithState 一.状态管理函数二.mapWithState 2.1关于mapWithState 2.2mapW ...
50、Spark Streaming实时wordcount程序开发
一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ...
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
55、Spark Streaming:updateStateByKey以及基于缓存的实时wordcount程序
一.updateStateByKey 1.概述 SparkStreaming 7*24 小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这 ...
52、Spark Streaming之输入DStream之基础数据源以及基于HDFS的实时wordcount程序
一.概述 1.Socket:之前的wordcount例子,已经演示过了,StreamingContext.socketTextStream() 2.HDFS文件基于HDFS文件的实时计算,其实就是, ...
大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序
一.执行Spark任务: 客户端 1.Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/traini ...
Spark Streaming的wordcount案例
之前测试的一些spark案例都是采用离线处理,spark streaming的流处理一样可以运行经典的wordcount. 基本环境: spark-2.0.0 scala-2.11.0 IDEA-15 ...

随机推荐

王某人从0开始学习lorawan的笔记_0
最近老板想做lorawan的项目,交给我了,我也应承下来了,但是!!!我TM连lorawan是啥子我都不知道啊啊啊啊啊! 真希望我女朋友可以看穿我的倔强,给我1千万,让我专心当舔狗,等等,我的女朋友? ...
Python--函数参数类型、用法及代码示例
在编程语言里,将一个个功能定义成函数,能够进行反复调用,而不是每次都重复相同的代码,这种方式能够大幅度降低代码的复杂度. 函数的好处: 1.代码重用 2.保持一致性 3.可扩展性 1.基础我们定义函 ...
配置springboot项目使用外部tomcat
配置springboot项目使用外部tomcat 1.在pom文件中添加依赖  <dependency> <groupId>or ...
JAVA解除tomcat 对浏览器特别字符 | （） {} [] 的限制
1.打开tomcat本机地址打开conf文件夹(一定要关闭Tomcat启动在修改) 2.记事本打开或者编辑软件打开(我这里推荐的编辑软件是以下如图) 打开进去加入这两行代码 3打开server.xml ...
【linux】【root权限的掌控】
前言: 喜欢玩linux的都知道root权限是一个很重要的东西.因为linux里面万物皆文件,对于权限的掌控也就达到了一个前所未有的限制(不然随便一个用户rm -rf /*不就全完了,,哈哈). 下面 ...
第8章浏览器对象模型BOM 8.2 location对象
location 是最有用的 BOM对象之一,它提供了与当前窗口中加载的文档有关的信息,还提供了一些导航功能.事实上, location 对象是很特别的一个对象,因为它既是 window 对象的属性, ...
Linux网络配置(10)
Linux网络配置原理图(NAT模式) 查看网络IP和网关: CentOS7:ip addr CentOS6:ifconfig Ping测试主机之间网络的连通性:ping [www.baidu.com ...
SPOJ - 3267. D-query 主席树求区间个数
SPOJ - 3267 主席树的又一种写法. 从后端点开始添加主席树, 然后如果遇到出现过的元素先把那个点删除, 再更新树, 最后查询区间就好了. #include<bits/stdc++.h& ...
http gzip压缩功能记录
版权声明:本文为博主原创文章,转载请附上原文出处链接. 本文链接:https://www.cnblogs.com/shaoshuai95928/articles/Tomcat.html 最近在spri ...
python控制台简单实现五子棋
#棋盘#落子#规则import randomclass chess: def __init__(self): print('#---------------棋盘----------------#') ...

WordCount程序【Spark Streaming版本】

前置

WordCount程序【Spark Streaming版本】的更多相关文章

随机推荐

热门专题