示例 NetworkWordCount

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * WordCount程序，Spark Streaming消费TCP Server发过来的实时数据的例子：

  *

  * 1、在master服务器上启动一个Netcat server

  * `$ nc -lk 9998` (如果nc命令无效的话，我们可以用yum install -y nc来安装nc)

  *

  *

  */

object LocalNetworkWordCount {

  def main(args: Array[String]) {

    // StreamingContext 编程入口

    //local[2] 启用两个core， 一个线程用于接收数据，一个线程用于处理数据

    //Seconds(1)  每隔一秒钟处理一次

    val ssc = new StreamingContext("local[2]", "LocalNetworkWordCount", Seconds(1),

      System.getenv("SPARK_HOME"), StreamingContext.jarOfClass(this.getClass).toSeq)

    //数据接收器(Receiver)

    //创建一个接收器(ReceiverInputDStream)，这个接收器接收一台机器上的某个端口通过socket发送过来的数据并处理

    val lines = ssc.socketTextStream("localhost", 9998, StorageLevel.MEMORY_AND_DISK_SER)

    //数据处理(Process)

    //处理的逻辑，就是简单的进行word count

    val words = lines.flatMap(_.split(" "))

    val wordPairs = words.map(x => (x, 1))

    val wordCounts = wordPairs.reduceByKey(_ + _)

    //结果输出(Output)

    //将结果输出到控制台

    wordCounts.print()

    //启动Streaming处理流

    ssc.start()

    //等待Streaming程序终止

    // 7 X 24 小时运行，一直等待不会停止

    //注释该行代码后，运行一次便终止（必须打开）

    ssc.awaitTermination()

  }

}

　　NetworkWordCount

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

  * WordCount程序，Spark Streaming消费TCP Server发过来的实时数据的例子：

  *

  * 1、在master服务器上启动一个Netcat server

  * `$ nc -lk 9998` (如果nc命令无效的话，我们可以用yum install -y nc来安装nc)

  *

  * 2、用下面的命令在在集群中将Spark Streaming应用跑起来

   spark-submit --class com.twq.streaming.NetworkWordCount \

   --master spark://master:7077 \

   --deploy-mode client \

   --driver-memory 512m \

   --executor-memory 512m \

   --total-executor-cores 4 \

   --executor-cores 2 \

   /home/hadoop-twq/spark-course/streaming/spark-streaming-basic-1.0-SNAPSHOT.jar

  */

object NetworkWordCount {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("NetworkWordCount")

    val sc = new SparkContext(sparkConf)

    // StreamingContext 编程入口

    val ssc = new StreamingContext(sc, Seconds(1))

    //数据接收器(Receiver)

    //创建一个接收器(ReceiverInputDStream)，这个接收器接收一台机器上的某个端口通过socket发送过来的数据并处理

    //  StorageLevel.MEMORY_AND_DISK_SER_2  通过该方式存储在内存中  先放入内存中，内存不够放在磁盘中，以字节的方式储存，储存两份

    val lines = ssc.socketTextStream("master", 9998, StorageLevel.MEMORY_AND_DISK_SER_2)

    //数据处理(Process)

    //处理的逻辑，就是简单的进行word count

    val words = lines.flatMap(_.split(" "))

    val wordPairs = words.map(x => (x, 1))

    val wordCounts = wordPairs.reduceByKey(_ + _)

    //结果输出(Output)

    //将结果输出到控制台

    wordCounts.print()

    //启动Streaming处理流

    ssc.start()

    //等待Streaming程序终止

    ssc.awaitTermination()

  }

}

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * WordCount程序，Spark Streaming消费TCP Server发过来的实时数据的例子：

  *

  * 1、在master服务器上启动一个Netcat server

  * `$ nc -lk 9998` (如果nc命令无效的话，我们可以用yum install -y nc来安装nc)

  *

  * 2、用下面的命令在在集群中将Spark Streaming应用跑起来

 spark-submit --class com.twq.streaming.NetworkWordCountDetail \

   --master spark://master:7077 \

   --deploy-mode client \

   --driver-memory 512m \

   --executor-memory 512m \

   --total-executor-cores 4 \

   --executor-cores 2 \

   /home/hadoop-twq/spark-course/streaming/spark-streaming-basic-1.0-SNAPSHOT.jar

  */

object NetworkWordCountDetail {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("NetworkWordCount")

    val sc = new SparkContext(sparkConf)

    // Create the context with a 1 second batch size

    //1、StreamingContext 是 Spark Streaming程序的入口，那么StreamingContext和SparkContext的关系是什么呢？

    //1.1、StreamingContext需要持有一个SparkContext的引用

    val ssc = new StreamingContext(sc, Seconds(1))

    //1.2、如果SparkContext没有启动的话，我们可以用下面的代码启动一个StreamingContext

    val ssc2 = new StreamingContext(sparkConf, Seconds(1)) //这行代码会在内部启动一个SparkContext

    ssc.sparkContext //可以从StreamingContext中获取到SparkContext

    //1.3、对StreamingContext调用stop的话，可能会将SparkContext stop掉，

    // 如果不想stop掉SparkContext，我们可以调用

    ssc.stop(false)

    sc.stop()

    //2：StreamingContext的注意事项：

    // 2.1、在同一个时间内，同一个JVM中StreamingContext只能有一个

    // 2.2、如果一个StreamingContext启动起来了，

    //    那么我们就不能为这个StreamingContext添加任何的新的Streaming计算

    // 2.3、如果一个StreamingContext被stop了，那么它不能再次被start

    // 2.4、一个SparkContext可以启动多个StreamingContext，

    //    前提是前面的StreamingContext被stop掉了，而SparkContext没有被stop掉

    //创建一个接收器(ReceiverInputDStream)，这个接收器接收一台机器上的某个端口通过socket发送过来的数据并处理

    val lines = ssc.socketTextStream("master", 9998, StorageLevel.MEMORY_AND_DISK_SER)

    //处理的逻辑，就是简单的进行word count

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    //将结果输出到控制台

    wordCounts.print()

    //启动Streaming处理流

    ssc.start()

    //等待Streaming程序终止

    ssc.awaitTermination()

  }

}

☛ DStream(Discretized Stream 离散化流)特点

一个依赖父DStream的列表（依赖利于容错）

一个生成RDD的时间间隔（Batch Interavl）

一个生成RDD的函数（DStream 到 RDD 的转换）

1、Spark Streaming将输入数据流切分成Batches，然后存储在Spark的内存中

2、生成Spark jobs(RDD的转换和Actions操作)来处理每一个batch

示例 NetworkWordCount的更多相关文章

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
SparkStreaming 编程指南
摘要:学习SparkStreaming从官网的编程指南开始,由于Python编码修改方便不用打包,这里只整理python代码! 一.概述 Spark Streaming 是 Spark Core AP ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程示例
近期也有开始研究使用spark streaming来实现流式处理.本文以流式计算word count为例,简单描述如何进行spark streaming编程. 1. 依赖的jar包参考<分别用 ...
Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置（服务端+iOS端）
本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...
.NET跨平台之旅：将示例站点升级至 ASP.NET Core 1.1
微软今天在 Connect(); // 2016 上发布了 .NET Core 1.1 ,ASP.NET Core 1.1 以及 Entity Framework Core 1.1.紧跟这次发布,我们 ...
通过Jexus 部署 dotnetcore版本MusicStore 示例程序
ASPNET Music Store application 是一个展示最新的.NET 平台(包括.NET Core/Mono等)上使用MVC 和Entity Framework的示例程序,本文将展示 ...

随机推荐

可扩展标记语言XML之二：XML语言格式规范、文档组成
大家好,小乐又来了,好久不见!这次接着上次可扩展标记语言XML之一:XML概念,作用,示例,继续讲述XML. 一.格式良好的 xml 1.语法规范: 1).必须有 XML 文档声明: <?xml ...
LeetCode 331. 验证二叉树的前序序列化(Verify Preorder Serialization of a Binary Tree) 27
331. 验证二叉树的前序序列化 331. Verify Preorder Serialization of a Binary Tree 题目描述每日一算法2019/5/30Day 27LeetCo ...
js实现之--防抖节流【理解+代码】
防抖: 理解:在车站上车,人员上满了车才发走重点是人员上满触发一次. 场景:实时搜索,拖拽. 实现: //每一次都要清空定时器,重新设置上计时器值,使得计时器每一次都重新开始,直到最后满足条件并且等待 ...
[转帖]Helm V2 迁移到 V3 版本
Helm V2 迁移到 V3 版本 -- :: Mr-Liuqx 阅读数 63更多分类专栏: kubernetes 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上 ...
linux虚拟机IP发生变化之后上面Oracle数据库的处理
1. 首先说明一下 centos 和 rhel 的关系 redhat是最大的开源软件公司(现在已经被IBM收购) 作为开源最大的受益者, redhat 自己的 rhel(redhat enterpr ...
访问Harbor报502 Bad Gateway
Harbor启动都是多个容器的,首先查看一下是否有相关容器未启动 docker ps | grep harbor cae340214e57 goharbor/nginx-photon:v1.9.3 & ...
js将文字填充与canvas画布再转为图片
需求:封装consul服务的webUI: 原因:展示consul的服务信息时,需要嵌套动画,由于其没有内置的icon,所以将服务name放于图片位: 分析:展示信息时采用了卡片式的服务布局,缩放式的服 ...
iOS - Base64转图片&&图片转Base64
记录一个小功能 app传base64位上去,服务器拿到后转图片保存,当app请求拿回用户图片时,服务器再把图片转base64字符串返回给app,app再转图片 // 64base字符串转图片 - (U ...
【转载】C#中ToArray方法将List集合转换为对应的数组
在C#的List集合操作中,可以使用List集合自带的ToArray方法来将List集合转换为对应的Array数组元素.ToArray方法的签名为T[] ToArray(),存在于命名空间System ...
csrf 功能及 csrf装饰器使用
目录 csrf 功能及 csrf装饰器使用简单了解csrf 防范措施了解更多csrf点击 django 中 csrf csrf装饰器 csrf功能(执行流程) csrf 功能及 csrf装饰器 ...

示例 NetworkWordCount

NetworkWordCount

示例 NetworkWordCount的更多相关文章

随机推荐

热门专题

　　NetworkWordCount