Spark学习之Spark Streaming（9）

1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用，这就可以大量重用批处理应用的技术甚至代码。

2. Spark Streaming使用离散化（discretized steam）作为抽象表示，叫做DStream。DStream是随时间推移而收到的数据的序列。

3. DSteam支持两种操作：转换操作（transformation），会生成一个新的DStream；另一种是输出操作（output operation），可以把数据写入到外部系统中。

4. Spark Stream的简单例子

需求：使用maven或者sbt打包编译出来独立应用的形式运行。从一台服务器的7777端口接受一个以换行符分隔的多行文本，要从中筛选出包含单词error的行，并打印出来。

    //Maven 索引

    groupID = org.apache.spark

    artifactID = spark-steaming_2.10

    version = 1.2.0

    //Scala流计算import声明

    import org.apache.spark.streaming.StreamingContext

    import org.apache.spark.streaming.StreamingContext._

    import org.apache.spark.streaming.dstream.DStream

    import org.apache.spark.streaming.Duration

    import org.apache.spark.streaming.Seconds

    //用Scala进行流式筛选，打印包含“error”的行

        //从SparkConf创建StreamingContext并指定1秒钟的处理

    val ssc = new SteamingContext(conf,Seconds(1))

        //连接到本地机器7777端口上后，使用收到的数据创建DStream

    val lines = ssc.socketTextStream("localhost",7777)

        //从DStream中筛选出包含字符串“error”的行

    val errorLines = lines.filter(_.contains("error"))

        //  打印拥有“error”的行

    errorLines.print()

    //用Scala进行流式筛选，打印出包含“error”的行

    ssc.start()

    //等待作业完成

    ssc.awaitTermination()

注意：一个Streaming context只能执行一次，所以只有在配置好所有DStream以及所需要的输出操作之后才启动。

最后：在Linux/Mac操作系统上运行流计算应用并提供数据

    $spark-submit --class com.oreilly.learningsparkexamples.scala.streamingLogInput \

    $ASSEMBLY_JAR local[4]

    $ nc localhost 7777 # 使你可以键入输入的行来发送给服务器

Windows nc命令对应ncat

5. DStream 的转化操作可以分为两种：无状态（stateless）转化操作和有状态（stateful）转化操作。

5.1无状态转化操作中，每个批次的处理不依赖于之前批次的数据。

例如map()、filter()、reduceByKey()等。

5.2有状态转化操作中，需要使用之前批次的数据或者中间结果来计算当前批次的数据。

有状态转化操作包括基于滑动窗口的转化操作和追踪状态变化的转化操作。

6. 输出操作

输出操作指定了对数据经转化操作得到的数据所要执行的操作（例如把结果输出推入外部数据库或输出到屏幕上）。

7. 输入源包括：核心数据源、附加数据源、多数据源与集群规模。

8. Steaming用户界面http://localhost:4040可以查看运行详细信息。

Spark学习之Spark Streaming（9）的更多相关文章

Spark学习之Spark SQL（8）
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...
Spark学习之Spark调优与调试（7）
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
Spark学习一:Spark概述
1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. 一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只 ...
Spark学习之Spark安装
Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark ...
Spark学习(一) Spark初识
一.官网介绍 1.什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于A ...
Spark学习之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...
Spark学习之Spark调优与调试(一)
一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行 ...
Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark学习笔记--Spark在Windows下的环境搭建（转）
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

随机推荐

WIN7 不用格式化磁盘怎么把FAT32系统改成NTFS系统
开始-运行,输入cmd回车.假设你要转换D盘.输入convert d: /fs:NTFS回车. [ 此时可能会提示: 访问被拒绝因为你没有足够的特权是权限不够的原因开始--程序--附件右键&q ...
'cmd' 不是内部或外部命令，也不是可运行的程序或批处理文件。
'cmd' 不是内部或外部命令,也不是可运行的程序或批处理文件. Path 添加 %SystemRoot%/system32;%SystemRoot%;%SystemRoot%/System32/Wb ...
Bootstrap + Font Awesome
将Font Awesome 集成到 Bootstrap 非常容易,还可以被单独使用. 最简单的 Bootstrap + Font Awesome 集成方式使用这种方式将 Font Awesome 集 ...
IT江湖--这个冬天注定横尸遍野（多数人技术迟迟无进阶，多半是懒的原因。勤是必须的）
今年江湖大事繁起,又至寒冬,冻的不仅是温度,更是人心. 这两天上班途中看到多个公众号和媒体发了很多 "XXX公司裁员50%" 等等诸如此类的文章,也真是撼动人心.寒冬,比以往来的更 ...
js闭包的本质
js之所以会有闭包,是因为js不同于其他规范的语言,js允许一个函数中再嵌套子函数,正是因为这种允许函数嵌套,导致js出现了所谓闭包. function a(){ function b(){ }; b ...
HDU1114 Piggy-Bank —— DP 完全背包
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=1114 Piggy-Bank Time Limit: 2000/1000 MS (Java/ ...
servlet简单例子1
servlet简单例子1 分类: servlet jsp xml2012-04-18 21:54 3646人阅读评论(3) 收藏举报 servletloginjspaction浏览器 LoginS ...
ZOJ - 1610 Count the Colors（线段树区间更新，单点查询）
1.给了每条线段的颜色,存在颜色覆盖,求表面上能够看到的颜色种类以及每种颜色的段数. 2.线段树区间更新,单点查询. 但是有点细节,比如: 输入: 2 0 1 1 2 3 1 输出: 1 2 这种情况 ...
python-----用多张图片生成视频
代码如下 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2019/2/19 16:42 # @Author : xiaodai # - ...
使用AngelaSmith.产生测试数据
1.安装库程序包.打开NUGET库程序包管理器控制台:输入 Install-Package AngelaSmith -Version 1.0.1 //1.1.1版本可能有 ...

Spark学习之Spark Streaming（9）

Spark学习之Spark Streaming（9）

1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用，这就可以大量重用批处理应用的技术甚至代码。

2. Spark Streaming使用离散化（discretized steam）作为抽象表示，叫做DStream。DStream是随时间推移而收到的数据的序列。

3. DSteam支持两种操作：转换操作（transformation），会生成一个新的DStream；另一种是输出操作（output operation），可以把数据写入到外部系统中。

4. Spark Stream的简单例子

5. DStream 的转化操作可以分为两种：无状态（stateless）转化操作和有状态（stateful）转化操作。

6. 输出操作

7. 输入源包括：核心数据源、附加数据源、多数据源与集群规模。

8. Steaming用户界面http://localhost:4040可以查看运行详细信息。

Spark学习之Spark Streaming（9）的更多相关文章

随机推荐

热门专题