Spark学习笔记——Spark Streaming

许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。
Spark Streaming 使用离散化流（ discretized stream）作为抽象表示，叫作 DStream。 DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列（因此得名“离散化”）。DStream 可以从各种输入源创建，比如 Flume、 Kafka 或者 HDFS。创建出来的 DStream 支持两种操作，一种是转化操作（ transformation） ，会生成一个新的DStream，另一种是输出操作（ output operation），可以把数据写入外部系统中。DStream提供了许多与 RDD 所支持的操作相类似的操作支持，还增加了与时间相关的新操作，比如滑动窗口。

build.sbt

name := "spark-first"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies ++= Seq(

  "org.apache.spark" % "spark-core_2.11" % "2.1.0",

  "org.apache.hadoop" % "hadoop-common" % "2.7.2",

  "mysql" % "mysql-connector-java" % "5.1.31",

  "org.apache.spark" %% "spark-sql" % "2.1.0",

  "org.apache.spark" %% "spark-streaming" % "2.1.0"

)

代码，使用Spark Streaming对端口发过来的数据进行词频统计

import org.apache.hadoop.io.{IntWritable, LongWritable, MapWritable, Text}

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import org.apache.spark._

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.Duration

import org.apache.spark.streaming.Seconds

/**

  * Created by common on 17-4-6.

  */

object SparkRDD {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")

    // Spark streaming

    // 从SparkConf创建StreamingContext并指定1秒钟的批处理大小

    val ssc = new StreamingContext(conf, Seconds(1))

    // 连接到本地机器7777端口上后，使用收到的数据创建DStream

    val lines = ssc.socketTextStream("localhost", 7777)

    // 对每一行数据执行Split操作

    val words = lines.flatMap(_.split(" "))

    // 统计word的数量

    val pairs = words.map(word => (word, 1))

    val wordCounts = pairs.reduceByKey(_ + _)

    // 输出结果

    wordCounts.print()

    ssc.start()        // 开始

    ssc.awaitTermination() // 计算完毕退出

  }

}

首先在终端中运行命令，向7777端口发送数据

nc -l 7777

nc命令参数

-g<网关>：设置路由器跃程通信网关，最多设置8个；

-G<指向器数目>：设置来源路由指向器，其数值为4的倍数；

-h：在线帮助；

-i<延迟秒数>：设置时间间隔，以便传送信息及扫描通信端口；

-l：使用监听模式，监控传入的资料；

-n：直接使用ip地址，而不通过域名服务器；

-o<输出文件>：指定文件名称，把往来传输的数据以16进制字码倾倒成该文件保存；

-p<通信端口>：设置本地主机使用的通信端口；

-r：指定源端口和目的端口都进行随机的选择；

-s<来源位址>：设置本地主机送出数据包的IP地址；

-u：使用UDP传输协议；

-v：显示指令执行过程；

-w<超时秒数>：设置等待连线的时间；

-z：使用0输入/输出模式，只在扫描通信端口时使用。

然后运行Spark Streaming程序

接着在终端中输入

Hello World 1 #回车

Hello World 2

中断程序，在Spark Streaming输出看见

也可以自己创建一个网络连接，并随机生成一些数据病通过这个连接发送出去。

注意下面的测试文件应该放在class目录下

import java.io.PrintWriter

import java.net.ServerSocket

import scala.util.Random

/**

  * Created by common on 17-4-30.

  */

object StreamingProducer {

  def main(args: Array[String]) {

    val random = new Random()

    // 每秒最大活动数

    val MaxEvents = 6

    // 读取可能的名称

    val namesResource =

      this.getClass.getResourceAsStream("/name.csv")

    val names = scala.io.Source.fromInputStream(namesResource)

      .getLines()

      .toList

      .head

      .split(",")

      .toSeq

    // 生成一系列可能的产品

    val products = Seq(

      "iPhone Cover" -> 9.99,

      "Headphones" -> 5.49,

      "Samsung Galaxy Cover" -> 8.95,

      "iPad Cover" -> 7.49

    )

    /** 生成随机产品活动 */

    def generateProductEvents(n: Int) = {

      (1 to n).map { i =>

        val (product, price) = products(random.nextInt(products.size))

        val user = random.shuffle(names).head

        (user, product, price)

      }

    }

    // 创建网络生成器

    val listener = new ServerSocket(9999)

    println("Listening on port: 9999")

    while (true) {

      val socket = listener.accept()

      new Thread() {

        override def run = {

          println("Got client connected from: " +

            socket.getInetAddress)

          val out = new PrintWriter(socket.getOutputStream(), true)

          while (true) {

            Thread.sleep(1000)

            val num = random.nextInt(MaxEvents)

            // 用户和产品活动的随机组合

            val productEvents = generateProductEvents(num)

            // 向端口发送数据

            productEvents.foreach { event =>

              out.write(event.productIterator.mkString(","))

              out.write("\n")

            }

            // 清空缓存

            out.flush()

            println(s"Created $num events...")

          }

          socket.close()

        }

      }.start()

    }

  }

}

流处理程序代码

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

  * Created by common on 17-4-30.

  */

object SimpleStreamingApp {

  def main(args: Array[String]) {

    // 每隔10秒触发一次计算，使用了print算子

    val ssc = new StreamingContext("local[2]",

      "First Streaming App", Seconds(10))

    val stream = ssc.socketTextStream("localhost", 9999)

    // 简单地打印每一批的前几个元素

    // 批量运行

    stream.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

Spark学习笔记——Spark Streaming的更多相关文章

Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark学习笔记--Spark在Windows下的环境搭建（转）
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark 学习笔记之 Streaming和Kafka Direct
Streaming和Kafka Direct: Spark version: 2.2.0 Scala version: 2.11 Kafka version: 0.11.0.0 Note: 最新版本感 ...
Spark 学习笔记之 Streaming Window
Streaming Window: 上图意思:每隔2秒统计前3秒的数据 slideDuration: 2 windowDuration: 3 例子: import org.apache.kafka.c ...
Spark学习笔记——Spark上数据的获取、处理和准备
数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类.回归.聚类和推荐系统任务.数据集列表位于:http://archive.ic ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...

随机推荐

喵哈哈村的魔法考试 Round #17 题解
喵哈哈村的秘境探险系列. A. 实际上就是求乘积%k是否等于0,显然 a * b % k = (a%k)*(b%k)%k,所以边乘边取模就好了. #include<bits/stdc++.h&g ...
关于在win8系统下用VMware 9.0装系统导致物理机不断重启的解决办法
一.问题描述前段时间将操作系统换成了Win8,安装上VMware 9.0英文版.然后在VMware中安装centos系统,结果每次到安装系统的时候,物理机系统就会莫名其妙地自动重启,毫无征兆地出现, ...
ArcGIS教程：曲率
摘要计算栅格表面的曲率,包括剖面曲率和平面曲率. 用法 · 主要输出结果为每个像元的表面曲率,该值通过将该像元与八个相邻像元拟合而得.曲率是表面的二阶导数,或者可称之为坡度的坡度.可供选择的输出曲率 ...
AVL树平衡旋转详解
AVL树平衡旋转详解概述 AVL树又叫做平衡二叉树.前言部分我也有说到,AVL树的前提是二叉排序树(BST或叫做二叉查找树).由于在生成BST树的过程中可能会出现线型树结构,比如插入的顺序是:1, ...
springboot mybatis pagehelper 分页问题
1:添加依赖 compile group: 'com.github.pagehelper', name: 'pagehelper-spring-boot-starter', version: '1.2 ...
国内混合APP开发技术选型
http://www.sunzhongwei.com/weex-react-native-ionic-technology-selection 选谁? 企业级应用是要考虑性能和流畅度的, 如果只是做个 ...
《STL源码剖析》学习之traits编程
侯捷老师在<STL源码剖析>中说到:了解traits编程技术,就像获得“芝麻开门”的口诀一样,从此得以一窥STL源码的奥秘.如此一说,其重要性就不言而喻了. 之前已经介绍过迭代器 ...
[转载]说说JSON和JSONP，也许你会豁然开朗，含jQuery用例
原文地址:http://www.cnblogs.com/dowinning/archive/2012/04/19/json-jsonp-jquery.html 前言: 由于Sencha Touch 2 ...
[转]Greenplum 执行计划之广播与重分布
关联数据在不同节点上,对于普通关系型数据库来说,是无法进行连接的.关联的数据需要通过网络流入到一个节点中进行计算,这样就需要发生数据迁移.数据迁移有广播和重分布两种.在GP中,每一个广播或重分布会产生 ...
使用VisualSVN Server搭建SVNserver （Windows环境为例）
使用 VisualSVN Server来实现主要的 SVN功能则要比使用原始的 SVN和Apache相配合来实现源代码的 SVN管理简单的多,下面就看看详细的说明. VisualSVN Server的 ...

Spark学习笔记——Spark Streaming

Spark学习笔记——Spark Streaming的更多相关文章

随机推荐

热门专题