学习笔记：spark Streaming的入门

　spark Streaming的入门

　　　1.概述

　　　　　spark streaming 是spark core api的一个扩展，可实现实时数据的可扩展，高吞吐量，容错流处理。

　　　　　从上图可以看出，数据可以有很多来源，如kafka,flume,Twitter,HDFS/S3,Kinesis用的比较少；这些采集回来的数据可以使用以高级的函数（map,reduce等）表达的复杂算法进行处理，经过sparkstreaming框架处理后的数据可以推送到文件系统，数据板或是实时仪表板上；除此之外，我们还可以在数据流上应用spark的机器学习算法和图像处理算法。

　　　　spark streaming简单的个人定义:将不同数据源的数据经过spark Streaming框架处理之后将结果输出到外部文件系统。

　　　　特点：

　　　　　　低延迟

　　　　　　能从错误中高效的恢复：fault-tolerant

　　　　　　能够运行在成百上千的节点上

　　　　　　能将批处理、机器学习、图计算等子框架和spark streaming综合起来使用

　　 2.应用场景：

　　　　实时反映电子设备实时监测

　　　　交易过程中实时的金融欺诈

　　　　电商行业的推荐信息

　　 3.集成spark生态系统的使用

　　　　　spark SQL、spark streaming、MLlib和GraphX都是基于spark core的扩展和开发，那它们是如何进行交互的？（后期补充）

　　4.spark的发展史

　　 5.从词频统计功能着手Spark Streaming入门

spark-submit执行（开发）

package org.apache.spark.examples.streaming

import org.apache.spark.SparkConf

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

 * Counts words in UTF8 encoded, '\n' delimited text received from the network every second.

 *

 * Usage: NetworkWordCount <hostname> <port>

 * <hostname> and <port> describe the TCP server that Spark Streaming would connect to receive data.

 *

 * To run this on your local machine, you need to first run a Netcat server

 *    `$ nc -lk 9999`

 * and then run the example

 *    `$ bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999`

 */

object NetworkWordCount {

  def main(args: Array[String]) {

    if (args.length < ) {

      System.err.println("Usage: NetworkWordCount <hostname> <port>")

      System.exit()

    }

    StreamingExamples.setStreamingLogLevels()

    // Create the context with a 1 second batch size

    val sparkConf = new SparkConf().setAppName("NetworkWordCount")

    val ssc = new StreamingContext(sparkConf, Seconds())

    // Create a socket stream on target ip:port and count the

    // words in input stream of \n delimited text (eg. generated by 'nc')

    // Note that no duplication in storage level only for running locally.

    // Replication necessary in distributed scenario for fault tolerance.

    val lines = ssc.socketTextStream(args(), args().toInt, StorageLevel.MEMORY_AND_DISK_SER)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, )).reduceByKey(_ + _)

    wordCounts.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

使用spark-submit方式提交的命令如下(不懂看代码前面的解析)：

./spark-submit --master local[] --class org.apache.spark.examples.streaming.NetworkWordCount --name NetworkWordCount /home/hadoop/app/spark/eaxmple/jars/spark-example_2.-2.2..jar  hadoop0000

spark-shell执行(测试)

val ssc = new StreamingContext(sparkConf, Seconds())

val lines = ssc.socketTextStream("hadoop000", )

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, )).reduceByKey(_ + _)

    wordCounts.print()

    ssc.start()

    ssc.awaitTermination()

只需要运行./spark-shell --master loacal[2]，之后直接把代码拷贝上去运行即可。

　　 6.工作原理

　　　　　粗粒度：spark streaming接受实时数据流，把数据按照指定的时间段切成一片片小的数据块（spark streaming把每个小的数据块当成RDD来处理），然后把这些数据块传给Spark Engine处理，处理完之后的结果也是分批次的返回。

　　　　细粒度：application中有两个context,SparkContext和StreamingContext，使用receiver来接收数据。run receivers as taskes去executor上请求数据，当executor接收到数据后会将数据按时间段进行切分并存放在内存中，如设置了多副本将会拷贝到其他的Exceutor上进行数据的备份(replicate blocks), exceutor的receiver会将blocks的信息告诉StreamingContext，每到指定的周期 StreamingContext 将会通知SparkContext启动jobs并把这些jobs分发到exceutor上执行。

学习笔记：spark Streaming的入门的更多相关文章

Spark学习笔记——Spark Streaming
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用, 还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它允许用户 ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
jQuery学习笔记 - 基础知识扫盲入门篇
jQuery学习笔记 - 基础知识扫盲入门篇 2013-06-16 18:42 by 全新时代, 11 阅读, 0 评论, 收藏, 编辑 1.为什么要使用jQuery? 提供了强大的功能函数解决浏览器 ...
Oracle RAC学习笔记:基本概念及入门
Oracle RAC学习笔记:基本概念及入门 2010年04月19日 10:39 来源:书童的博客作者:书童编辑:晓熊 [技术开发技术文章] oracle 10g real applica ...
Linux内核学习笔记-1.简介和入门
原创文章,转载请注明:Linux内核学习笔记-1.简介和入门 By Lucio.Yang 部分内容来自:Linux Kernel Development(Third Edition),Robert L ...
【转载】【时序约束学习笔记1】Vivado入门与提高--第12讲时序分析中的基本概念和术语
时序分析中的基本概念和术语 Basic concept and Terminology of Timing Analysis 原文标题及网址: [时序约束学习笔记1]Vivado入门与提高--第12讲 ...
卷积神经网络(CNN)学习笔记1：基础入门
卷积神经网络(CNN)学习笔记1:基础入门 Posted on 2016-03-01 | In Machine Learning | 9 Comments | 14935 Vie ...
Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Java IO学习笔记八：Netty入门
作者:Grey 原文地址:Java IO学习笔记八:Netty入门多路复用多线程方式还是有点麻烦,Netty帮我们做了封装,大大简化了编码的复杂度,接下来熟悉一下netty的基本使用. Netty+ ...

随机推荐

Python3浮点型（float）运算结果不正确处理办法
一.问题说明以前对浮点数运行没有没有太在意.昨天同事要求把百分比结果保存到文件上,然后就以保存1位小数的形式给他保存了. 但是今天同事运行时问能不能统一以一位小数的形式保存,当时觉得很奇怪昨天就是以 ...
sys 模块的应用
1.常见的sys模块的应用: 1.在解释器启动后, argv 列表包含了传递给脚本的所有参数, 列表的第一个元素为脚本自身的名称 argv(命令行参数个数) #!/usr/bin/env python ...
slice,substring,substr的区别
1.都为正整数//例子数据 var arr = [1,2,3,4,5,6,7], var str = "helloworld!"; //注意这里有个!号也算一位若有空格,空格也算一 ...
Python语言:Day9练习题及其答案
1.使用while循环输出1,2,3,4,5,6, 8,9,10 #!/usr/bin/python3 n = 1 while n <= 10: if n != 7: print(n) else ...
java_jsp和servlet中乱码问题
Python随笔--爬虫（下载妹子图片）
Collections集合工具类
一.Collection与Collections Collection 是所有单列集合的根接口 Collection 是操作集合的工具类二.Collections中常见的方法:(大都是static方 ...
python笔记18-高阶函数
高阶函数: 如果一个函数的入参是一个函数名的话,那这个函数就是一个高阶函数函数即变量 # def hello(name):# print(name)# new_hello = hello#hello ...
kali linux 配置嵌入式开发环境
kali linux 2018.2 x64 一.支持i386库如果你是64位的Kali Linux系统,用如下命令添加i386架构支持到你的开发环境. dpkg --add-architecture ...
待实验的socketserver
# -*- coding:utf-8 -*-# Author: Dennis Huang__Author__ = "Dennis" import socketserver clas ...

学习笔记：spark Streaming的入门

学习笔记：spark Streaming的入门的更多相关文章

随机推荐

热门专题