FusionInsight大数据开发---SparkStreaming概述

SparkStreaming概述

SparkStreaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。

SparkStreaming原理

SparkStreaming接收实时的输入数据流，然后将这些数据切分为批数据供Spark引擎处理，Spark引擎将数据生成最终的结果数据。
使用DStream从Kafka和HDFS等源获取连接的数据流。DStream是一系列连续的RDD组成。

SparkStreaming数据源

基本源：HDFS等文件系统、Socket连接等
高级源：Kafka等
自定义源：需要实现用户自定义receiver

可靠性（二次开发）

Reliable Receiver
设置CheckPoint
确保Driver可以自动启动
使用Write Ahead Log 功能

SparkStreaming代码流程
常见业务代码逻辑

创建StreamingContext
定义输入源
准备应用计算逻辑
使用streamingContext.start()方法接受和处理数据。
使用streamingContext.stop()方法停止流计算。

窗口操作
SparkStreaming支持窗口计算，允许用户在一个滑动窗口数据上应用transformation算子。
窗口在源DStream上滑动，合并和操作落入窗口RDDs，产生窗口化的DStream的RDDs。

Checkpoint
SparkStreaming可以checkpoint足够的信息到容错存储系统中，以使系统崩溃后从故障中恢复。

Metadata checkpoint：保存流计算的定义信息到HDFS中
Data checkpoint：保存生成的RDD到HDFS中。

SparkStreaming性能调优

设置合理的批处理时间（batch Duration）
设置合理数据接收并行度

设置多个Receiver接受数据
设置合理的Receiver阻塞时间

设置合理数据处理并行度
使用Kryo系列化
内存调优

设置持久化级别减少GC开销
使用并发的标记-清理GC算法减少GC暂停时间

FusionInsight大数据开发---SparkStreaming概述的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据开发-Spark-Streaming处理数据到mysql
前面一篇讲到streamin读取kafka数据加工处理后写到kafka数据,大数据开发-Spark-开发Streaming处理数据 && 写入Kafka是针对比如推荐领域,实时标签等场 ...
FusionInsight大数据开发---HDFS应用开发
HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述高容错性高吞吐量大文件存储 HDFS架构包含三部分 Name Node DataNode ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
FusionInsight大数据开发--HBase应用开发
HBase应用开发 HBase的定义 HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统. 适合于存储大表数据,可以达到实时级别. 利用Hadoop HDFS 作为其文件存储系统,提供实时 ...
FusionInsight大数据开发---Flume应用开发
Flume应用开发要求: 了解Flume应用开发适用场景掌握Flume应用开发 Flume应用场景Flume的核心是把数据从数据源收集过来,在送到目的地.为了保证输送一定成功,发送到目的地之前,会 ...
FusionInsight大数据开发---Hive应用开发
Hive应用开发了解Hive的基本架构原理掌握JDBC客户端开发流程了解ODBC客户端的开发流程了解python客户端的开发流程了解Hcatalog/webHcat开发接口掌握Hive开发 ...
FusionInsight大数据开发---Oozie应用开发
Oozie应用开发要求: 了解Oozie应用开发适用场景掌握Oozie应用开发熟悉并使用Oozie常用API Oozie简介 Oozie是一个Hadoop作业的工作流调度管理系统 Oozie工作 ...
FusionInsight大数据开发---Streaming应用开发
Streaming应用开发掌握Streaming基本业务开发流熟悉Streaming常用API接口使用掌握Streaming业务设计基本原则了解Streaming应用开发环境了解CQL开发流 ...

随机推荐

kubernetes学习Service之headless和statefulSet结合
一.首先说headless Service和普通Service的区别 headless不分配clusterIP headless service可以通过解析service的DNS,返回所有Pod的地址 ...
01篇ELK日志系统——升级版集群之elasticsearch集群的搭建
[ 前言:以前搭了个简单的ELK日志系统,以我个人的感觉来说,ELK日志系统还是非常好用的.以前没有弄这个ELK日志系统的时候,线上的项目出了bug,报错了,要定位错误是什么,错误出现在哪个java代 ...
python平台下实现xgboost算法及输出的解释
python平台下实现xgboost算法及输出的解释 1. 问题描述近来, 在python环境下使用xgboost算法作若干的机器学习任务, 在这个过程中也使用了其内置的函数来可视化树的结果, ...
Codeforces H. Kilani and the Game（多源BFS）
题目描述: Kilani and the Game time limit per test 2 seconds memory limit per test 256 megabytes input st ...
C# HttpClient Post 参数同时上传文件上传图片调用接口
// 调用接口上传文件 using (var client = new HttpClient()) { using (var multipartFormDataContent = new Multip ...
Celery详解(1)
在学习Celery之前,我先简单的去了解了一下什么是生产者消费者模式. 生产者消费者模式在实际的软件开发过程中,经常会碰到如下场景:某个模块负责产生数据,这些数据由另一个模块来负责处理(此处的模块是 ...
ESA2GJK1DH1K基础篇: 购买云服务器
我选择的是购买阿里云的服务器如果是学生,可以选择因为我用学生账户买过了,所以过程没法写了,下面我就写不用学生账户买的过程,其实应该配置过程和学生买差不多选择购买的配置选择系统不需要配置直接下 ...
Python实现电子词典（web）
思路: 准备配置文件setting.py,运行src/data.py,使用MySQL新建数据库并创建table,将字典数据导入到table中.编写server.py文件,建立服务端,循环接收web请求 ...
#ifndef #define #endif
在一个大的软件工程里面,可能会有多个文件同时包含一个头文件,当这些文件编译链接成一个可执行文件时,就会出现大量重定义的错误.在头文件中实用#ifndef #define #endif能避免头文件的重定 ...
Redis常见场景解析
一前言 Redis是一个key-value存储系统,现在在各种系统中的使用越来越多,大部分情况下是因为其高性能的特性,被当做缓存使用,这里介绍下Redis经常遇到的使用场景. 二 Redis特性一 ...

FusionInsight大数据开发---SparkStreaming概述

SparkStreaming概述

FusionInsight大数据开发---SparkStreaming概述的更多相关文章

随机推荐

热门专题