spark随笔

spark基于RDD成功构建起大数据处理的一体化解决方案,将MappReduce、Streaming、SQL、Machine Learning、Graph Processing等

大数据计算模型统一到一个技术堆栈中;Spark的Spark SQL、MLlib、GraphX、Spark Streaming等四大子框架之间可以在内存中无缝集成

并可以相互操作彼此的数据

spark+hadoop,hadoop负责数据存储和资源管理,spark负责一体化、多元化的不同规模的数据计算,而计算是大数据的精髓所在

RDD分布式函数式编程

RDD(弹性分布式数据集),RDD被创建后，提供了两种类型的操作:转换(transformation)和动作(action),转换时从原来的RDD构建成新的

RDD，而动作时通过RDD来计算的结果，并将结果返回给驱动程序或者保存到外部存储系统

eg val right=lines.filter(lines=>lines.contains("right")) //right是新的RDD

right.first() //action

动作和转换的不同之处取决于Spark计算RDD的方式，spark在第一次使用代码中的动作时才开始计算,spark可以看到整个变换链，它可以

计算仅需要其结果的数据，对于first()动作,spark只扫描到匹配的第一行，不用读整个文件,也就是RDDS的惰性转换

spark的RDDS在默认情况下每次都要进行重新计算，如果要重用可以使用RDD.persist(持久化方法)，可以持久化到内存或磁盘

每次调用一个新的动作，整个RDD必须从头开始计算，为了提高效率，可以将中间结果持久化

Spark子框架

Spark Streaming

RDD之间通过lineage相连接，RDD中任意的Partition出错，都可以并行地在其他机器上将确实的Partition计算出来，这个容错恢复方式比连续计算模型(Storm)效率更高

Spark Streaming将流式计算分解成多个Spark Job,对于每一段数据的处理都会经过Spark DAG图分解，以及Spark的任务集的调度过程

实时性，Spark Streaming Batch Size的选取在0.5~2秒之间(Storm相对的最小延迟在100ms)

吞吐量，Spark Streaming比storm高2~5倍

Spark编程时对于RDD的操作，Spark Streaming是对DStream的操作

Spark Streaming初始化在开始进行DStream操作前，对SparkStreaming进行初始化生成StreamingContext

eg var ssc=new StreamingContext('Spark://...','WordCount',Seconds(1),[Homes],[Jars]) //batch size 1秒输入的数据进行一次Job处理

Spark Streaming有特定的窗口操作，涉及两个参数：一个是滑动窗口的宽度，一个是窗口滑动频率，必须是batch size的整数倍

eg 过去5秒为一个输入窗口，每1秒统计一下WordCount,我们会将过去5秒的每一秒的WordCount都进行统计，然后叠加

val wordCounts=words.map(x=>(x,1)).reduceByKeyAndWindow(-+-,Seconds(5s),Seconds(1))

Spark运行模式

在Yarn出来前，Hadoop MapReduce属于整个Hadoop生态体系核心，但由于调度开销巨大，中间数据写磁盘导致运行速度慢等缺点，并不适合实时计算等场景

Spark是一个分布式内存性计算框架，与yarn结合，是的Spark可以与MapReduce运行于同一个集群中

spark随笔的更多相关文章

Spark随笔（三）：straggler的产生原因
首先,介绍前辈研究的基于MapReduce框架的outlier产生原因:其次,根据这些方面来分析Spark架构中的straggler:最后,根据阅览的优化办法,谈谈自己的看法. 一.MapReduce ...
Spark随笔（二）：深入学习
一.如何选择粗粒度和细粒度从底层往上引申来理解粗粒度与细粒度. 一层:一个类,具有三个属性值.为了查询这个类的所有实例,细粒度查询的程度为属性值,即依次查询每个实例化对象的属性值,查询三次:粗粒度按 ...
Spark随笔（一）：Spark的综合认识
一.Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统. Hadoop采用MapRedu ...
Spark 3000门徒第一课随笔
昨晚听了王家林老师的Spark 3000门徒系列课程的第一课,把scala基础过了一遍,对ArrayBuffer有了新的认识: Array本身创建后不可修改ArrayBuffer可修改import s ...
spark SQL随笔
sparkSQL 1.主要的数据结构 DataFreames 2.开始使用:SQLContext 创建步骤: Val sc:sparkContext Val sqlContext=new org. ...
Apache Spark简单介绍、安装及使用
Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. ...
《深入理解Spark：核心思想与源码分析》——SparkContext的初始化（叔篇）——TaskScheduler的启动
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
Hadoop随笔（二）：Hadoop V1到Hadoop V2的主要变化
一.消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度,计算模型仍然保持map/reduce的模型.资源管理和任务调度的变化导致了工作流程的变化,一些概 ...
windows下spark开发环境配置
http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark ...

随机推荐

Python设计模式 - UML - 对象图(Object Diagram)
简介对象图和类图的基本概念是类似的,可以看作类图在系统某一时刻的镜像,显示了该时刻系统中参与交互的各个对象以及它们之间的关系. 对象图的元素包括对象.链接.包,元素之间的关系和类图相似. 对象图建模 ...
Java跨平台的原理
使用Java语言编写应用程序最大的优点在于“一次编译,处处运行”,然而这并不是说所有的Java程序都具有Java跨平台的特性, 事实上,相当一部分的Java程序是不能在别的操作系统上正确运行的. Ja ...
C/C++扩展Python的时候数据类型转换的对应：
2018-2019-2 20165315《网络攻防技术》Exp5 MSF基础应用
2018-2019-2 20165315<网络攻防技术>Exp5 MSF基础应用目录一.实验内容二.实验步骤 1.一个主动攻击实践 ms08_067(成功) 2.一个针对浏览器的攻击 ...
【CSS】环形进度条
效果图原理剖析 1.先完成这样一个半圆(这个很简单吧) 2.overflow: hidden; 3.在中间定位一个白色的圆形做遮挡 4.完成另一半 5.使用animate配合时间完成衔接源码 &l ...
Python开发——目录
Python基础 Python开发——解释器安装 Python开发——基础 Python开发——变量 Python开发——[选择]语句 Python开发——[循环]语句 Python开发——数据类型[ ...
ionic3问题记录
1.Ionic3 websocket 启动没问题,编译的时候报错 events.js:136thrower;// Unhandled 'error' event^Error: read ECONNRE ...
python基础 (函数名,闭包,和迭代器)
1.函数名作用函数名本质上就是函数的内存地址或对象. 1.可以被引用 2.可以被当作容器类型的元素 3.可以当作函数的参数和返回值 4.如果记不住的话,那就记住一句话,就当普通变量用 2.闭包什么 ...
Linux 安装源码软件
linux下,源码的安装一般由3个步骤组成:配置(configure).编译(make).安装(make install) 过程中用到configure --prefix --with:其中--pr ...
IDEA debugger模式下启动慢
很可能是因为代码里面有端点造成的. 点击如下图的重叠红点,找到对应端点点掉就可以了.

spark随笔

spark随笔的更多相关文章

随机推荐

热门专题