Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(1)
大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。
请各位看官,带着分布式的问题往下看。
分布式架构
大数据时代,单机装下PB级的数据,然后在可接受的时间内处理完,不可能,所以一定是分布式的。
▶ 分布式存储
HDFS(Hadoop Distributed File System)是最常见的,和Spark配合的分布式存储系统。HDFS的存储结构如下图
每个文件被分成固定大小的块,而块作为最小的存储单位放到众多服务器上。那一旦存某个块的机器挂了,不是整个文件就洗白了吗?HDFS当然不会这么傻,文件的每个块都有备份,默认情况下一个块会存3份,分到不同的服务器。这样一来,除非某个块涉及的三台服务器全挂,否则不用担心。在合理分布3个块的情况下,三台服务器全挂的可能性比中500万还低。下面是/file.txt有三个文件块的情况。
NN是Name Node,存储文件块放在哪儿等元信息。DN是Data Node,用来存放具体的文件块。
▶ 分布式处理
有一类系统数据是分布式存储,但是处理却集中在一起。比如Mysql分库分表存数据,然后在某个服务器上,挨个获取所有库所有表的数据进行处理,这种系统的本质还是“数据分发到计算逻辑侧”,它的性能瓶颈就在于做数据处理的那台服务器。
而分布式处理的核心观念在于“把计算逻辑分发到数据侧”,有两大优点:
- 计算逻辑分发明显比数据分发节省网络带宽,而网络带宽是分布式系统中最宝贵的资源
- 计算逻辑在数据侧执行,消除了集中式处理中计算逻辑侧的性能瓶颈
Spark + HDFS的运行架构如下:
Driver是程序开始运行的地方,也是总控,它把计算逻辑(闭包的实例)发送到有数据块的Slave上去执行,结果再收回去汇总。
是不是看出来了?
数据更多了,加机器呗,机器多了磁盘多,磁盘多了存的多。
跑的慢了,加机器呗,机器多了磁盘多,并行加载起来,数据吐吞量大。机器多了,内存CPU也多,并行处理起来,数据吞吐量大。
提示: 分布式处理系统会把计算逻辑分发到数据侧,极大提高系统的水平扩展性。
WordCount运行机制
讲了一堆理论知识,为了让各位看官透彻理解,也为Spark程序算法优化打下坚实的基础,我们拿WordCount来举例说明,顺便说说负载均衡。
额。。。还没看“动手写WordCount”的兄弟姐妹们,建议先去看看。
▶ 数据位置感知
下面是WordCount的业务逻辑代码:
val file = "hdfs://127.0.0.1:9000/file.txt"
val lines = sc.textFile(file)
val words = lines.flatMap(line => line.split("\\s+"))
val wordCount = words.countByValue()
lines是Spark的RDD,它包含了在哪些机器上有file文件的块,信息是从HDFS来的。每文件块映射到RDD上就是一个分区,对的,没看错。如果一个文件块128MB,那么HDFS上一个1GB大小的文件就有8个文件块,由这个文件创建的RDD就会有8个分区。
之前说了,在HDFS上每个文件块默认会有3份,那RDD的分区选择了那一份呢?对滴,根据负载选择服务器负载最低的那一份。负载自动均衡了吧。
计算逻辑分发
有了这些信息,我们就知道把后续的计算逻辑该分发到哪儿去。
首先,我们得说清楚什么是计算逻辑,各位看官们想一下,类方法里面的代码是如何运行的。充分必要条件:方法代码 + 类实例(对象)的状态。似成相识吧,程序 = 算法 + 数据。算法在代码中,数据在对象的状态中。
Spark要分发计算逻辑,也是分了两部分。
第一部分是代码。为什么spark-submit执行一开始,总是一堆jar包被分发,原因就在这儿。
第二部分是类实例。类在哪儿?作为RDD各API参数的闭包。
val words = lines.flatMap(line => line.split("\\s+"))
flatMap的参数 _.split("\s+") 是闭包,闭包是引用了外部自由变量的函数,在Scala中是由匿名类实现的。更多信息,请小伙伴们GFSOSO哈。
上面的一行代码中,Spark要分发的实例就是 _.split("\s+") 的实例。
val wordCount = words.countByValue()
实际上RDD的API countByValue 也有需要分发的闭包实例,只是都在Spark的源码中,让一码给大家整理到明面上来哈。
val wordCount = words
.mapPartitions(convertWordsInPartitionToWordCountMap)
.reduce(mergeMaps)
前面我们提到了RDD的分区,mapPartitions会方法中的逻辑放到RDD的每个分区上执行,注意是远程在Slave上执行的哈。而reduce是在把每个分区的结果拿到Driver后,对结果进行两两合并,最终得到结果。
WordCount分布式运行原理
先仔细看图,相信不用下面的解释,各位看官也能看懂了。(上面的图是张巨高清的图,手机上看不清,建议转发文章到邮箱,然后到电脑上看,看懂这张图,就真的把WordCount分布式运行的机制搞懂了。)
对于WordCount而言,分布式在每个Slave的每个分区上,统计本分区内的单词计数,生成一个Map,然后将它传回给Driver,再由Driver两两合并来自各个分区的所有Map,形成最终的单词计数。
今天我们不仅说清楚了WordCount背后的分布式运行机制,而且解释了Spark的水平扩展能力,以及负载均衡。
下一篇将透过WordCount来看重中之重的容错处理,这涉及到Spark的应用场景与RDD的设计来源,可以毫不夸张地说,这才是Spark的精髓。
提示汇总
分布式处理系统会把计算逻辑分发到数据侧,极大提高系统的水平扩展性。
推荐
查看《Spark大数据处理》系列文章,请进入YoyaProgrammer公众号,点击 核心技术,点击 Spark大数据处理。
分类 Spark大数据处理
优雅程序员 原创 转载请注明出处
Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(1)的更多相关文章
- Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(2)
在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源. Spark的应用场景 Spark主要针对两种场景: ...
- Spark小课堂Week4 从控制台看Spark逻辑结构
Spark小课堂Week4 从控制台看Spark逻辑结构 层级关系: 从监控控制台,我们可以看到如下关系: 一个 Job 包含 n Stage 一个 Stage 包含 n Task Job0解决什么问 ...
- 一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了 转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
- Spark(火花)快速、通用的大数据处理引擎框架
一.什么是Spark(火花)? 是一种快速.通用处理大数据分析的框架引擎. 二.Spark的四大特性 1.快速:Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持. 内存上比M ...
- 通过WordCount解析Spark RDD内部源码机制
一.Spark WordCount动手实践 我们通过Spark WordCount动手实践,编写单词计数代码:在wordcount.scala的基础上,从数据流动的视角深入分析Spark RDD的数据 ...
- Spark踩坑记——从RDD看集群调度
[TOC] 前言 在Spark的使用中,性能的调优配置过程中,查阅了很多资料,之前自己总结过两篇小博文Spark踩坑记--初试和Spark踩坑记--数据库(Hbase+Mysql),第一篇概况的归纳了 ...
- 大数据系列之并行计算引擎Spark部署及应用
相关博文: 大数据系列之并行计算引擎Spark介绍 之前介绍过关于Spark的程序运行模式有三种: 1.Local模式: 2.standalone(独立模式) 3.Yarn/mesos模式 本文将介绍 ...
- 大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
- 分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)
热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...
随机推荐
- 使用axis2进行WebService的开发
使用axis2进行WebService的开发 Apache Axis2 是 Apache Axis SOAP 项目的后继项目.此项目是 Web 服务核心引擎的重要改进,目标是成为 Web 服务和面向服 ...
- OpenGL ES & SDL(转载)
原帖:http://qqwt.blog.sohu.com/91060365.html 这个学期在学习嵌入式,由于老师的高要求.所以我们几个水手必须要完成一个项目,名字就叫OpenGL ES & ...
- POJ1039几何
这道题目要求我们判断光线进入一条管道后可以抵达的最大的x坐标. 这是我做的第一道几何题目,卡了我半天.翻了不少书,才大概明白了些.既然是第一次做,就把所有今天学到的就全部写下好了. 1.如何判断平面上 ...
- 【bzoj2144】跳跳棋
2144: 跳跳棋 Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 492 Solved: 244[Submit][Status][Discuss] ...
- memcache 加载(对象)所遇到的问题。资源
<?php $mem =new memcache(); if($mem->connect('127.0.0.1','11211')){ echo '连接OK'.'<br>'; ...
- 2014蓝桥杯B组初赛试题《啤酒和饮料》
题目描述: 啤酒每罐2.3元,饮料每罐1.9元.小明买了若干啤酒和饮料,一共花了82.3元. 我们还知道他买的啤酒比饮料的数量少,请你计算他买了几罐啤酒. 注意:答案是一个整数.请通过 ...
- mybatis内部类映射写法
直接上代码: mybatis内部类映射使用$而不是.
- TOP命令 详解CPU 查看多个核心的利用率按1
top命令是linux下常用的工具,可以查看各个进程的CPU使用情况.先看一个实例: 这是Ramnode双核VPS的top显示结果: 左上角可以看到CPU的使用率是11.3%,但是看下面的进程,plu ...
- Linux oprofile命令
一.简介 oProfile是Linux平台上的一个功能强大的性能分析工具,支持两种采样(sampling)方式:基于事件的采样(eventbased)和基于时间的采样(timebased),它可以工作 ...
- HttpUploader7-授权码配置
1.1. 七牛云存储 配置方式: 1.配置授权码 2.配置云存储 3.配置空间名称 4.配置上传地址 1.2. 阿里云存储 配置方式: 1.填写授权码 2.配置云存储为阿里云 ...