Spark调研笔记第4篇 - PySpark Internals

事实上。有两个名为PySpark的概念。一个是指Sparkclient内置的pyspark脚本。而还有一个是指Spark Python API中的名为pyspark的package。

本文仅仅对第1个pyspark概念做介绍。

1. Sparkclient内置的pyspark"命令"

Sparkclient支持交互模式以方便应用调试。通过调用pyspark能够进入交互环境：

cd /path/to/spark/ && ./bin/pyspark

用编辑器查看可知，pyspark事实上是个shell脚本，部分内容摘出例如以下：

从上面的脚本片段可知，若调用./bin/pyspark时传入要运行的python脚本路径，则pyspark是直接调用spark-submit脚本向spark集群提交任务的；若调用./bin/pyspark时未带不论什么參数，则会通过调起Python解释器（$PYSPARK_DRIVER_PYTHON）进入交互模式。当中调起Python解释器前，pyspark脚本会通过export PYTHONPATH将与Spark Python API相关的库增加Python解释器的载入路径，以便交互环境中能正确import与Spark相关的库。

2. PySpark Internals

通过上面的介绍。我们已经清楚Sparkclient内置pyspark脚本的用处。那么，当通过./bin/pyspark进入交互模式后，本地的Python driver进程（即Python解释器进程）和Spark集群worker节点的executor(s)进程是怎么交互的呢？以下来回答这个问题。

其实。当我们在本地机器通过./bin/pyspark进入交互模式并向Spark集群提交任务时。本地会在运行pyspark脚本时先启动一个被称为driver program的Python进程并创建SparkContext对象，而后者会通过Py4J启动一个JVM进程并创建JavaSparkContext对象，该JVM进程负责与集群的worker节点传输代码或数据。

从Spark Wiki关于PySpark Internals的说明可知，PySpark建立在Spark Java API之上，数据按Python的语法行为被处理，运行结果由JVM负责cache或shuffle。数据流交互结构例如以下图所看到的：

由上图可知，用户提交的Python脚本中实现的RDD transformations操作会在本地转换为Java的PythonRDD对象。后者由本地的JVM发往Spark集群节点。

在远程的worker节点上，PythonRDD对象所在的JVM进程会调起Python子进程并通过pipe进行进程间通信（如向Python子进程发送用户提交的Python脚本或待处理的数据）。

以上就是当我们调用./bin/pyspark时，sparkclient和集群节点之间的内部结构。

理解这些内容有助于我们从整体上加深对Spark这个分布式计算平台的认识。

比如，当调用rdd.collect()时。这个action操作会把数据从集群节点拉到本地driver进程。

假设数据集比較大。则可能报出类似于"spark java.lang.OutOfMemoryError: Java heap space"的错误。

而由本文的介绍可知，提交任务时，本地driver进程启动了一个JVM进程，默认的JVM是有最大内存限制的。假设数据集的大小超过driver默认的最大内存限制。就会报出OOM的错误。解决的方法是在spark-defaults.conf中添加配置项spark.driver.memory，将其值设置到较大值。

【參考资料】

1. Spark Wiki Homepage: PySpark Internals

========================== EOF ======================

Spark调研笔记第4篇 - PySpark Internals的更多相关文章

Spark调研笔记第2篇 - 怎样通过Sparkclient向Spark提交任务
在上篇笔记的基础上,本文介绍Sparkclient的基本配置及Spark任务提交方式. 1. Sparkclient及基本配置从Spark官网下载的pre-built包中集成了Sparkclient ...
Spark调研笔记第6篇 - Spark编程实战FAQ
本文主要记录我使用Spark以来遇到的一些典型问题及其解决的方法,希望对遇到相同问题的同学们有所帮助. 1. Spark环境或配置相关 Q: Sparkclient配置文件spark-defaults ...
Spark调研笔记第3篇 - Spark集群相应用的调度策略简单介绍
Spark集群的调度分应用间调度和应用内调度两种情况,下文分别进行说明. 1. 应用间调度 1) 调度策略1: 资源静态分区资源静态分区是指整个集群的资源被预先划分为多个partitions,资源分 ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
解剖SQLSERVER 完结篇关于Internals Viewer源代码
解剖SQLSERVER 完结篇关于Internals Viewer源代码大家可能都用过Internals Viewer这个软件 <查看SQLSERVER内部数据页面的小插件Internals ...

随机推荐

oracle中的符号含义
1.Oracle数据库存储过程中:=是什么意思?答:赋值的意思.举例:str := 'abcd';将字符串abcd赋值给变量str. 2.oracle 存储过程中的 := 和=有什么区别?答::= 是 ...
LAMP网站架构解释
对于大流量.大并发量的网站系统架构来说,除了硬件上使用高性能的服务器.负载均衡.CDN等之外,在软件架构上需要重点关注下面几个环节:使用高性能的操作系统(OS).高性能的网页服务器(Web Serv ...
Tutorial 6: ViewSets & Routers
转载自:http://www.django-rest-framework.org/tutorial/6-viewsets-and-routers/ Tutorial 6: ViewSets & ...
java版云笔记（七）之事务管理
事务管理事务:程序为了保证业务处理的完整性,执行的一条或多条SQL语句. 事务管理:对事务中的SQL语句进行提交或者回滚. 事物管理对于企业应用来说是至关重要的,好使出现异常情况,它也可以保证数据的 ...
curd 插件
1. Django项目启动自动加载文件制作启动文件 . 注册strak 在apps.py 类里面增加如下 def ready(self): from django.utils.module_loa ...
html 条件注释判断浏览器版本<!--[if lt IE 9]>
<!--[if lte IE 8]><script>window.location.href='http://support.dmeng.net/upgrade-your-br ...
Codeforces Round #371 (Div. 1) D - Animals and Puzzle 二维ST表 + 二分
D - Animals and Puzzle #include<bits/stdc++.h> #define LL long long #define fi first #define s ...
<c:if></c:if>用法-转载
<c:if test="value ne, eq, lt, gt,...."> 用法类别运算符算术运算符 + . - . * . / (或 div )和 % (或 ...
TextView部分文字可点击跳转
效果图: 需求:每个item的文字都有两部分是连接可点击当然需要用到SpannableString和ClickableSpan. import android.text.TextPaint; imp ...
java 读入文件 BufferedReader
package com.mkyong; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOExcep ...

Spark调研笔记第4篇 - PySpark Internals

Spark调研笔记第4篇 - PySpark Internals的更多相关文章

随机推荐

热门专题