pyspark简要原则
概要
这是一个看前一段时间spark的python支持的时,有点简单的后pyspark内python代码,我们把一个一般流程。虽然几乎没有python,但基本上能看懂pyspark它是如何使不同的虚拟机之间的数据传输、怎么样python通话环境java类别、pyspark SDK的丰富程度取决于什么、须要做些什么流程和封装等。
我看了下,应该仅仅有Pyspark Internals这篇wiki里介绍了pyspark的实现机制。大体是以下这张图就能够表示:
在python driver端,SparkContext利用Py4J启动一个JVM并产生一个JavaSparkContext。Py4J仅仅使用在driver端,用于本地python与java SparkContext objects的通信。大量数据的传输使用的是还有一个机制。
RDD在python下的转换会被映射成java环境下PythonRDD。在远端worker机器上,PythonRDD对象启动一些子进程并通过pipes与这些子进程通信,以此send用户代码和数据。
大致流程
java_gateway.py里启动了py4j.JavaGateWay。并从java里导入了所须要的主要类。
python能通过py4j訪问jvm的前提是,jvm开启了GatewayServer,而在coreproject的deployproject下,PythonRunner单例里启动了GatewayServer。可能能够理解为py4j是基于socket的一套简单封装了调用java类和方法的协议吧。并且走的本地不同port。
py4j的包为$SPARK_HOME/python/lib/py4j-0.8.1-src.zip。里面是py4j源代码的几个类。
上述java_gateway的launch_gateway()方法是在context.py初始化的时候调用。
context.py初始化的时候,把SparkContext和其部分主要方法增加到了python环境中。所以大多数的调用都是通过py4j直接调用java的类。
java的类主要是指core项目里的java api里的内容。序列化採用了cPickle库的PickleSerializer。
像python下使用spark sql的话,在sql.py里,从jvm里获取了SQLContext/HiveContext类,从而得到spark sql里的关键方法。
还有一方面,worker.py里,worker启动的时候会起一个socket。从socket里。能够获取工作文件夹名字。能够获取PYTHONPATH下的其它要引入的.zip或.egg文件。将其加到file_dir里。这里的反序列化使用的是UTF8Deserializer;能够获取广播的变量,这里的反序列化使用的是PickleSerializer。
在daemon.py里,通过分配socketport,启动POOLSIZE个worker。(里面还有非常多其它细节)。使用os.fork的方式创建子进程来启动。
在rdd.py里。声明了rdd的非常多action和transformations。有些操作会触发数据在python worker上的传输。
传输大量数据的时候。Py4J非常慢。由于socket.readline()非常低效。传输的时候。把数据(序列化后)dump成一个文件。
兴许把这个文件反序列化回来后,能够转成python的类型和结构进行查看和输出(如collect),也能够调用PythonRDD的asJavaRDD方法(如PipelinedRDD计算时)。在各个worker上启动python进程运行反序列化之后的函数,通过管道与python进程进行通信,最后得到JavaRDD。
管道传输利用的是Popen,这样做标准输入
总结
过了一下pyspark是怎么让不同虚拟机之间数据传输并在python环境调用java类的。两者使用的是不同的网络实现在的方法。
掌声 :)
版权声明:本文博客原创文章。博客,未经同意,不得转载。
pyspark简要原则的更多相关文章
- Python学习笔记整理(十七)异常处理
一.异常基础 try/except:捕捉由代码中的异常并恢复,匹配except里面的错误,并自行except中定义的代码,后继续执行程序(发生异常后,由except捕捉到异常后,不会中断程序,继续执行 ...
- SOA 的基本概念及设计原则浅议
SOA是英文词语"Service Oriented Architecture"的缩写,中文有多种翻译,如"面向服务的体系结构"."以服务为中心的体系结 ...
- REST简介及设计原则
rest,即REST(Representational State Transfer表述性状态转移)是一种针对网络应用的设计和开发方式,可以降低开发的复杂性,提高系统的可伸缩性. 简介 REST (R ...
- Dalvik虚拟机简要介绍和学习计划
文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/8852432 我们知道,Android应用程序是 ...
- Java7中的ForkJoin并发框架初探(中)——JDK中实现简要分析
原文发表于 2013 年 8 月 28 日 由 三石 根据前文描述的Doug Lea的理论基础,在JDK1.7中已经给出了Fork Join的实现.在Java SE 7的API中,多了ForkJoin ...
- [转]Java7中的ForkJoin并发框架初探(中)——JDK中实现简要分析
详见: http://blog.yemou.net/article/query/info/tytfjhfascvhzxcytp85 根据前文描述的Doug Lea的理论基础,在JDK1.7中已经给 ...
- Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188 弹性分布式数据集RDD(Resilient Distributed Dataset) 术 ...
- PySpark理解wordcount.py
在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱.我们再次回顾wordcount.py代码来回答如下问题 对于大多数语言的Hello Word示例,都有mai ...
- 精通Web Analytics 2.0 (13) 第十一章:变身分析忍者的指导原则
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第十一章:变身分析忍者的指导原则 这个激动人心的一章,分析了几乎所有工作的各个方面. 目标很简单:使用成熟的方法来帮助避免淹死的 ...
随机推荐
- 一次失败的刷题经历:[LeetCode]292之尼姆游戏(Nim Game)(转)
最近闲来无事刷LeetCode,发现这道题的Accept Rate还是挺高的,尝试着做了一下,结果悲剧了,把过程写下来,希望能长点记性.该题的描述翻译成中文如下: 你正在和你的朋友玩尼姆游戏(Nim ...
- Python倒计时器(转)
# Countdown using Tkinter from Tkinter import * import time import tkMessageBox class App: def __ini ...
- 9个杀手级 JVM 编程语言
9个杀手级 JVM 编程语言 Java虚拟机已经不再是仅仅局限在 Java 了,很多语言提供了脚本转换,可以让其他的程序在java虚拟机上运行,这样能够让更多的开发者能够依靠JVM在Java平台上大有 ...
- 读书笔记:《为什么大猩猩比专家高明, How We Decide》
读书笔记:<为什么大猩猩比专家高明, How We Decide> 英文的书名叫<How We Decide>,可能是出版社的原因,非要弄一个古怪的中文书名<为什么大猩猩 ...
- Learning Cocos2d-x for WP8(2)——深入刨析Hello World
原文:Learning Cocos2d-x for WP8(2)--深入刨析Hello World cocos2d-x框架 在兄弟篇Learning Cocos2d-x for XNA(1)——小窥c ...
- ubuntu14.04中 gedit 凝视能显示中文,而source insight中显示为乱码的解决的方法
1.乱码显示情况: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcjc3NjgzOTYy/font/5a6L5L2T/fontsize/400/fill/ ...
- 【Cloud Foundry】Could Foundry学习(三)——Router
在阅读的过程中有不论什么问题.欢迎一起交流 邮箱:1494713801@qq.com QQ:1494713801 一.概述 Router组件在Cloud Foundry中是对全部进来的Reque ...
- JS 在 HTML 无缝滚动
marquee图片无缝滚动先了解一下对象的几个的属性:innerHTML: 设置或获取位于对象起始和结束标签内的 HTMLscrollHeight: 获取对象的滚动高度.scrollLeft: 设置或 ...
- Java虚拟机几个命令行参数说明
一.运行class文件 执行带main方法的class文件,Java虚拟机命令参数行为: java <CLASS文件名> 注意:CLASS文件名不要带文件后缀.class 例如: java ...
- MySQL初步研究数据库
我用的是环境Win7.开始学习PHP和MySQL,而买了这<Head First PHP & MySQL>,从能Head First Labs官网获得HeadFirst系列书籍的相 ...