不多说，直接上干货！

　　Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式，考虑到大数据处理的特性，一般会优先使用Scala进行编程，其次是Python，最后才是Java。无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型，考虑对Spark平台支持的有力程度来说，Spark 对Scala语言的支持是最好的，因为它有最丰富的和最易用的编程接口。

Spark 多语言编程的简介

　　Spark 目前支持Scala、Python、Java三种编程语言。

　　Scala 作为Spark的原生语言，代码优雅、简洁而且功能完善，很多开发者都比较认可，它是业界广泛使用的Spark程序开发语言。

　　Spark 也提供了Python的编程模型PySpark，使得Python可以作为Spark开发语言之一。尽管现在PySpark还不能支持所有的Spark API，但是以后的支持度会越来越高。

　　Java 也可以作为Spark的开发语言之一，但是相对于前两者而已，逊色了很多。但是Java8却很好地适应了Spark的开发风格，大家有兴趣可以自行了解。

Spark 多语言编程的误解

　　spark对多语言的支持，并不是说spark可以操作各个语言写的程序。 而是各种语言可以使用spark提供的编程模型来开发spark程序，并连接 spark集群来运行开发好的app。

　　前面我已经些了使用Scala、Java语言开发Spark程序，接下来我重点给大家写此博文了解一下Python的编程模型。

Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

使用python来开发spark app

　　Spark 公开了Python的编程模型--PySpark，开发者可以通过PySpark很容易地开发Spark 应用程序。

　　但是Python API和Scala API并不完全相同：

　　　　1）Python是动态语言，RDD 可以持有不同类型的对象。

　　　　2）PySpark 目前并没有支持全部的API，但核心部分已经全部支持。

　　　　3）在PySpark里，RDD支持和Scala一样的方法，只不过这些方法是Python函数来实现的，返回的也是Python的集合类型；对于RDD方法中使用的短函数，则可以使用Python的Lambda语法实现。

　　不过，使用Python开发Spark应用程序也有很多优势，比如说不需要编译，使用方便，还可以与许多系统集成，特别是NoSQL大部分都提供了Python开发包。

　　接下来我带大家一起使用Python语言开发Spark App。

　　● IDE

　　　　这里选择pycharm

http://www.jetbrains.com/products.html#lang=python

　　● 安装python

　　● 创建python项目

　　● 引入依赖的模块

pyspark

py4j

Spark 概念学习系列之Spark 多语言编程的更多相关文章

Spark 概念学习系列之Spark基本概念和模型（十八）
打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行.而当以分布式的方式在集群中运行时.底层的资源调度可以使用Mesos或者Yarn,也可使用spark ...
Spark 概念学习系列之Spark存储管理机制
Spark存储管理机制概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述思考: RDD,我们可以直接使用而无须关心它的实现细节, ...
Spark 概念学习系列之Spark Core（十五）
不多说,直接上干货! 最关键的是转换算子Transformations和缓存算子Actions. 主要是对RDD进行操作. RDD Objects -> Scheduler(DAGSched ...
Spark SQL概念学习系列之Spark SQL概述
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密（二十）
本博文的主要内容: 1.Hash Shuffle彻底解密 2.Shuffle Pluggable解密 3.Sorted Shuffle解密 4.Shuffle性能优化一:到底什么是Shuffle? ...
Spark Streaming概念学习系列之Spark Streaming容错
Spark Streaming容错检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统 ...
Spark SQL概念学习系列之Spark SQL 架构分析（四）
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
Spark 概念学习系列之从物理执行的角度透视spark Job（十七）
本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD ...

随机推荐

OPENCV(5) —— 图像直方图
新版本对直方图不再使用之前的histogram的形式,而是用统一的Mat或者MatND的格式来存储直方图,可见新版本Mat数据结构的优势. C++: void calcHist(const Mat* ...
UVA And Then There Was One
约瑟夫环问题,只不过每次删除一个后,在移m的倍数. #include <iostream> #include <cstdio> #include <cstring> ...
python pdb小结
Debug功能对于developer是非常重要的,python提供了相应的模块pdb让你可以在用文本编辑器写脚本的情况下进行debug. pdb是python debugger的简称.常用的一些命令如 ...
第四次python作业——叶耀宗
设计题2: 1.参考“三国演义”词频统计程序,实现对红楼梦出场人物的频次统计.2.(可选)将红楼梦出场人物的频次统计结果用词云显示. import jieba excludes = {"什么 ...
今日SGU 5.15
最近事情好多,数据库作业,没天要学2个小时java,所以更新的sgu就比较少了 SGU 131 题意:给你两种小块一种,1*1,一种2*2-1*1,问你填满一个m*n的矩形有多少钟方法,n和m小于等于 ...
Linux下yum安装ffmpeg和使用
本文属于转载文章:转载地址是http://www.cnblogs.com/dennisit/archive/2012/12/27/2835089.html 使用Yum安装ffmpeg 打开 vi /e ...
jQuery获取区间随机数
1.自定义函数 function getRandom(min,max){ //x上限,y下限 var x = max; var y = min; if(x<y){ ...
洛谷 P1994 有机物燃烧
P1994 有机物燃烧题目背景本来准备弄难点的,还是算了吧题目描述输入一种有机物,输出与氧气反应化学方程式中CO2和H2O的系数输入输出格式输入格式: 一行,一个字符串,表示有机物输出格 ...
[Python] Understand Scope in Python
Misunderstanding scope can cause problems in your application. Watch this lesson to learn how Python ...
mongodb适用和不适用的应用场景
近期考虑把订单历史数据从Oracle数据库迁移到Nosql数据库做历史数据查询和分析,一天千万级数据.打算使用mongodb数据库.使用nodejs做查询和统计API,对并发请求量要求低,不知道有没有 ...

Spark 概念学习系列之Spark 多语言编程

Spark 多语言编程的简介

Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

使用python来开发spark app

Spark 概念学习系列之Spark 多语言编程的更多相关文章

随机推荐

热门专题