Spark 可以独立安装使用，也可以和 Hadoop 一起安装使用。在安装 Spark 之前，首先确保你的电脑上已经安装了 Java 8 或者更高的版本。

Spark 安装

访问Spark 下载页面，并选择最新版本的 Spark 直接下载，当前的最新版本是 2.4.2 。下载好之后需要解压缩到安装文件夹中，看自己的喜好，我们是安装到了 /opt 目录下。

tar -xzf spark-2.4.2-bin-hadoop2.7.tgz

mv spark-2.4.2-bin-hadoop2.7 /opt/spark-2.4.2

为了能在终端中直接打开 Spark 的 shell 环境，需要配置相应的环境变量。这里我由于使用的是 zsh，所以需要配置环境到 ~/.zshrc 中。

没有安装 zsh 的可以配置到 ~/.bashrc 中

# 编辑 zshrc 文件

sudo gedit ~/.zshrc

# 增加以下内容：

export SPARK_HOME=/opt/spark-2.4.2

export PATH=$SPARK_HOME/bin:$PATH

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

配置完成后，在 shell 中输入 spark-shell 或者 pyspark 就可以进入到 Spark 的交互式编程环境中，前者是进入 Scala 交互式环境，后者是进入 Python 交互式环境。

配置 Python 编程环境

在这里介绍两种编程环境，Jupyter 和 Visual Studio Code。前者方便进行交互式编程，后者方便最终的集成式开发。

PySpark in Jupyter

首先介绍如何在 Jupyter 中使用 Spark，注意这里 Jupyter notebook 和 Jupyter lab 是通用的方式，此处以 Jupyter lab 中的配置为例：

在 Jupyter lab 中使用 PySpark 存在两种方法：

配置 PySpark 的启动器为 Jupyter lab，运行 pyspark 将自动打开一个 Jupyter lab；
打开一个正常的 Jupyter lab，并使用 findSpark 包来加载 PySpark。

第一个选项更快，但特定于Jupyter笔记本，第二个选项是一个更广泛的方法，使PySpark在你任意喜欢的IDE中都可用，强烈推荐第二种方法。

方法一：配置 PySpark 启动器

更新 PySpark 启动器的环境变量，继续在 ~/.zshrc 文件中增加以下内容：

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='lab'

如果要使用 jupyter notebook，则将第二个参数的值改为 notebook

刷新环境变量或者重启机器，并执行 pyspark 命令，将直接打开一个启动了 Spark 的 Jupyter lab。

pyspark

方法二：使用 findSpark 包

在 Jupyter lab 中使用 PySpark 还有另一种更通用的方法：使用 findspark 包在代码中提供 Spark 上下文环境。

findspark 包不是特定于 Jupyter lab 的，您也可以其它的 IDE 中使用该方法，因此这种方法更通用，也更推荐该方法。

首先安装 findspark：

pip install findspark

之后打开一个 Jupyter lab，我们在进行 Spark 编程时，需要先导入 findspark 包，示例如下：

# 导入 findspark 并初始化

import findspark

findspark.init()

from pyspark import SparkConf, SparkContext

import random

# 配置 Spark

conf = SparkConf().setMaster("local[*]").setAppName("Pi")

# 利用上下文启动 Spark

sc = SparkContext(conf=conf)

num_samples = 100000000

def inside(p):

    x, y = random.random(), random.random()

	return x*x + y*y < 1

count = sc.parallelize(range(0, num_samples)).filter(inside).count()

pi = 4 * count / num_samples

print(pi)

sc.stop()

运行示例：

PySpark in VScode

Visual Studio Code 作为一个优秀的编辑器，对于 Python 开发十分便利。这里首先推荐个人常用的一些插件：

Python：必装的插件，提供了Python语言支持；
Code Runner：支持运行文件中的某些片段；

此外，在 VScode 上使用 Spark 就不需要使用 findspark 包了，可以直接进行编程：

from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster("local[*]").setAppName("test")

sc = SparkContext(conf=conf)

logFile = "file:///opt/spark-2.4.2/README.md"

logData = sc.textFile(logFile, 2).cache()

numAs = logData.filter(lambda line: 'a' in line).count()

numBs = logData.filter(lambda line: 'b' in line).count()

print("Lines with a: {0}, Lines with b:{1}".format(numAs, numBs))

Spark 的 python 编程环境的更多相关文章

Emacs 配置 Python 编程环境
python编程环境设置涉及到:自动完成.语法检查.虚拟环境. 为了不把系统搞乱,在python的虚拟环境中安装相关的插件. 一.安装python虚拟环境 virtualenvwrapper sudo ...
vim配置python编程环境及YouCompleteMe的安装教程
python号称人工智能语言,现在可算大热,这篇博客将介绍如何用vim打造一款自己专属的python编程环境. step1 由于安装YouCompleteMe需要vim8.0及以上版本,所以得安装使用 ...
在win10的Linux子系统（WSL）上搭载python编程环境
为什么使用WSL进行python编程 WSL,全称Windows Subsystem for Linux.简言之,win10提供了一个子Linux系统,可以解决虚拟机和双系统的系统之间阻隔的问题而不影 ...
Python编程环境设置
第1节.Python编程环境设置一.sublime相关 1.sublime REPL插件安装 (1)安装先打开插件安装面板:ctrl+shift+P 输入install ,选择Package Co ...
[零基础学pythyon]安装python编程环境
不论什么高级语言都是须要一个自己的编程环境的,这就好比写字一样,须要有纸和笔,在计算机上写东西.也须要有文字处理软件,比方各种名称的OFFICE.笔和纸以及office软件,就是写东西的硬件或软件.总 ...
使用UE配置Python编程环境
一直在使用UE来进行python编程,觉得在UE下进行python编程使用起来还是很方便地,现在特来总结一下: 1.首先是python环境搭建 (1)下载python2.7 https://www.p ...
Python 编程环境搭建（Windows 系统中）
由于大家普遍使用 Windows 系统,所以本文只介绍 Windows 系统中 Python 环境的安装. 在 Windows 中安装 Python 与安装普通软件没什么差别,下载所需版本的安装包后, ...
cmd如何进入和退出Python编程环境？
cmd里面进入python编译环境的方式: 安装Python之后需直接运行: python 即可进入Python开发环境退出Python编译环境主要有三种方式: 1:输入exit(),回车 2:输入 ...
Windows配置Python编程环境
1.安装Python https://www.python.org/ 2.修改环境变量将安装python的路径加到path路径 3.配置notepad++ a. notepad++/运行/“运行”按 ...

随机推荐

Delphi跨平台Socket通讯库
盒子中的souledge大侠发布了新的Socket库,以下为原文: 我之前写过一个iocp的框架,放到googlecode上了. 由于当时的delphi版本尚无法跨平台,所以该框架只能运行在Windo ...
WPF Layout 系统概述——Measure
原文:WPF Layout 系统概述--Measure 前言在WPF/Silverlight当中,如果已经存在的Element无法满足你特殊的需求,你可能想自定义Element,那么就有可能会面临重 ...
数据绑定（二）把控件作为Binding源
原文:数据绑定(二)把控件作为Binding源下面的代码把一个TextBox的Text属性关联在了Slider的Value属性上 <Window x:Class="WpfApplic ...
微信小程序把玩（五）页面生命周期
原文:微信小程序把玩(五)页面生命周期这里只要熟悉页面的基本生命周期即可,业务在指定生命周期函数内书写. 以下是官网给出的生命周期函数方法和状态图上面的生周期函数图对于做Android 或者IOS ...
SignalR---DOTNET客户端
原文:SignalR---DOTNET客户端这里面有用到异步的相关知识,本人前几篇文章也简单的提到. SignalR客户端要寄宿在.NET的客户端,必须安装Microsoft.AspNet.Sign ...
【转】跟面试官聊.NET垃圾收集，直刺面试官G点
装逼的面试官和装逼的程序员我面试别人的时候,经常是按这种路子来面试: 看简历和面试题,从简历和面试题上找到一些技术点,然后跟应聘者聊. 聊某个技术点的时候,应聘者的回答会牵涉到其他的技术点,然后我会 ...
Channel 9视频整理【1】
David Dong 微软mvp https://www.facebook.com/DotNetWalker http://studyhost.blogspot.tw/ https://ch ...
ML:梯度下降（Gradient Descent）
现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地. 梯度下降算法不断重复以下步骤,直到收敛(repeat ...
Qt 使用 Google Breakpad 捕获程序崩溃报告（dump文件） good
http://blog.csdn.net/GoForwardToStep/article/details/56685810
Dependency Injection 筆記 (4)
续上集未完的相关设计模式... (本文摘自電子書:<.NET 依賴注入> Composite 模式延续先前的电器比喻.现在,如果希望 UPS 不只接计算机,还要接电风扇.除湿机,可是 U ...

Spark 的 python 编程环境