Jupyter配置Spark开发环境

兄弟连大数据培训和大家一起探究Jupyter配置

Spark

开发环境

简介

　　为Jupyter配置Spark开发环境，可以安装全家桶–Spark Kernel或Toree，也可按需安装相关组件。

　　考虑到一般人更喜欢一步到位，并且Toree将会代替Spark Kernel，故直接且仅需安装Toree即可，不过下面还是给出了所有的安装方法。

　　Spark Kernel的安装

　　参照Spark Kernel支持的语言，安装好Spark Kernel后，其默认可以支持Scala，Python，R，SQL，对应的Spark实现分别是Scala with Spark，Python with PySpark，R With SparkR，Spark SQL。

　　参照上述链接，要切换语言时，只需简单的在语句前面加上%%scala/%%pyspark即可。当然，什么都不加时，默认语言为Scala。

　　另外，启动Jupyter后，可直接在http://localhost:4040/jobs/监控所有作业。

　　Spark Kernel(旧的项目)

　　参照下面的安装步骤进行即可，就是有些繁琐。

　　Getting Started with theSpark Kernel

　　Guide to Integrating theSpark Kernel with Jupyter

　　Toree(新项目)

　　根据Spark Kernel的介绍，自从Spark Kernel变成Apache的孵化项目后，其最新仓库已经迁移到了incubator-toree。

　　安装时，参照Quick Start What isApache Toree ，仅需两条命令即可完成安装。

　　pip install toree

　　jupyter toree install--spark_home=your-spark-home12

　　值得注意的是:

　　Toree虽然还在孵化中，但已经能完成上述Spark Kernel的全部功能，即可支持PySpark，Spark SQL等。

　　该kernel安装在/usr/local/share/jupyter/kernels/apache_toree_scala目录下

　　Spark组件单独安装

　　除了安装上面的方法安装Spark的全家桶外，还可以按需对各组件进行安装。

　　Scala Kernel的安装

　　参照jupyter-scala安装即可。

　　PySpark的安装

　　PySpark: How to install andIntegrate with the Jupyter Notebook

　　Integrate Apache Spark withlatest IPython Notebook (Jupyter 4.x)

　　Running Spark ApplicationsUsing IPython and Jupyter Notebooks

Jupyter配置Spark开发环境的更多相关文章

windows下spark开发环境配置
http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark ...
Windows下单机安装Spark开发环境
机器:windows 10 64位. 因Spark支持java.python等语言,所以尝试安装了两种语言环境下的spark开发环境. 1.Java下Spark开发环境搭建 1.1.jdk安装安装o ...
Spark编译及spark开发环境搭建
最近需要将生产环境的spark1.3版本升级到spark1.6(尽管spark2.0已经发布一段时间了,稳定可靠起见,还是选择了spark1.6),同时需要基于spark开发一些中间件,因此需要搭建一 ...
Intellij IDEA使用Maven搭建spark开发环境（scala）
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作首先需要在你电脑上安装jdk和scala以 ...
Spark开发环境
1. Win7下利用Intellij IDEA构建Spark开发环境前提:Intellij IDEA Community 免费版下载(最新版14.0.1),Scala插件下载(最新版scala-in ...
分别用Eclipse和IDEA搭建Scala+Spark开发环境
开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Ecli ...
PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境 Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6 通常情况下,Spark开发 ...
Spark开发环境搭建和作业提交
Spark高可用集群搭建在所有节点上下载或上传spark文件,解压缩安装,建立软连接配置所有节点spark安装目录下的spark-evn.sh文件配置slaves 配置spark-default ...
【原创干货】大数据Hadoop/Spark开发环境搭建
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深 ...

随机推荐

spring几种获取 HttpServletRequest 对象的方式
以下的 request 实例都编号了,一共 4 种方式 1.@Autowired 方式2.public void Test(HttpServletRequest request1, HttpServ ...
docker windows下挂载目录和文件
我们利用docker启动项目的时候不能直接修改容器中的内容,只能在 run 的时候挂载到本地目录或者文件来进行修改. 例子:(路径可以忽略斜杠和反斜杠,我这边使用windows的路径没有报错.do ...
Go语言入门篇-基本类型排序和 slice 排序
参见博客:https://blog.csdn.net/u010983881/article/details/52460998 package main import ( "sort" ...
关于migration build failed的问题
首先一定要执行dotnet restore 查看网站的依赖关系(有时候生成是不报错的但是restore会找不到文件路径) 检查执行命令的路径是否是正确的当前网站路径 build failed一定是生成 ...
HDU4471 Homework
题目预处理转移矩阵的\(2^k\). 然后把关键点按下标排序. 每次用类似于矩阵快速幂的方法求出两个关键点中间的转移矩阵. #include<bits/stdc++.h> using n ...
Python环境配置：anaconda+pycharm一站式解决
https://www.cnblogs.com/yuxuefeng/p/9235431.html 不错的博文,码一下.
TCP滑动窗体
TCP的滑动窗体攻克了端到端的流量控制问题,同意接受方对传输进行限制.直到它拥有足够的缓冲空间来容纳很多其他的数据.滑动窗体的大小由接收方确定,接收方在发送确认信号给发送方的同一时候告诉发送方自己的缓 ...
Python webdriver调用Chrome报错
报错信息如下: selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to b ...
webpack收藏
收藏链接: https://www.jianshu.com/p/8ff8e71dcbc6
js中封装一个自己的简单数学对象
封装一个数学对象求最大值最小值 <script> var myMath={ PI:3.1415926, max:function(){ var max=arguments[0];//注意a ...

Jupyter配置Spark开发环境

Jupyter配置Spark开发环境的更多相关文章

随机推荐

热门专题