Spark2.1.0官方文档
Spark 概述
Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。
下载
从项目网站的下载页面获取Spark。本文档适用于Spark 2.1.0版本。 Spark使用Hadoop的客户端库用于HDFS和YARN。下载是预先打包的一些流行的Hadoop版本。用户还可以下载“Hadoop free”二进制文件,并通过扩充Spark的类路径,使用任何Hadoop版本运行Spark。 Scala和Java用户可以使用其maven cooridnates在他们的项目中包含Spark,并且在将来Python用户也可以从PyPI安装Spark。
如果你想从源代码编译Spark,请访问Building Spark。
Spark在Windows和类UNIX系统(例如Linux,Mac OS)上运行。它很容易在一台计算机上本地运行 – 所有你需要的是在系统PATH上安装java,或者JAVA_HOME环境变量指向Java安装位置。
Spark运行于Java 7+,Python 2.6 + / 3.4 +和R 3.1+。对于Scala API,Spark 2.1.0使用Scala 2.11。您将需要使用兼容的Scala版本(2.11.x)。
请注意,Java 7和Python 2.6的支持在从Spark 2.0.0已过时,并且对于Scala 2.10和2.6之前的Hadoop版本的支持在Spark 2.1.0中已过时,并且可能会在Spark 2.2.0中被删除。
运行示例和Shell
Spark附带了几个示例程序。 Scala,Java,Python和R示例在 examples/src/ main目录中。 要运行Java或Scala示例程序之一,请在顶级Spark目录中使用bin / run-example [params]。 (在后台,这将调用更通用的spark提交脚本来启动应用程序)。 例如,
./bin/run-example SparkPi 10
您还可以通过Scala shell的修改版本以交互方式运行Spark。 这是一个学习框架的好方法。
./bin/spark-shell --master local[2]
--master选项指定分布式集群的master URL,或者本地使用一个线程运行在本地,或者使用local [N]在本地使用N个线程运行。 您应该首先使用local进行测试。 有关选项的完整列表,请运行Spark shell 使用–help选项。
Spark还提供了一个Python API。 要在Python解释器中以交互方式运行Spark,请使用bin / pyspark:
./bin/pyspark --master local[2]
示例应用程序也在Python中提供。 例如,
./bin/spark-submit examples/src/main/python/pi.py 10
Spark自1.4以来提供了一个实验R API(仅包括DataFrames API)。 要在R解释器中以交互方式运行Spark,请使用bin / sparkR:
./bin/sparkR --master local[2]
示例应用也在R中提供。例如,
./bin/spark-submit examples/src/main/r/dataframe.R
在群集上运行
Spark集群模式概述解释了在集群上运行的关键概念。 Spark可以单独运行,也可以通过多个现有集群管理器运行。 它目前提供了几个部署选项:
- 独立部署模式:在私有集群上部署Spark的最简单方法
- Apache Mesos
- Hadoop YARN
从哪里入手
编程指南
- 快速入门:快速介绍Spark API; 从这里开始!
- Spark编程指南:Spark所有支持的语言(Scala,Java,Python,R)
- 基于Spark的模块:
- Spark Streaming:处理实时数据流
- Spark SQL,Datasets和DataFrames:支持结构化数据和关系查询
- MLlib:内置机器学习库
- GraphX:Spark的新图形处理API
API Docs
- Spark Scala API (Scaladoc)
- Spark Java API (Javadoc)
- Spark Python API (Sphinx)
- Spark R API (Roxygen2)
部署指南
- 集群概述:在集群上运行的组件概述
- 提交应用程序:打包和部署应用程序
- 部署模式:
- Amazon EC2:允许您在大约5分钟内在EC2上启动集群的脚本
- 独立部署模式:快速启动独立集群,无需第三方集群管理器
- Mesos:使用Apache Mesos部署私有集群
- YARN:在Spark上部署Hadoop的下一代(YARN)
其他文档
- 配置:- 通过其配置系统定制Spark
- 监视:跟踪应用程序的行为
- 优化指南:优化性能和内存使用的最佳做法
- 作业调度:在Spark应用程序内部和跨程序调度资源
- 安全:Spark安全支持
- 硬件配置:针对集群硬件的建议
- 与其他存储系统集成:
- 编译Spark:使用Maven系统构建Spark
- 贡献给Spark
- 第三方项目:相关第三方Spark项目
外部资源
Spark2.1.0官方文档的更多相关文章
- Cuda 9.2 CuDnn7.0 官方文档解读
目录 Cuda 9.2 CuDnn7.0 官方文档解读 准备工作(下载) 显卡驱动重装 CUDA安装 系统要求 处理之前安装的cuda文件 下载的deb安装过程 下载的runfile的安装过程 安装完 ...
- Django 2.0官方文档中文 渣翻 总索引(个人学习,欢迎指正)
Django 2.0官方文档中文 渣翻 总索引(个人学习,欢迎指正) 置顶 2017年12月08日 11:19:11 阅读数:20277 官方原文: https://docs.djangoprojec ...
- Django 2.0官方文档中文 总索引
Django 2.0官方文档中文 渣翻 总索引 翻译 2017年12月08日 11:19:1 官方原文: https://docs.djangoproject.com/en/2.0/ 当前翻译版本: ...
- Vue2.0 官方文档学习笔记
VUE2.0官方文档 基础部分: 1.VUE简介 Vue是一个基于MVVM的框架,其中M代表数据处理层,V代表视图层即我们在Vue组件中的html部分,VM即M和V的结合层,处理M层相应的逻辑数据,在 ...
- Orleans 框架3.0 官方文档中文版系列一 —— 概述
关于这个翻译文档的一些说明: 之前逛博客园的时候,看见有个园友在自己的博客上介绍Orleans. 觉得Orleans 是个好东西. 当时心想:如果后面有业务需要的时候可以用用Orleans框架. 当真 ...
- vue.js 2.0 官方文档学习笔记 —— 01. vue 介绍
这是我的vue.js 2.0的学习笔记,采取了将官方文档中的代码集中到一个文件的形式.目的是保存下来,方便自己查阅. !官方文档:https://cn.vuejs.org/v2/guide/ 01. ...
- Elasticsearch 7.4.0官方文档操作
官方文档地址 https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html 1.0.0 设置Elasticsea ...
- Spring Boot 2.0官方文档之 Actuator(转)
执行器(Actuator)的定义 执行器是一个制造业术语,指的是用于移动或控制东西的一个机械装置,一个很小的改变就能让执行器产生大量的运动. An actuator is a manufacturin ...
- OAuth2.0官方文档中文翻译
http://page.renren.com/699032478/note/708597990 (一)背景知识 OAuth 2.0很可能是下一代的“用户验证和授权”标准,目前在国内还没有很靠谱的技术资 ...
随机推荐
- Freemarker的基本语法及入门基础
freemarker的基本语法及入门基础一.freemarker模板文件(*.ftl)的基本组成部分 1. 文本:直接输出的内容部分 2. 注释:不会输出的内容,格式为&l ...
- 来了解一下Mysql索引的相关知识:基础概念、性能影响、索引类型、创建原则、注意事项
索引的基础概念索引类似于书籍的目录,要想找到一本书的某个特定主题,需要先查找书的目录,定位对应的页码:存储引擎使用类似的方式进行数据查询,先去索引当中找到对应的值,然后根据匹配的索引找到对应的数据行 ...
- 1.10 tuple 元组
元组(tuple)属于不可变序列 tuple特性: 特性一:可包含任意对象的有序集合 特性二:通过下标索引访问元素 特性三:固定长度,异质,可任意嵌套 特性四:不支持原位改变 特性五:存储机制:对象引 ...
- Hadoop编译方法
伪分布式: hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml 1.在hadoop官网下载hadoop的源码(同步跟踪最新源代码) mv ...
- mac 系统安装 eclipse 方法
经过好几天的折腾,终于在各种不靠谱的经验.说明的忽悠中把自己心爱的 mac 安装上了 eclipse,看到别人的不靠谱,我决定自己写一篇经验,为了大家能够不走我这么多的弯路,也为了自己将来可以回来看看 ...
- javascript获取网页地址栏的id
//获取网页的uid (function ($) { $.getUrlParam = function (name) { var reg = new RegExp("(^|&)&qu ...
- Ubuntu 11.10下GRUB 2 1.99版编译安装笔记
Ubuntu 11.10下GRUB 2 1.99版编译安装笔记 以下的安装笔记,都是QLi自己学习grub2 时,所整理的,还是新手,有错误的话,请大家帮忙就别提出来了. 最新版grub V1.99官 ...
- Windows驱动开发工具 WDK 学习笔记(1)
目标:能够把电脑当作一个集成有高性能处理器的开发板用起来,当然,还自带了一个高级的操作系统Windows(必须的).总之,就是在一个带了操作系统的高性能开发板上的驱动程序开发. 性质:纯属业余爱好 1 ...
- nginx重写rewrite的[emerg] unknown directive
今天写nginx的重写规则.怎么写总是报这个错误.
- HighCharts之2D饼图
HighCharts之2D饼图 1. HighCharts之2D饼图源码 <!DOCTYPE html> <html> <head> <meta charse ...