Spark入门学习
1. Spark Overview(spark概述)
Apache spark是一个快速和通用的集群计算系统。它提供了Java,Scala,Python和R的高级APIs,以及支持通用执行图的优化引擎。它也支持一系列高级工具,包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLlib,用于图形处理的GraphX以及Spark Streaming。
2. Downloading(下载)
从项目网址的下载页面下载Spark。这个文档是Spark 2.2.1版本的。Spark使用HDFS和YARN的Hadoop的客户端库。下载那些少数流行的Hadoop版本预先打包的。用户也可以下载“Hadoop free”二进制文件,并通过增加Spark类路径来运行带有任何Hadoop版本的Spark。Scala和Java用户可以使用Maven配合将Spark包含在他们项目中,将来Python用户也可以从PyPI安装Spark。
如果你喜欢通过源代码编译Spark,可以查看Building Spark。
Spark可以在Windows和类UNIX系统(如Linux,Mac OS)上运行。在一台机器上本地运行是很容易——你需要做的是在你系统Path上安装Java,或者通过JAVA_HOME环境变量指向Java安装目录。
Spark运行在Java8+,Python 2.7+/3.4+和R3.1+。对于Scala API,Spark2.2.1使用Scala2.11。你需要使用兼容性的Scala版本2.11.x。
注意,从Spark2.2.0开始,对2.6.5之前版本的Java7,Python2.6和旧Hadoop版本的支持已被删除。
注意,从Spark2.1.0开始,不支持Scala2.10,可能会在Spark2.3.0中删除。
3. Running the Examples and Shell(运行例子和shell)
Spark带有几个示例程序。Scala,Java,Python和R示例在example/src/main目录。在Spark根目录使用bin/run-example <class> [params]去运行Java或者Scala示例程序。(在幕后,调用spark-submit脚本来启动应用程序)例如:
./bin/run-example SparkPi 10
你也可以通过Scala shell的修改版本交互地运行Spark。这是学习框架的最好方式。
./bin/spark-shell --master local[2]
--master选项指向一个分布式集群的master URL,local 指使用一个线程本地运行,local[N] 指使用N个线程本地运行。你应该使用local进行测试。有关完整的选项列表,使用--help选项运行Spark Shell查看。
Spark也提供Python API。使用bin/pyspark在Python解释器中以交互方式运行Spark:
./bin/pyspark --master local[2]
示例应用程序也在Python中提供,如:
./bin/spark-submit examples/src/main/python/pi.py 10
自从1.4开始,Spark还提供了一个实验性的R API(仅包括DataFrame APIs)。使用bin/sparkR在R解释器中以交互方式运行Spark:
./bin/sparkR --master local[2]
示例应用程序也在R中提供,如:
./bin/spark-submit examples/src/main/r/dataframe.R
4. Launchiing on a Cluster(在集群中启动)
Spark集群模式概述解释了在集群上运行的相关概念。Spark可以单独运行,也可以运行在几个现有的集群管理器上。它目前提供了几个部署选择:
- Standalone Deploy Mode独立部署模式:最简单的方法是在一个私有集群上部署Spark。
- Apache Mesos
- Hadoop YARN
5. 接下来方向
项目目录:
- Quick Start:一个关于Spark API的快速介绍。
- RDD Programming Guide: Spark基础概述——RDDs(核心但旧的API),累加器和广播变量
- Spark SQL, Datasets, and DataFrames: 通过关联查询处理结构化数据(比RDDs更新的API)
- Structured Streaming:通过关联查询处理结构化数据(使用Datasets和DataFrames,比DStreams更新的API)
- Spark Streaming: 通过使用DStreams处理数据流(旧API)
- MLlib:应用于机器学习算法
- GraphX:处理图像
API Docs:
部署目录:
- Cluster Overview(集群概述):当在一个集群上运行时一些概念和组件的概述
- Submitting Applications:打包和部署应用
- Deployment modes(部署模式):
- Amazon EC2:在EC2上大概5分钟内启动一个集群的脚本
- Standalone Deploy Mode:不通过第三方集群管理器快速启动一个独立集群
- Mesos:使用Apache Mesos部署一个私有集群
- YARN:在Hadoop NextGen(YARN)上部署Spark(目前我在使用的模式)
- Kubernetes(试验性):在Kubernetes上部署Spark
参考资料:
http://spark.apache.org/docs/latest/
Spark入门学习的更多相关文章
- spark 入门学习 核心api
spark入门教程(3)--Spark 核心API开发 原创 2016年04月13日 20:52:28 标签: spark / 分布式 / 大数据 / 教程 / 应用 4999 本教程源于2016年3 ...
- Hadoop/Spark入门学习笔记(完结)
Hadoop基础及演练 ---第1章 初识大数据 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. ---第2章 Hadoop核心HDFS Hadoop ...
- 使用scala开发spark入门总结
使用scala开发spark入门总结 一.spark简单介绍 关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...
- Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...
- Spark入门实战系列--5.Hive(上)--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍 月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
- Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
- Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学 ...
- Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analys ...
- 【Spark深入学习-11】Spark基本概念和运行模式
----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 ...
随机推荐
- 为什么硬链接不能链接目录、文件inode 和目录 dentry 的区别联系
我们对任何一个目录用ls -l 命令都可以看到其连接数至少是2,这也说明了系统中是存在硬连接的,而且命令ln -d 也可以让超级用户对目录作硬连接,这些都说明了系统限制对目录进行硬连接只是一个硬性规定 ...
- 从源码(编译)安装golang 二
h1 { margin-top: 0.6cm; margin-bottom: 0.58cm; direction: ltr; color: #000000; line-height: 200%; te ...
- 【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧!
写这个系列写了两个月了,对paddlepaddle的使用和越来越熟悉,不过一直没找到合适的应用场景.最近百度搞了个AI大赛,据说有四个赛题,现在是第一个----综艺节目精彩片段预测 ,大家可以去检测一 ...
- 在Maven Central发布中文API的Java库
原址: https://zhuanlan.zhihu.com/p/28024364 相关问题: 哪些Java库有中文命名的API? 且记下随想. 之前没有发布过, 看了SO上的推荐:Publish a ...
- ASP.NET Core学习之四 在CentOS上部署.net core
一.安装CentOs 以前在大学学过linux,但是对命令行总是有一种深深的排斥感,几年之后,还是又回来了. 1.下载 现在没法FQ,就算是FQ网速也是蜗牛一样慢,我使用阿里云的镜像站进行下载速度还是 ...
- sql server 错误号大全
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足,无法处理此 ...
- MicroPython+北斗+GPS+GPRS:TPYBoardv702短信功能使用说明
转载请以链接形式注明文章来源(MicroPythonQQ技术交流群:157816561,公众号:MicroPython玩家汇) TPYBoardv702是目前市面上唯一支持通信定位功能的MicroPy ...
- [Spark内核] 第36课:TaskScheduler内幕天机解密:Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題 通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
- Gson的学习与使用
Gson介绍: GSON是Google提供的用来在Java对象和JSON数据之间进行映射的Java类库.可以将一个Json字符转成一个Java对象,或者将一个Java转化为Json字符串. 特点: a ...
- 转JS--通过按钮直接把input或者textarea里的值复制到粘贴板里
document.activeElement属性为HTML 5中新增的document对象的一个属性,该属性用于返回光标所在元素.当光标未落在页面中任何元素内时,属性值返回body元素. setSel ...