1. Spark Overview(spark概述)

Apache spark是一个快速和通用的集群计算系统。它提供了Java,Scala,Python和R的高级APIs,以及支持通用执行图的优化引擎。它也支持一系列高级工具,包括用于SQL的Spark SQL、结构化数据处理、用于机器学习的MLlib,用于图形处理的GraphX以及Spark Streaming。

2. Downloading(下载)

从项目网址的下载页面下载Spark。这个文档是Spark 2.2.1版本的。Spark使用HDFS和YARN的Hadoop的客户端库。下载那些少数流行的Hadoop版本预先打包的。用户也可以下载“Hadoop free”二进制文件,并通过增加Spark类路径来运行带有任何Hadoop版本的Spark。Scala和Java用户可以使用Maven配合将Spark包含在他们项目中,将来Python用户也可以从PyPI安装Spark。

如果你喜欢通过源代码编译Spark,可以查看Building Spark

Spark可以在Windows和类UNIX系统(如Linux,Mac OS)上运行。在一台机器上本地运行是很容易——你需要做的是在你系统Path上安装Java,或者通过JAVA_HOME环境变量指向Java安装目录。

Spark运行在Java8+,Python 2.7+/3.4+和R3.1+。对于Scala API,Spark2.2.1使用Scala2.11。你需要使用兼容性的Scala版本2.11.x。

注意,从Spark2.2.0开始,对2.6.5之前版本的Java7,Python2.6和旧Hadoop版本的支持已被删除。

注意,从Spark2.1.0开始,不支持Scala2.10,可能会在Spark2.3.0中删除。

3. Running the Examples and Shell(运行例子和shell)

Spark带有几个示例程序。Scala,Java,Python和R示例在example/src/main目录。在Spark根目录使用bin/run-example <class> [params]去运行Java或者Scala示例程序。(在幕后,调用spark-submit脚本来启动应用程序)例如:

./bin/run-example SparkPi 10

你也可以通过Scala shell的修改版本交互地运行Spark。这是学习框架的最好方式。

./bin/spark-shell --master local[2]

--master选项指向一个分布式集群的master URL,local 指使用一个线程本地运行,local[N] 指使用N个线程本地运行。你应该使用local进行测试。有关完整的选项列表,使用--help选项运行Spark Shell查看。

Spark也提供Python API。使用bin/pyspark在Python解释器中以交互方式运行Spark:

./bin/pyspark --master local[2]

示例应用程序也在Python中提供,如:

./bin/spark-submit examples/src/main/python/pi.py 10

自从1.4开始,Spark还提供了一个实验性的R API(仅包括DataFrame APIs)。使用bin/sparkR在R解释器中以交互方式运行Spark:

./bin/sparkR --master local[2]

示例应用程序也在R中提供,如:

./bin/spark-submit examples/src/main/r/dataframe.R

4. Launchiing on a Cluster(在集群中启动)

Spark集群模式概述解释了在集群上运行的相关概念。Spark可以单独运行,也可以运行在几个现有的集群管理器上。它目前提供了几个部署选择:

5. 接下来方向

项目目录:

API Docs:

部署目录:

  • Cluster Overview(集群概述):当在一个集群上运行时一些概念和组件的概述
  • Submitting Applications:打包和部署应用
  • Deployment modes(部署模式):
  1. Amazon EC2:在EC2上大概5分钟内启动一个集群的脚本
  2. Standalone Deploy Mode:不通过第三方集群管理器快速启动一个独立集群
  3. Mesos:使用Apache Mesos部署一个私有集群
  4. YARN:在Hadoop NextGen(YARN)上部署Spark(目前我在使用的模式)
  5. Kubernetes(试验性):在Kubernetes上部署Spark

参考资料:

http://spark.apache.org/docs/latest/

Spark入门学习的更多相关文章

  1. spark 入门学习 核心api

    spark入门教程(3)--Spark 核心API开发 原创 2016年04月13日 20:52:28 标签: spark / 分布式 / 大数据 / 教程 / 应用 4999 本教程源于2016年3 ...

  2. Hadoop/Spark入门学习笔记(完结)

    Hadoop基础及演练 ---第1章 初识大数据 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. ---第2章 Hadoop核心HDFS Hadoop ...

  3. 使用scala开发spark入门总结

    使用scala开发spark入门总结 一.spark简单介绍 关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...

  4. Spark入门实战系列--1.Spark及其生态圈简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...

  5. Spark入门实战系列--5.Hive(上)--Hive介绍及部署

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍 月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...

  6. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  7. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学 ...

  8. Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analys ...

  9. 【Spark深入学习-11】Spark基本概念和运行模式

    ----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 ...

随机推荐

  1. jstree 学习

    最近的项目用到了jstree,因为对官方文档理解不充分,所以很多功能都是在网站上搜索再进行使用的.(我只是大自然的搬运工) 对每一级的节点,右键后出现不同的结果. 在jstree中右键是由 conte ...

  2. TxDragon的训练5

    Solution 代码:由乃: //MADE BY QT666 #include<iostream> #include<cstdio> #include<algorith ...

  3. Ubuntu中启用ssh服务---转载

    ssh程序分为有客户端程序openssh-client和服务端程序openssh-server.如果需要ssh登陆到别的电脑,需要安装openssh-client,该程序Ubuntu是默认安装的.而如 ...

  4. lesson - 11 正则表达式

    正则就是有一定规律的字符串,有几个特殊符号很关键(. * + ? | ),我们平时不仅可以用命令行工具grep/sed/awk去引用正则,而且还可以把正则嵌入在nginx.apache.甚至php.p ...

  5. 系统内置委托:Func/Action

    lSystem.Func 代表有返回类型的委托 lpublic delegate TResult  Func<out TResult>(); lpublic delegate TResul ...

  6. Java企业微信开发_11_异常:java.net.UnknownHostException: qyapi.weixin.qq.com

    原因: 网络原因导致 dns解析失败. 解决方案: 方案一 : 1.查看你的服务器能否ping通外网,不过不行说明你的网络出了问题.     (我的情况是客户的应用服务器只能内网访问,所以是网络出问题 ...

  7. 用python爬整本小说写入txt文件

    没太完善,但是可以爬下整本小说.日后会写入数据库,注释不要太在意,都是调试的.入库估计这周之后,这次爬的是笔趣阁的第1150本书,大家只要可以改get_txt()里数字就行,查到自己要看哪本书一改就可 ...

  8. shell日志删除(超容量&自动)

    背景:避免双十一磁盘被打爆,本想通过crontab执行,但是删除需要密码,所以用作当机器磁盘高于摸个阈值,进行无关性日志强删 #!/bin/sh #use #sh clean.sh wmporder_ ...

  9. SLAM入门之视觉里程计(4):基础矩阵的估计

    在上篇文章中,介绍了三位场景中的同一个三维点在不同视角下的像点存在着一种约束关系:对极约束,基础矩阵是这种约束关系的代数表示,并且这种约束关系独立与场景的结构,只依赖与相机的内参和外参(相对位姿).这 ...

  10. windows的ReactNative挖坑一分钟爬坑一小时

    其实开发并不需要Android Studio来开发,因为命令行都是要自己手打的,所以就开始了我的挖坑爬坑之旅 首先安装React Native要用到的git.nodejs等等这里不讲了,主要讲在手机上 ...