Spark官方文档翻译(一)~Overview
Spark官方文档翻译,有问题请及时指正,谢谢。
Overview页
http://spark.apache.org/docs/latest/index.html
Spark概述
Apache Spark 是一个快速的,分布式集群计算系统.它提供了高等级的针对 Java, Scala, Python and R的API接口, 他还是一个优秀的图处理引擎. 它还支持一套高级的工具集: Spark SQL,Sql和结构化数据处理;
MLlib ,机器学习; GraphX ,图处理; 还有 Spark Streaming.
下载
可以去网站下载页(http://spark.apache.org/downloads.html)下载。文档的版本是2.3.1.Spark 使用了Hadoop的客户端库来访问HDFS和YARN。下载会预先打包一个最新的Hadoop版本。用户可以下载Hadoop包然后通过Spark的环境变量使用Hadoop的各种版本。Scala和Java的用户可以用Maven集成。以后Python的用户可以用Pypi安装。
想自己编译去这页看看(http://spark.apache.org/docs/latest/building-spark.html)
Spark 可以运行在Windows 和 UNIX(比如Linux, Mac OS)系统。单机安装很简单,装java,配置JAVA_HOME环境变量。
Spark 运行在Java 8+, Python 2.7+/3.4+ ,R 3.1+.Scala 的API使用Scala 2.11。你需要使用Scala 的版本(2.11.x)来兼容。
Spark 2.2.0以后就不支持Java 7, Python 2.6和 Hadoop 2.6.5以前的版本了。
2.3.0以后就不支持Scala 2.10了。
运行例子和Shell
Spark 提供了几个简单的小程序。 Scala, Java, Python 、R的例子在examples/src/main文件夹下。运行java或scala简单程序,在高一级目录执行 bin/run-example <class> [params] (更相信的spark提交指令访问http://spark.apache.org/docs/latest/submitting-applications.html),比如:
./bin/run-example SparkPi 10
你也可以用Scala shell与spark交互,这样是学习框架最好的方式。
./bin/spark-shell --master local[2]
--master 这个设置可以查看http://spark.apache.org/docs/latest/submitting-applications.html#master-urls
local是一个线程 local[N]是多个线程 可以用local作为测试 获得全部设置用 --help
Spark也提供了python api 用python解释器与spark进行交互 bin/pyspark
./bin/pyspark --master local[2]
例子也有:
./bin/spark-submit examples/src/main/python/pi.py 10
1.4以后也提供了R api
./bin/sparkR --master local[2]
例子:./bin/spark-submit examples/src/main/r/dataframe.R
集群启动
Spark集群模式可以在这查看 http://spark.apache.org/docs/latest/cluster-overview.html
Spark 可以独立运行 ,也可以几个存在的管理者协作运行,现在提供了这几种部署方式:
- Standalone Deploy Mode: 这是最简单的部署私人集群的方式
- Apache Mesos
- Hadoop YARN
- Kubernetes
可以查阅什么呢(官网菜单翻译)
Programming Guides:编程指南
- Quick Start:Spark API的快速介绍
- RDD Programming Guide: 预览Spark的核心- RDDs (旧的api), accumulators(累加器), and broadcast variables(广播变量)
- Spark SQL, Datasets, and DataFrames:处理结构数据 关系型查询(比RDD新的API)
- Structured Streaming: 处理结构化数据流 关系型查询 (使用Datasets 和 DataFrames, 比 DStreams更新的api)
- Spark Streaming: 用DStreams 处理数据流 (旧 API)
- MLlib: 机器学习
- GraphX:图处理
API Docs:
- Spark Scala API (Scaladoc)scala文档
- Spark Java API (Javadoc)java文档
- Spark Python API (Sphinx)python文档
- Spark R API (Roxygen2)r文档
- Spark SQL, Built-in Functions (MkDocs) sparksql文档
Deployment Guides:部署指南
- Cluster Overview: 集群模式概况
- Submitting Applications: 打包和部署应用
- Deployment modes:部署方式
- Amazon EC2: 5分钟在EC2上部署
- Standalone Deploy Mode: 不需要第三方管理者 部署独立集群
- Mesos:用 Apache Mesos部署一个私有集群
- YARN: 在Hadoop (YARN)上部署
- Kubernetes: 在 Kubernetes上部署
Other Documents:其他文档
- Configuration: Spark 配置系统
- Monitoring: 应用行为的痕迹
- Tuning Guide: 内存和使用的最佳实践
- Job Scheduling:Spark应用的计划任务
- Security: Spark 权限支持
- Hardware Provisioning: 集群硬件推荐
- Integration with other storage systems:和其他数仓整合
- Cloud Infrastructures 云设施
- OpenStack Swift 一个开源对象存储系统
- Building Spark:通过maven构建spark
- Contributing to Spark 给spark贡献
- Third Party Projects: 其他第三方项目
External Resources:外部资源
- Spark Homepage 首页
- Spark Community 资源和当地聚会
- StackOverflow tag
apache-spark - Mailing Lists: 提问题
- AMP Camps:训练营活动报名
- Code Examples: 更多的例子 (Scala, Java, Python, R)
Spark官方文档翻译(一)~Overview的更多相关文章
- ZooKeeper官方文档翻译——ZooKeeper Overview 3.4.6
ZooKeeper ZooKeeper: A Distributed Coordination Service for Distributed Applications (针对分布式应用的分布式调度服 ...
- Aircrack-ng官方文档翻译[中英对照]---Aireplay-ng
Aircrack-ng官方文档翻译---Aireplay-ng[90%] Description[简介] Aireplay-ng is used to inject frames. Aireplay- ...
- Salt Stack 官方文档翻译 - 一个想做dba的sa - 博客频道 - CSDN.NET
OSNIT_百度百科 Salt Stack 官方文档翻译 - 一个想做dba的sa - 博客频道 - CSDN.NET Salt Stack 官方文档翻译 分类: 自动运维 2013-04-02 11 ...
- Flume官方文档翻译——Flume 1.7.0 User Guide (unreleased version)中一些知识点
Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Flume官方文档翻译--Flume 1.7.0 User Guide (unr ...
- Flume官方文档翻译——Flume 1.7.0 User Guide (unreleased version)(二)
Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw ...
- 蓝牙4.0——Android BLE开发官方文档翻译
ble4.0开发整理资料_百度文库 http://wenku.baidu.com/link?url=ZYix8_obOT37JUQyFv-t9Y0Sv7SPCIfmc5QwjW-aifxA8WJ4iW ...
- GreenDao官方文档翻译(上)
笔记摘要: 上一篇博客简单介绍了SQLite和GreenDao的比较,后来说要详细介绍下GreenDao的使用,这里就贴出本人自己根据官网的文档进行翻译的文章,这里将所有的文档分成上下两部分翻译,只为 ...
- Aircrack-ng官方文档翻译[中英对照]---Airdecap-ng
Aircrack-ng官方文档翻译---Airdecap-ng Description[简介] With airdecap-ng you can decrypt WEP/WPA/WPA2 capt ...
- Aircrack-ng官方文档翻译[中英对照]---Airmon-ng
Aircrack-ng官方文档翻译---Airmon-ng Description[简介] This script can be used to enable monitor mode on wire ...
随机推荐
- 第三章 C#程序结构[3.2 选择结构的应用(Windows窗体应用程序)(四)]
[案例]设计一个顾客选购商品的系统.其中,顾客身份有两类,一类是VIP,另一类是普通会员:商品种类有3种.分别是上衣.裤子和鞋子.其中,VIP享受8折优惠和商店赠送的礼品,而普通会员都不享受.单击[确 ...
- 汉语言处理工具pyhanlp的拼音转换与字符正则化
汉字转拼音 HanLP中的汉字转拼音功能也十分的强大. 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母.韵母.音调.音标和输入法首字母首声母功能. l HanLP能够识别多音字,也能给繁体 ...
- 测试网站nginx是否支持tls1.2的命令行
[root@~]# nmap --script ssl-enum-ciphers -p 443 www.想休息.cn Starting Nmap 5.51 ( http://nmap.org ) at ...
- Numpy、SciPy、MatPlotLib在Python2.7.9下的安装与配置
前言: Python安装完Numpy,SciPy和MatplotLib后,可以成为非常犀利的科研利器.网上关于这三个库的安装都写得非常不错,但是大部分人遇到的问题并不是如何安装,而是安装好后因为配置不 ...
- Java单列模式
设计模式 单列模式的定义和作用 目的:使得类的一个对象成为该类系统中的唯一实列: 定义:一个类有且仅有一个实例,并且自行实列化向整个系统提供?: 单列模式分为 恶汉式 (在创建对象的时候就直接初始化 ...
- pj2--图书管理系统
这一次做得是图书管理系统. 下面是功能框图 下面是流程图 实际在做这个项目的时候根据相应的实际情况对功能流程等等做了一些小小的改变. 下面是一些值得记一笔的地方. 1.借用系统自带的导航控件(Bind ...
- SAS PROC PRINT 常用选项和语句说明
常用选项1.使用选项OBS=修改观测序号标签2.使用NOOBS选项不显示观测序号列3.使用ID语句在输出中取代观测序号列4.使用VAR选择输出的变量5.使用WHERE语句选择输出的观测6.使用数据集选 ...
- 模拟SQL用户 EXECUTE AS USER
EXECUTE AS USER= @domain SELECT SUSER_NAME(), USER_NAME(); REVERT 以下语句可以模拟SQL用户,具体使用场景自行脑补.
- DllImport使用
1.Dll引用路径 (1)exe运行程序所在的目录 (2)System32目录 (3)环境变量目录 (4)自定义路径,如:DllImport(@"C:\OJ\Bin\Judge.dll&qu ...
- Reachability实时监控网络变化
Reachability是一种实时观察网络发生变化控件,如当你的手机处于WiFi情况下,他就会检测环境,当处于GPS的情况下改变环境,当处于无网络的情况下又是一种环境.下面我们看下关于Reachabi ...