号外:Spark 1.3.0公布了,快来一起飞!
Spark 1.3.0 Release Note
Spark 1.3.0在上周五正式公布。真是千呼万唤始出来。本次公布最大的惊喜就是DataFrame。另外一个值得关注的是Spark SQL从Alpha版毕业,我们最终可以欢快地使用Spark SQL了。本次公布还对Spark核心引擎改的可用性进行了改进。并扩展了Spark MLlib及Spark Streaming,详情见下。最后不得不提下。这次公布共接纳了1000多个patch,真是太火爆了
。
Spark 1.3.0的下载位置在这里。
Spark Core
Spark 1.3.0在核心引擎中引入了非常多可用性改进。如今Core API支持多层聚合,有助于加速那些费时的reduce操作。对一些特定操作优化了错误信息。Spark的jetty依赖已经被shade,以避免和用户代码产生冲突。此外。Spark已经支持对Akka和HttpServer的连接进行SSL加密。最后。实时的GC统计信息和记录计数器将会显示在Spark UI中。
DataFrame API
Spark 1.3.0加入了一个新的API,DataFrame,提供了更加强有力和便捷的方式来操作结构化数据。DataFrame发展自基础的RDD API。包括了命名域和schema信息。我们可以非常easy地从Hive表,JSON数据。JDBC数据库或者随意其它数据源中创建一个DataFrame。
DataFrame将成为Spark各个模块之间以及Spark和其它系统交换数据的通用接口。
Data frames支持Python。Scala和Java语言。
Spark SQL
在Spark 1.3.0中,Spark SQL正式从Alpha版毕业。向后兼容HiveQL原语并提供稳定的编程接口。Spark SQL支持在数据源API中写表操作。1.3.0版本号还提供了从JDBC读写数据表的能力,原生地支持同MySQL。Postgres及其它关系型数据库的交互能力,对HiveQL也做了大量的改进。
最后,Spark SQL支持以兼容方式从Parquet文件里载入数据。
Spark ML/MLlib
Spark 1.3.0引入了一些新的算法:支持主题模型的LDA算法,支持多分类的多元逻辑回归,支持混合高斯模型和PIC聚类,支持频繁集挖掘的FP-growth,此外还有为了支持分布式线性代数的块矩阵抽象。初步支持模型输入输出的交换格式,并将在今后的版本号中支持很多其它的格式。
K-means算法和ALS算法有了显著的性能提升。PySpark如今也支持ML pipeline API。Gradient Boosted Trees以及混合高斯模型。
最后,ML Pipeline API也支持新的DataFrame抽象。
Spark Streaming
Spark 1.3.0引入了一个direct Kafka API(docs),不须要配置WAL就可保证数据的可靠交付。同一时候实现了Exactly-Once原语保证强一致性。
另外Python版的Kafka API也被加了进来。
支持online的逻辑回归算法,支持二进制数据的读取。对于那些有状态操作。添加了初始状态RDD的支持。
最后Spark Streaming的指导文档已经包括了SQL,DataFrame和容错等相关内容。
GraphX
Spark GraphX添加了非常多有用的接口,包括怎样将图转换成一个边规范化图
升级到Spark 1.3
Spark 1.3兼容1.X的版本号。所以不须要改动不论什么代码。当然不包括那些被隐含标识为不稳定的API。
作为稳定版Spark SQL API的一部分,SchemaRDD已经被重命名为DataFrame。Spark SQL指引文档已经具体说明了怎样去改动你的代码。
待解决Issue
以下这些issue将在Spark 1.3.1中修复
- SPARK-6194: 解决PySpark collect()接口中的内存泄漏问题。
- SPARK-6222: 修复Spark Streaming中一个失败恢复问题。
- SPARK-6315: 解决Spark SQL无法读取Spark 1.1产生的parquet数据问题。
- SPARK-6247: 解决Spark SQL中分析特定Join类型出错的问题。
附官方正版
号外:Spark 1.3.0公布了,快来一起飞!的更多相关文章
- What’s new in Spark 1.2.0
What's new in Spark 1.2.0 1.2.0 was released on 12/18, 2014 在2014年5月30日公布了Spark 1.0 和9月11日公布了Spark1. ...
- Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
- Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functio ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
- Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...
- [Spark性能调优] 第三章 : Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕
本課主題 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 ...
- Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门 使用 ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
- Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...
随机推荐
- .NET泛型初探
总所周知,.NET出现在.net framework 2.0,为什么要在2.0引入泛型那,因为微软在开始开发.net框架时并没有想过多个类型参数传输时对方法的重构,这样一来,开发人员就要面对传输多种类 ...
- 基于nginx的TCP Proxy实现数据库读写分离
nginx非常早就支持tcp proxy.可是一直不知道其使用,近期在nginx blog上看见了.一些实践者将其运用到数据库訪问的负载均衡以及实现读写分离,来提高数据库的吞吐量,这里我不会讲详细的搭 ...
- Qt Installer Framework的学习(三)
Qt Installer Framework的学习(三) Qt Installer Framework的样例中.通常是这种:config目录一般放了一个config.xml文件,包括的是安装配置xml ...
- Gradle之依赖管理
Gradle之依赖管理 泡在网上的日子 / 文 发表于2015-01-29 16:12 第8824次阅读 Gradle,Android Studio 2 编辑推荐:稀土掘金,这是一个针对技术开发者的一 ...
- ComponentName
ComponentName,顾名思义,就是组件名称,通过调用Intent中的setComponent方法,我们可以打开另外一个应用中的Activity或者服务. 实例化一个ComponentName需 ...
- oracle 11g rac 修改VIP、scan VIP、priv IP
11GR2 RAC modify vip,public ip,private ip,scan vip实施步骤1 修改目的 根据业务的需求,需要由原来的临时IP改为生产ip,以下为调整前后对应的I ...
- (转)用Lottie制作动画,我的月薪翻了一番!!
Lottie是Airbnb发布的开源动画库. 帮助动效落地.学会使用Lottie,会极大地提高工作效率. Lottie是一种新的开发动画的方式. 学会使用Lottie,会极大改善你和开发小哥哥撕逼的情 ...
- golang sftp传输文件
之前有一篇介绍如何使用 golang 通过SSH协议来执行远程命令:golang执行远程命令 同样,通过SSH协议也可以使用 golang 来远程传输文件. 除了 SSH 的库,为了传输文件,还需要用 ...
- caffe遇到的错误记录
Caffe——一个多么方便的深度学习工具,为啥安装和使用起来的bug这么多呢!把痛苦的记忆记录下来,把希望留给后人. Caffe的万丈高楼(Net)是按照我们的设计图纸(prototxt),用Blob ...
- 在64位linux上编译32位程序 for i386 intel
编辑中 # ld -V GNU ld version 2.15.92.0.2 20040927 Supported emulations: elf_x86_64 elf_i386 i386linux ...