Spark 1.3.0 Release Note

Spark 1.3.0在上周五正式公布。真是千呼万唤始出来。本次公布最大的惊喜就是DataFrame。另外一个值得关注的是Spark SQL从Alpha版毕业,我们最终可以欢快地使用Spark SQL了。本次公布还对Spark核心引擎改的可用性进行了改进。并扩展了Spark MLlib及Spark Streaming,详情见下。最后不得不提下。这次公布共接纳了1000多个patch,真是太火爆了

Spark 1.3.0的下载位置在这里

Spark Core

Spark 1.3.0在核心引擎中引入了非常多可用性改进。如今Core API支持多层聚合,有助于加速那些费时的reduce操作。对一些特定操作优化了错误信息。Spark的jetty依赖已经被shade,以避免和用户代码产生冲突。此外。Spark已经支持对Akka和HttpServer的连接进行SSL加密。最后。实时的GC统计信息记录计数器将会显示在Spark UI中。

DataFrame API

Spark 1.3.0加入了一个新的API,DataFrame,提供了更加强有力和便捷的方式来操作结构化数据。DataFrame发展自基础的RDD API。包括了命名域和schema信息。我们可以非常easy地从Hive表,JSON数据。JDBC数据库或者随意其它数据源中创建一个DataFrame。

DataFrame将成为Spark各个模块之间以及Spark和其它系统交换数据的通用接口。

Data frames支持Python。Scala和Java语言。

Spark SQL

在Spark 1.3.0中,Spark SQL正式从Alpha版毕业。向后兼容HiveQL原语并提供稳定的编程接口。Spark SQL支持在数据源API中写表操作。1.3.0版本号还提供了从JDBC读写数据表的能力,原生地支持同MySQL。Postgres及其它关系型数据库的交互能力,对HiveQL也做了大量的改进。

最后,Spark SQL支持以兼容方式从Parquet文件里载入数据

Spark ML/MLlib

Spark 1.3.0引入了一些新的算法:支持主题模型的LDA算法,支持多分类的多元逻辑回归,支持混合高斯模型PIC聚类,支持频繁集挖掘的FP-growth,此外还有为了支持分布式线性代数的块矩阵抽象。初步支持模型输入输出的交换格式,并将在今后的版本号中支持很多其它的格式。

K-means算法和ALS算法有了显著的性能提升。PySpark如今也支持ML pipeline APIGradient Boosted Trees以及混合高斯模型。

最后,ML Pipeline API也支持新的DataFrame抽象。

Spark Streaming

Spark 1.3.0引入了一个direct Kafka API(docs),不须要配置WAL就可保证数据的可靠交付。同一时候实现了Exactly-Once原语保证强一致性。

另外Python版的Kafka API也被加了进来。

支持online的逻辑回归算法,支持二进制数据的读取。对于那些有状态操作。添加了初始状态RDD的支持。

最后Spark Streaming的指导文档已经包括了SQL,DataFrame和容错等相关内容。

GraphX

Spark GraphX添加了非常多有用的接口,包括怎样将图转换成一个边规范化图

升级到Spark 1.3

Spark 1.3兼容1.X的版本号。所以不须要改动不论什么代码。当然不包括那些被隐含标识为不稳定的API。

作为稳定版Spark SQL API的一部分,SchemaRDD已经被重命名为DataFrame。Spark SQL指引文档已经具体说明了怎样去改动你的代码。

待解决Issue

以下这些issue将在Spark 1.3.1中修复

  • SPARK-6194: 解决PySpark collect()接口中的内存泄漏问题。
  • SPARK-6222: 修复Spark Streaming中一个失败恢复问题。
  • SPARK-6315: 解决Spark SQL无法读取Spark 1.1产生的parquet数据问题。

  • SPARK-6247: 解决Spark SQL中分析特定Join类型出错的问题。

官方正版

号外:Spark 1.3.0公布了,快来一起飞!的更多相关文章

  1. What’s new in Spark 1.2.0

    What's new in Spark 1.2.0 1.2.0 was released on 12/18, 2014 在2014年5月30日公布了Spark 1.0 和9月11日公布了Spark1. ...

  2. Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

  3. Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

    Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functio ...

  4. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  5. Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

    Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...

  6. [Spark性能调优] 第三章 : Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕

    本課主題 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 ...

  7. Apache Spark 2.2.0 中文文档

    Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门 使用 ...

  8. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  9. Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

    Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...

随机推荐

  1. .NET泛型初探

    总所周知,.NET出现在.net framework 2.0,为什么要在2.0引入泛型那,因为微软在开始开发.net框架时并没有想过多个类型参数传输时对方法的重构,这样一来,开发人员就要面对传输多种类 ...

  2. 基于nginx的TCP Proxy实现数据库读写分离

    nginx非常早就支持tcp proxy.可是一直不知道其使用,近期在nginx blog上看见了.一些实践者将其运用到数据库訪问的负载均衡以及实现读写分离,来提高数据库的吞吐量,这里我不会讲详细的搭 ...

  3. Qt Installer Framework的学习(三)

    Qt Installer Framework的学习(三) Qt Installer Framework的样例中.通常是这种:config目录一般放了一个config.xml文件,包括的是安装配置xml ...

  4. Gradle之依赖管理

    Gradle之依赖管理 泡在网上的日子 / 文 发表于2015-01-29 16:12 第8824次阅读 Gradle,Android Studio 2 编辑推荐:稀土掘金,这是一个针对技术开发者的一 ...

  5. ComponentName

    ComponentName,顾名思义,就是组件名称,通过调用Intent中的setComponent方法,我们可以打开另外一个应用中的Activity或者服务. 实例化一个ComponentName需 ...

  6. oracle 11g rac 修改VIP、scan VIP、priv IP

    11GR2 RAC modify vip,public ip,private ip,scan vip实施步骤1 修改目的    根据业务的需求,需要由原来的临时IP改为生产ip,以下为调整前后对应的I ...

  7. (转)用Lottie制作动画,我的月薪翻了一番!!

    Lottie是Airbnb发布的开源动画库. 帮助动效落地.学会使用Lottie,会极大地提高工作效率. Lottie是一种新的开发动画的方式. 学会使用Lottie,会极大改善你和开发小哥哥撕逼的情 ...

  8. golang sftp传输文件

    之前有一篇介绍如何使用 golang 通过SSH协议来执行远程命令:golang执行远程命令 同样,通过SSH协议也可以使用 golang 来远程传输文件. 除了 SSH 的库,为了传输文件,还需要用 ...

  9. caffe遇到的错误记录

    Caffe——一个多么方便的深度学习工具,为啥安装和使用起来的bug这么多呢!把痛苦的记忆记录下来,把希望留给后人. Caffe的万丈高楼(Net)是按照我们的设计图纸(prototxt),用Blob ...

  10. 在64位linux上编译32位程序 for i386 intel

    编辑中 # ld -V GNU ld version 2.15.92.0.2 20040927 Supported emulations: elf_x86_64 elf_i386 i386linux ...