Spark 1.3.0 Release Note

Spark 1.3.0在上周五正式公布。真是千呼万唤始出来。本次公布最大的惊喜就是DataFrame。另外一个值得关注的是Spark SQL从Alpha版毕业,我们最终可以欢快地使用Spark SQL了。本次公布还对Spark核心引擎改的可用性进行了改进。并扩展了Spark MLlib及Spark Streaming,详情见下。最后不得不提下。这次公布共接纳了1000多个patch,真是太火爆了

Spark 1.3.0的下载位置在这里

Spark Core

Spark 1.3.0在核心引擎中引入了非常多可用性改进。如今Core API支持多层聚合,有助于加速那些费时的reduce操作。对一些特定操作优化了错误信息。Spark的jetty依赖已经被shade,以避免和用户代码产生冲突。此外。Spark已经支持对Akka和HttpServer的连接进行SSL加密。最后。实时的GC统计信息记录计数器将会显示在Spark UI中。

DataFrame API

Spark 1.3.0加入了一个新的API,DataFrame,提供了更加强有力和便捷的方式来操作结构化数据。DataFrame发展自基础的RDD API。包括了命名域和schema信息。我们可以非常easy地从Hive表,JSON数据。JDBC数据库或者随意其它数据源中创建一个DataFrame。

DataFrame将成为Spark各个模块之间以及Spark和其它系统交换数据的通用接口。

Data frames支持Python。Scala和Java语言。

Spark SQL

在Spark 1.3.0中,Spark SQL正式从Alpha版毕业。向后兼容HiveQL原语并提供稳定的编程接口。Spark SQL支持在数据源API中写表操作。1.3.0版本号还提供了从JDBC读写数据表的能力,原生地支持同MySQL。Postgres及其它关系型数据库的交互能力,对HiveQL也做了大量的改进。

最后,Spark SQL支持以兼容方式从Parquet文件里载入数据

Spark ML/MLlib

Spark 1.3.0引入了一些新的算法:支持主题模型的LDA算法,支持多分类的多元逻辑回归,支持混合高斯模型PIC聚类,支持频繁集挖掘的FP-growth,此外还有为了支持分布式线性代数的块矩阵抽象。初步支持模型输入输出的交换格式,并将在今后的版本号中支持很多其它的格式。

K-means算法和ALS算法有了显著的性能提升。PySpark如今也支持ML pipeline APIGradient Boosted Trees以及混合高斯模型。

最后,ML Pipeline API也支持新的DataFrame抽象。

Spark Streaming

Spark 1.3.0引入了一个direct Kafka API(docs),不须要配置WAL就可保证数据的可靠交付。同一时候实现了Exactly-Once原语保证强一致性。

另外Python版的Kafka API也被加了进来。

支持online的逻辑回归算法,支持二进制数据的读取。对于那些有状态操作。添加了初始状态RDD的支持。

最后Spark Streaming的指导文档已经包括了SQL,DataFrame和容错等相关内容。

GraphX

Spark GraphX添加了非常多有用的接口,包括怎样将图转换成一个边规范化图

升级到Spark 1.3

Spark 1.3兼容1.X的版本号。所以不须要改动不论什么代码。当然不包括那些被隐含标识为不稳定的API。

作为稳定版Spark SQL API的一部分,SchemaRDD已经被重命名为DataFrame。Spark SQL指引文档已经具体说明了怎样去改动你的代码。

待解决Issue

以下这些issue将在Spark 1.3.1中修复

  • SPARK-6194: 解决PySpark collect()接口中的内存泄漏问题。
  • SPARK-6222: 修复Spark Streaming中一个失败恢复问题。
  • SPARK-6315: 解决Spark SQL无法读取Spark 1.1产生的parquet数据问题。

  • SPARK-6247: 解决Spark SQL中分析特定Join类型出错的问题。

官方正版

号外:Spark 1.3.0公布了,快来一起飞!的更多相关文章

  1. What’s new in Spark 1.2.0

    What's new in Spark 1.2.0 1.2.0 was released on 12/18, 2014 在2014年5月30日公布了Spark 1.0 和9月11日公布了Spark1. ...

  2. Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

  3. Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

    Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functio ...

  4. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  5. Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

    Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...

  6. [Spark性能调优] 第三章 : Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕

    本課主題 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 ...

  7. Apache Spark 2.2.0 中文文档

    Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门 使用 ...

  8. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  9. Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

    Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...

随机推荐

  1. CC2540 与 CC2541 差别 1

    CC2540 的 1234 PIN 是 USB 功能,4 PIN 是 USB 的电压输入引脚. CC2541 没有 USB 功能.它的 1234 PIN 是 I2C 功能,为了与 CC2540 引脚兼 ...

  2. POJ--1087--A Plug for UNIX【Dinic】网络最大流

    链接:http://poj.org/problem? id=1087 题意:提供n种插座.每种插座仅仅有一个,有m个设备须要使用插座,告诉你设备名称以及使用的插座类型,有k种转换器.能够把某种插座类型 ...

  3. 宝马男砍人不慎刀落反被杀 防卫过当or故意伤害(在生命受到威胁的情况下,已经很难判断对方意图了,而且假如于莫是老弱妇幼,可能现在死的就是于莫了)

    如果被砍的是周律师他就不会说是防为过当吧,宝马车主跑回自己的车边时最危险,不知道他车上还有什么刀枪之类的.这如果判防卫过当,恶人会更恶,老实人连防卫都不敢了. 不知道在这个没有法治的国家会是如何判案的 ...

  4. BZOJ 3796 后缀数组+KMP

    思路: 写得我头脑发蒙,,, 旁边还有俩唱歌的 抓狂 (感谢lh大爷查错) 首先 1.w是s1的子串 2.w是s2的子串 这两步很好办啊~ 后缀数组一下O(n)就可以搞 重点是 这个:3.s3不是w的 ...

  5. 在 Ubuntu 15.04 上安装 Android Studio(极其简单)

    sudo apt-add-repository ppa:paolorotolo/android-studio sudo apt-get update sudo apt-get install andr ...

  6. synchronized同步机制,修饰类和修饰对象的区别

    synchronized用法 synchronized修饰的对象有几种: 修饰一个类:其作用的范围是synchronized后面括号括起来的部分,作用的对象是这个类的所有对象: 修饰一个方法:被修饰的 ...

  7. Jq自定义的方法绑定树结构

    1.先上效果图  (借鉴博客) 2.这边不做样式的只做结构 function toTreeData(data) { var pos = {}; var tree = []; var i = 0; wh ...

  8. Custom Hosting in IIS/WAS

    常常需要与宿主实例进行交互.这对于使用自托管的方式是不可或缺的.当使用IIS或WAS时,不能直接访问宿主.为了克服这个障碍,WCF提供了一个宿主工厂.在.svc文件中使用Factory标签,使用此工厂 ...

  9. Unity 向量点乘、叉乘

    向量点乘计算角度,向量叉乘计算方位 a,b为向量 点乘计算公式:a x b = |a| x |b| x cosθ 叉乘计算公式:a x b = |a| x |b| x sinθ

  10. Unity3d 拖拽脚本报错 Can’t add script

    报错截图: 报错原因: c#文件创建以后再改名,会报错找不到对应类. 类名和文件名要一致才行.(这个是Unity要求,c#本身不要求一致)