前言

如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代。1.0.0版本号不仅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作为一个新的组件增加。支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和GraphX也得到了非常大程度上的增强。对Spark和Python的接口也变得更稳定。

下面是几个基本的改进点:

融合YARN的安全机制

Hadoop有着自己的安全机制。包含认证和授权。Spark如今能够和Hadoop/YARN的安全模型并存,也就是说Spark能够对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也添加了互相认证。

改善了任务提交的流程

这个版本号在非常大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便可以通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也添加了历史任务的记录,方便了用户查看已经结束了任务执行情况。

Spark SQL的增加

Spark SQL作为一个新组建添加到1.0.0版本号中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既能够赖在外部结构化数据源(当前支持Hive和Parquet),也能够通过向已有RDD添加schema的方式得到。

Spark SQL提供了方便的调用接口,用户能够通过SQL语句来与Spark代码交互。

当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的运行方案,而且能够将结果存储到Parquet格式中,在将来Spark SQL还会兼容其它的存储系统。

MLib的改进

这个版本号的MLib添加了对Scala、Java、Python中稀疏特征向量的支持。其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还添加了几个新的算法,包含为分类和回归添加了可扩展的决策树、矩阵算法的分布式实现(包含SVD和PCA)、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

GraphX在图载入、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了非常大提升。

Spark Streaming提供了对Flume的支持,在状态流转换方面进行了很多优化,而且可以对长时间执行任务的状态进行自己主动清理。

另外。Spark还对调用接口提供了更好的支持。包含对Java 1.8的支持,对Python很多其它版本号的兼容。使用对外内存进行RDD的cache,对小文件的更好支持等。

后记

非常荣幸从0.7.3版本号就開始熟悉、使用Spark,也非常开心自己介入了Spark开源项目的贡献。1.0.0的release note中已经有了自己的身影。尽管做了仅仅是非常小的贡献。可是还是感到一点点的满足感,未来会继续关注开源社区。

近期会增强对Spark的使用,并開始从架构上源代码级别的分析Spark。

參考:http://spark.apache.org/releases/spark-release-1-0-0.html

声明:

本文为原创。禁止用于不论什么商业用途,转载请注明出处:http://blog.csdn.net/asongoficeandfire/article/details/27725401

Spark 1.0.0版本发布的更多相关文章

  1. QuantumTunnel:v1.0.0 正式版本发布

    经过一段时间运行,代码已经稳定是时候发布正式版本了! v1.0.0 正式版本发布 对核心能力的简要说明: 支持协议路由和端口路由:QuantumTunnel:端口路由 vs 协议路由 基于Netty实 ...

  2. 面向UI编程:ui.js 1.0 粗糙版本发布,分布式开发+容器化+组件化+配置化框架,从无到有的艰难创造

    时隔第一次被UI思路激励,到现在1.0的粗糙版本发布,掐指一算整整半年了.半年之间,有些细节不断推翻重做,再推翻再重做.时隔今日,终于能先出来个东西了,这个版本很粗糙,主体功能大概能实现了,但是还是有 ...

  3. LogDashboard 1.0.4 版本发布

    LogDashboard 1.0.4 版本 有关LogDashboard的介绍请看这里.logDashboard已经发布了1.0.4版本 有关这个版本的详细变化可以在Github上的里程碑上查看 支持 ...

  4. NHibernate 1.0 Released 版本发布了

    NHibernate is a port of Hibernate to the .NET platform. Hibernate is the leading open-source object- ...

  5. ScutSDK 0.9版本发布

    ScutSDK简介: ScutSDK是和Scut游戏服务器引擎,简化客户端开发的配套SDK,她彻底打通了Scut开源游戏服务器引擎与客户端引擎(如Cocos2d-x/Quick-x/Unity3D)项 ...

  6. 动态线程池框架 DynamicTp v1.0.6版本发布。还在为Dubbo线程池耗尽烦恼吗?还在为Mq消费积压烦恼吗?

    DynamicTp 简介 DynamicTp 是一个基于配置中心实现的轻量级动态线程池管理工具,主要功能可以总结为 动态调参.通知报警.运行监控.三方包线程池管理等几大类. 经过几个版本迭代,目前最新 ...

  7. Apache Dolphinscheduler3.0.0-beta-1 版本发布,新增FlinkSQL、Zeppelin任务类型

    导读:近日,Apache Dolphin Scheduler 迎来了 3.0.0-beta-1 版本的正式发布.新版本主要针对 3.0.0-alpha 进行了代码和文档的修复,并引入了部分的功能,如支 ...

  8. 动态编译库 Natasha 5.0 兼容版本发布

    Natasha 5.0 版本已于 2022/10/10 日发布, 此次大版本更迭带来了兼容性支持, 目前 Natasha 可以兼容 standard2.0 及 coreapp3.1 以上版本. 下载使 ...

  9. 浏览器端类EXCEL表格插件 - 智表ZCELL产品V1.0.0.1版本发布

    智表的优势 智表兼容与依赖 ZCELL 基于jQuery V1.11.3版本研发,兼容性依赖于jQuery自身的兼容性. 经过验证,目前IE.火狐.谷歌.360等主流浏览器均可以正常使用. 智表下载 ...

  10. ML.NET 0.9 版本发布---.net下的机器学习引擎

    欢迎来到 2019年!在过去的9个月里, 我们一直在为ML.NET添加新的特征和改进相关功能.在提交1.0版本之前,我们将专注于包的整体稳定性并对API进行不断优化, 扩大测试的覆盖面并对开发文档进行 ...

随机推荐

  1. 在Windows通过使用MinGW静态编译Assimp

    使用MinGW静态编译Assimp 到了5月份了.没有写一篇日志,于是自己从知识库里面拿出一篇文章充数吧.这次将要解说怎样在Windows下使用MinGW静态编译Assimp. Assimp是眼下比較 ...

  2. PHP 报告分拣和生产理念

    原则排序报告 见一宝.一只猫的排序,我想照猫画虎,鼓捣自己一个. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd3VqaWFuZ3dlaTU2Nw==/f ...

  3. zoj1940(三维广搜)

    题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=940 分析:三维其实就是六个方向地搜索,思维清晰且细心点,很快就AC了 ...

  4. cocos2dx的模板容器简单使用(Vector,Map,Value)

    在cocos2dxv3.0beta之前存在顺序性容器cocos2d::CCArray,和cocos2d::CCDictionary.可是在新版本号之后这两个容器都将被cocos2d::Vector&l ...

  5. 【译】ASP.NET MVC 5 教程 - 5:使用 SQL 服务器 LocalDB 创建连接字符串

    原文:[译]ASP.NET MVC 5 教程 - 5:使用 SQL 服务器 LocalDB 创建连接字符串 在上一节中,我们创建了MovieDBContext 类来连接数据库.处理Movie 对象和数 ...

  6. 在Java中怎样逐行地写文件?

    下边是写东西到一个文件里的Java代码. 执行后每一次,一个新的文件被创建,而且之前一个也将会被新的文件替代.这和给文件追加内容是不同的. public static void writeFile1( ...

  7. start_kernel——boot_init_stack_canary

    /* * Initialize the stackprotector canary value. * * NOTE: this must only be called from functions t ...

  8. VS2010,原来还有这些快捷键,果断记下来!

    一直认为VS的快捷键跟eclipse比起来差远了,那些由于不知道还有如此多有效却不知的快捷键阿 1. 检查括号匹配(在左右括号间切换): Ctrl +] 2. 选中从光标起到行首(尾)间的代码: Sh ...

  9. 蓝缘管理系统第二个版本号开源了。springMVC+springSecurity3.x+Mybaits3.x 系统

    蓝缘管理系统第二个版本号开源了 继于 http://blog.csdn.net/mmm333zzz/article/details/16863543 版本号一.版本号二 对springMVC+spri ...

  10. http://fonts.googleapis.com/css?打开很慢解决方案

    最近, 在写一个demo的时候突然发现加载超级慢, 寻找之下发现了"罪魁祸首", 系引用了http://fonts.googleapis.com/css. 接着在网上看到有网友反映 ...