Spark1.6 DataSets简介

Apache Spark提供了强大的API，以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL，让开发者可以使用这些高级API接口来从事结构化数据的工作（例如数据库表，JSON文件)，并提供面向对象使用RDD的API，开发只需要调用相关的方法便可使用spark来进行数据的存储与计算。那么Spark1.6带给我们了些什么牛逼的东西呢？额。。。

Spark1.6提供了关于DateSets的API,这将是Spark在以后的版本中的一个发展趋势，就如同DateFrame，DateSets提供了一个有利于Spark Catalyst optimizer 以及数据字段查询的分析优化，并支持更加快速的内存编码。并且数据集扩展了编译时的类型安全检查机制，可以更好地在程序运行前就检查错误。

　 DataSets是一个强类型的、不可变的对象集合，DataSets的API核心是一个新的编码器，改编码器的作用是将JVM的对象与表结构进行转换。使其可以操作序列化的数据及提高了内存的利用率。同时，用户在使用时，发现与一般的RDD的API极其相似，提供了很多相同的功能转换。如下代码，进行文本中单词的拆分。

RDDs:

val lines = sc.textFile("/wikipedia")

val words = lines

  .flatMap(_.split(" "))

  .filter(_ != "")

DataSets:

val lines = sqlContext.read.text("/wikipedia").as[String]

val words = lines

  .flatMap(_.split(" "))

  .filter(_ != "")

同时DataSets也支持聚合操作,比如计算每个单词的出现次数：

RDDs：

val counts = words

    .groupBy(_.toLowerCase)

    .map(w => (w._1, w._2.size))

DataSets:

val counts = words

    .groupBy(_.toLowerCase)

    .count()

通过执行发现DataSets的执行速度要比原生的RDD快很多。同时，如果使用RDD需要开发人员自己去优化并行算法，或者书写方式来达到DataSets的效果。

同时，DataSets API的另一个优势在于减少内存的使用量。Spark能够解析在DataSets中结构化的数据，并在内存中优化结构，将DataSets中的数据缓存起来。同比原生的RDD，要节省相当多的内存空间。

Spark1.6 DataSets简介的更多相关文章

Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...
（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
Apache Spark-1.0.1集群搭建
欢迎经验交流!本文Blog地址:http://www.cnblogs.com/fesh/p/3866791.html Apache Spark a fast and general engine ...
[转]SRTM、ASTER GDEM等全球数字高程数据（DEM）下载方式简介
之前写过一篇短文对比过几种数字高程数据的区别:5种全球高程数据对比,这篇文章简要介绍下如何下载这些数据. 1.DLR的数字高程数据.该数据也是SRTM(shuttle radar topo ...
部分GDAL工具功能简介
主要转自http://blog.csdn.net/liminlu0314?viewmode=contents 部分GDAL工具功能简介 gdalinfo.exe 显示GDAL支持的各种栅格文件的信息. ...
Cloudera Development Kit(CDK) 简介
Cloudera Development Kit(CDK) 简介 guibin.beijing@gmail.com 2013.07.02 CDK简介 CDK(Cloudera Development ...

随机推荐

Docker安装及基本使用方法
Docker安装 CentOS6上安装Docker # yum -y install epel-release # yum -y install docker-io CentOS7上安装Docker ...
编码规范（一）之Code Templates的设置（转）
编码规范(一)之Code Templates的设置基于公司的主流开发工具为eclipse,但每个人都有自己的编码习惯,为了统一格式,这里通过三个方面:设置Code Templates.Checkst ...
【P1203】买花
我先在已经弱到连高精乘单精都能写错的地步了QAQ 原题: 求一个小于等于N的数M,使得phi(M)/M最小,其中phi(M)是与M互质且比M小的数的个数.例如phi(4)=2,因为1,3和4互质. N ...
netsh winsock reset
最近要在虚拟机上安装 git ,然后托管一个项目,搞得我是焦头烂额.今天下午我卸载了vmware workstation ,但是奇怪的事就发生了,我的google chrome 浏览器没法浏览网页了. ...
浅谈开源项目Android-Universal-Image-Loader(Part 3.1)
本文转载于:http://www.cnblogs.com/osmondy/p/3266023.html 浅谈开源项目Android-Universal-Image-Loader(Part 3.1) 最 ...
java多线程之：创建开启一个线程的开销
---->关于时间,创建线程使用是直接向系统申请资源的,这里调用系统函数进行分配资源的话耗时不好说.---->关于资源,Java线程的线程栈所占用的内存是在Java堆外的,所以是不受jav ...
Intel指令集专有词解释
SSE 概述 SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后,在其计算机芯片Pentium III中引入的指令集,是MMX的超集.AMD后来在 ...
谓词的使用－ios
#import <Foundation/Foundation.h> @interface Person : NSObject<NSCopying> @property(nona ...
AndroidStudio导入项目常见问题
问题一: 解决:少了依赖的路径问题二: 解决:把runProguard 改成minfyEnable 来源:http://blog.csdn.net/pengkv/article/details/44 ...
PHP闭包研究
闭包也就是PHP的匿名函数, 但是和函数不同的是,闭包可以通过use使用函数声明时所在作用域的变量的值. 形式如下 $a = function($arg1, $arg2) use ($variable ...

Spark1.6 DataSets简介

Spark1.6 DataSets简介的更多相关文章

随机推荐

热门专题