Spark External Datasets

　　Spark能够从任何支持Hadoop的存储源来创建RDD，包括本地的文件系统，HDFS，Cassandra，Hbase，Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。

1、textfile的RDD可以通过SparkContext’s textFile 的方法来创建，这个方法需要传递一个文件路径URL作为参数，然后读取对应文件的每一行的数据，形成一个以行数据为单位的集合。例如：

　　　　scala> val distFile = sc.textFile("data.txt")

　　　　distFile: RDD[String] = MappedRDD@1d4cee08

2、textfile方法中，如果传入的是一个本地文件的URL，这必须保证Spark集群中其它机器也能够访问相同的URL。

3、在Spark中，所有的输入方法（包括textFile）都支持文件夹、压缩文件、通配符。例如：

　　　　textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

4、textFile方法中，还接受第二个参数，该参数是指定对应产生的RDD的分区数。默认情况下，Spark会根据HDFS的块的大小来作为分区的大小，即以块的数量作为分区的数目M。你可以设置大于这个分区数M，但是不能设置小于这个分区数M。

5、除了textFile方法之外，Spark提供了如下的方法来加载外部数据：

　　（1）SparkContext.wholeTextFiles

　　　　该方法是读一个路径下所有的小文件，并且将每个小文件内容content作为value，文件的filename作为key，以pairs（key，value）的形式返回给客户端。该方法与textfile刚好相反，textfile是返　　　　回每个文件的每一行的记录作为key，value的形式返回。

　　（2）SparkContext’s sequenceFile[K, V]

　　　　对于sequenceFiles，我们可以用sequenceFile[K,V]方法来加载外部的数据，其中K，V的类型是文件中key和value的类型。但这都是Hadoop的Writable（是一个接口类型）类型的子类。

　　（3）SparkContext.hadoopRDD

　　　　对于其他的Hadoop的InputFormats，你可以用hadoopRDD的方法来加载外部的数据源。该方法需要传入特定的 JobConf and input format class, key class and value class

6、RDD的简单的保存方式：

　　RDD.saveAsObjectFile and SparkContext.objectFile support saving an RDD in a simple format consisting of serialized Java objects. While this is not as efficient as specialized 　　　　formats like Avro, it offers an easy way to save any RDD.

Spark External Datasets的更多相关文章

Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark官方2 ---------Spark 编程指南（1.5.0）
概述在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations.Spark提供的主要抽象是resil ...
Spark官方文档翻译（一）~Overview
Spark官方文档翻译,有问题请及时指正,谢谢. Overview页 http://spark.apache.org/docs/latest/index.html Spark概述 Apache Spa ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
Spark Programming Guide《翻译》
转载必须注明出处:梁杰帆在这里要先感谢原作者们!如果各位在这里发现了错误之处,请大家提出 1.Initializing Spark Spark程序必须做的第一件事就是创建一个SparkCon ...
spark api之一：Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
Spark RDD初探（一）
本文概要本文主要从以下几点阐述RDD,了解RDD 什么是RDD? 两种RDD创建方式向给spark传递函数Passing Functions to Spark 两种操作之转换Transformat ...
Spark译文(一)
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统. ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. ...
2.初始化spark
参考: RDD programming guide http://spark.apache.org/docs/latest/rdd-programming-guide.html SQL progr ...

随机推荐

MyISAM与InnoDB区别
两种类型最主要的差别就是Innodb 支持事务处理与外键和行级锁.而MyISAM不支持.所以MyISAM往往就容易被人认为只适合在小项目中使用. 我作为使用MySQL的用户角度出发,Innodb和My ...
HTML5 十大新特性(九)——Web Storage
H5的webStorage技术一共提供了两个对象:window.sessionStorage和window.localStorage. 一.window.sessionStorage--会话级存储存 ...
gdb 常用内容
gdb exegdb exe coregdb -p info m TAB ^関数の先頭 info b ^list the breakpoint set args -a test ^引数設定 show ...
welcome-file-list设置问题之css，js文件无法加载
web.xml里的welcome-file-list里设置默认访问页面为/html/index.html 但是在访问时,页面CSS都没加载. 正常输入网址却没问题.用/html/index.jsp也没 ...
AX2012 QTY小数的位数问题
小数的位数 ============================================ A.扩展数据类型Qty的位数(默认为2位)B.单位中的位数(通常PCS为0位)C.扩展数据类型Bo ...
Web之路笔记之四
2014秋季学期Web2.0课程作业 <Homework1 - Recipe> 给出内容的文本文档,根据要求编写html和css.基本上没有难点. 1. 需要添加标签栏名称前面的小图标,是 ...
MySQL update时使用联表，聚合
原文地址 http://stackoverflow.com/questions/3022405/mysql-update-query-with-left-join-and-group-by UPDAT ...
js判断是手机还是电脑访问网站
js判断是手机还是电脑访问网站 <script type="text/javascript"> <!- ...
JavaScipt 事件体系
事件机制 jQuery对事件的绑定分别有几个API .bind()/.live()/.delegate()/.on() 不管是用什么方式绑定,归根到底还是用addEventListener/attac ...
许愿墙的搭建（基于Apache+php+mysql）
一.准备部分:CentOS 7 , Linux 文本各自配置好环境二. CentOS 7准备如下: yum install httpd -y #安装httpd yum install php ...

Spark External Datasets

Spark External Datasets的更多相关文章

随机推荐

热门专题