Spark External Datasets

　　Spark能够从任何支持Hadoop的存储源来创建RDD，包括本地的文件系统，HDFS，Cassandra，Hbase，Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。

1、textfile的RDD可以通过SparkContext’s textFile 的方法来创建，这个方法需要传递一个文件路径URL作为参数，然后读取对应文件的每一行的数据，形成一个以行数据为单位的集合。例如：

　　　　scala> val distFile = sc.textFile("data.txt")

　　　　distFile: RDD[String] = MappedRDD@1d4cee08

2、textfile方法中，如果传入的是一个本地文件的URL，这必须保证Spark集群中其它机器也能够访问相同的URL。

3、在Spark中，所有的输入方法（包括textFile）都支持文件夹、压缩文件、通配符。例如：

　　　　textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

4、textFile方法中，还接受第二个参数，该参数是指定对应产生的RDD的分区数。默认情况下，Spark会根据HDFS的块的大小来作为分区的大小，即以块的数量作为分区的数目M。你可以设置大于这个分区数M，但是不能设置小于这个分区数M。

5、除了textFile方法之外，Spark提供了如下的方法来加载外部数据：

　　（1）SparkContext.wholeTextFiles

　　　　该方法是读一个路径下所有的小文件，并且将每个小文件内容content作为value，文件的filename作为key，以pairs（key，value）的形式返回给客户端。该方法与textfile刚好相反，textfile是返　　　　回每个文件的每一行的记录作为key，value的形式返回。

　　（2）SparkContext’s sequenceFile[K, V]

　　　　对于sequenceFiles，我们可以用sequenceFile[K,V]方法来加载外部的数据，其中K，V的类型是文件中key和value的类型。但这都是Hadoop的Writable（是一个接口类型）类型的子类。

　　（3）SparkContext.hadoopRDD

　　　　对于其他的Hadoop的InputFormats，你可以用hadoopRDD的方法来加载外部的数据源。该方法需要传入特定的 JobConf and input format class, key class and value class

6、RDD的简单的保存方式：

　　RDD.saveAsObjectFile and SparkContext.objectFile support saving an RDD in a simple format consisting of serialized Java objects. While this is not as efficient as specialized 　　　　formats like Avro, it offers an easy way to save any RDD.

Spark External Datasets的更多相关文章

Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark官方2 ---------Spark 编程指南（1.5.0）
概述在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations.Spark提供的主要抽象是resil ...
Spark官方文档翻译（一）~Overview
Spark官方文档翻译,有问题请及时指正,谢谢. Overview页 http://spark.apache.org/docs/latest/index.html Spark概述 Apache Spa ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
Spark Programming Guide《翻译》
转载必须注明出处:梁杰帆在这里要先感谢原作者们!如果各位在这里发现了错误之处,请大家提出 1.Initializing Spark Spark程序必须做的第一件事就是创建一个SparkCon ...
spark api之一：Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
Spark RDD初探（一）
本文概要本文主要从以下几点阐述RDD,了解RDD 什么是RDD? 两种RDD创建方式向给spark传递函数Passing Functions to Spark 两种操作之转换Transformat ...
Spark译文(一)
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统. ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. ...
2.初始化spark
参考: RDD programming guide http://spark.apache.org/docs/latest/rdd-programming-guide.html SQL progr ...

随机推荐

从github获取代码
以duilib为例: 1 建立一个文件夹,右键 git bash here. 2 git init 3 git clone https://github.com/duilib/duilib.git
Address already in use: JVM_Bind:8080 的解决办法<转>
出错情况:运行 Tomcat 时报错含义:8080 位置显示的端口被其他进程占用解决方法: 方法1: 开始--运行--cmd 进入命令提示符输入netstat -ano 即可看到所有连接的PID ...
javascript原型prototype浅识
C++,java是基于类的语言,主要通过类来实现继承. javascript是基于原型的语言,通过原型来实现继承. 什么是原型?每种物质,都可以追根溯源,原型就是对象的根源.继承就是追根溯源. jav ...
使用Beautifulsoup爬取药智网数据
使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...
Python’s SQLAlchemy vs Other ORMs[转发 6]SQLAlchemy
SQLAlchemy SQLAlchemy is an open source SQL toolkit and ORM for the Python programming language rele ...
ftgl 绘制文字
FTFont* ftfont = new FTGLPixmapFont(); ftfont->Open("D:/SIMHEI.ttf"); ftfont->FaceSi ...
JavaScript中面向对象的的深拷贝和浅拷贝
理解深拷贝和浅拷贝之前需要弄懂一些基础概念,内存中存储的变量类型分为值类型和引用类型. 1.值类型赋值的存储特点, 将变量内的数据全部拷贝一份, 存储给新的变量. 例如:var num = 123 : ...
在update时用触发器插入数据
CREATE trigger [dbo].[Debt_Insert] on [dbo].[Debt] for insert as declare @tmpOrderID1 varchar(30)sel ...
JQuery的ajaxFileUpload图片上传初试
本案例主要说讲使用ajaxFileUpload实现图片的异步上传. 1.html代码部分这里的代码,主要设置一下name,后台获取时候要用到,还有设置一个onchange的事件对应的方法:ajaxF ...
windows内核编程白话设备栈
在ntddk.h中定义了该函数原型: #if (NTDDI_VERSION >= NTDDI_WINXP) NTKERNELAPI NTSTATUS IoAttachDeviceToDevice ...

Spark External Datasets

Spark External Datasets的更多相关文章

随机推荐

热门专题