【spark】RDD创建

首先我们要建立 sparkconf 配置文件，然后通过配置文件来建立sparkcontext。

import org.apache.spark._

object MyRdd {

    def main(args:Array[String]): Unit ={

        //初始化配置：设置主机名和程序主类的名字

        val conf = new SparkConf().setMaster("local[*]").setAppName("MyRdd");

        //通过conf来创建sparkcontext

        val sc = new SparkContext(conf);

    }

}

然后我们通过 sparkcontext 来创建RDD

创建RDD的几种方式

1.基于程序中的集合创建RDD-作用：主要用于测试

　　通过 sc.parallelize(collection)方法来创建RDD

       /*

        * 从scala集合中创建RDD

        * 计算：1+2+3+...+100

        */

        val nums = List(1,2,3,4,5);//集合

        val rdd = sc.parallelize(nums);//创建rdd

        val sum = rdd.reduce(_+_);

        println(sum);

2.基于本地文件创建RDD-作用：大数据量的测试

"file:///home/hadoop/spark-1.6.0-bin-hadoop2.6/examples/src/main/resources/people.json"

3.基于HDFS创建RDD-作用：生产环境最常用的RDD创建方式

"hdfs://112.74.21.122:9000/user/hive/warehouse/hive_test"

　　通过sc.textFile(file)方法来读取文件

       /*

        * 从本地文件系统创建RDD

        * 计算 people.json 文件中字符总长度

        */

        val rows = sc.textFile("file://")//文件地址或者HDFS文件路径

        val length = rows.map(row=>row.length()).reduce(_+_)

        println("total chars length:"+length)

　　能读取文件，当然能保存文件，我们可以把通过 sc.saveAsTextFile("file://") 把 rdd 内容保存到文件中

　　例如，我们保存把一个rdd保存到了/home/writeout.txt

val rdd = sc.textFile("file:///home/word.txt");

rdd.saveAsTextFile("file:///home/writeout.txt");//把rdd写入/home/writeout.txt

　　但是我们打开/home文件夹，发现writeout并不是txt文件而是一个文件夹，我们打开文件夹，结构如下

　　我们保存错了嘛？没有，这时正常的。part-00000代表的是分区，如果有多个分区，会有多个part-xxxxxx的文件。

　　如果我们要再次读取这个保存的文件并不需要一个一个分区读取，直接读取就可以了，spark会自动加载所有分区数据。　

val rdd = sc.textFile("file:///home/writeout/part-00000");//我们并不用这样一个一个读取

val rdd = sc.textFile("file:///home/writeout.txt");//直接这样读取，就会自动把所有分区数据加载到rdd中

4.基于DB、NoSQL(例如HBase)、S3、基于数据流创建RDD

【spark】RDD创建的更多相关文章

Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
Spark RDD Operations（1）
以上是对应的RDD的各中操作,相对于MaoReduce只有map.reduce两种操作,Spark针对RDD的操作则比较多 ************************************** ...
15.RDD 创建内幕解析
第15课:RDD创建内幕 RDD的创建方式 Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的转换,来实现具体 ...
Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）
1.rdd持久化 2.广播 3.累加器 1.rdd持久化通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...

随机推荐

python setup.py install 报错：error: [WinError 3] 系统找不到指定的路径。: 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\PlatformSDK\\lib
Outline 在通过 setup.py 安装python模块时,遇到了以下报错: # 执行 python setup.py install # 报错: error: [WinError 3] 系统找 ...
SQL JOIN使用方法
(转自W3School相关教程:http://www.w3school.com.cn,W3School是不错的在线教程,简洁高效!) 下面列出不同的SQL JOIN类型,以及他们之间的差异: JOIN ...
LCT(link cut tree) 动态树
模板参考:https://blog.csdn.net/saramanda/article/details/55253627 综合各位大大博客后整理的模板: #include<iostream&g ...
python约束与MD5加密写法
python 中约束写法有两种 1 常用的通过继承关系主动抛出异常 2 通过抽象类+抽象方法 1 常用的通过继承关系主动抛出异常写法在本send方法中报错不会抛出异常, class BaseMes ...
Poj 1755Triathlon 未Ac，先mark
地址:http://poj.org/problem?id=1755 题目: Triathlon Time Limit: 1000MS Memory Limit: 10000K Total Subm ...
SVN如何切换用户对代码进行操作
在使用svn更新或提交数据时需要输入用户名和密码,在输入框中可以选择是否记录,以便下次操作无需再次输入用户名和密码: 要切换其他用户名时,需要删除已记录用户的数据,在电脑桌面上右击,依次点击菜单项To ...
VRChat简易教程3-往世界里导入模型和VRC接口初探
一.准备工作按前面的教程新建一个project,导入sdk并创建地面(Terrain)和VRCWorld. 本教程中我们学习如何导入别人做好的模型并使用VRC提供的接口来实现物品的抓取,模型素材(小 ...
20145109 《Java程序设计》第五周学习总结
20145109 <Java程序设计>第五周学习总结教材学习内容总结 Chapter 8 Exception Handling try, catch All Exceptions are ...
Android Studio 入门级教程
引用原文:http://www.cnblogs.com/abao0/p/6934023.html 写博客是为了记住自己容易忘记的东西,另外也是对自己工作的总结,文章可以转载,无需版权.希望尽自己的努力 ...
CentOS7/6 关闭防火墙
CentOS6关闭防火墙使用以下命令, //临时关闭 service iptables stop //禁止开机启动 chkconfig iptables off CentOS7中若使用同样的命令会报错 ...

【spark】RDD创建

【spark】RDD创建的更多相关文章

随机推荐

热门专题