初见spark-02(RDD及其简单算子)

　　今天，我们来进入spark学习的第二章，发现有很多事都已经开始变化，生活没有简单的朝自己想去的方向，但是还是需要努力呀，不说鸡汤之类的话了，

　　开始我们今天的spark的旅程

　　一.RDD是什么

　　　　rdd的中文解释为弹性分布式数据集,全称Resilient Distributed Datases,即内存中的数据集，

　　　　RDD只读,可分区,这个数据集的全部或部分可以缓存到内存之中，在多次时间间重用，所谓
　　　　弹性,是指内存不够是可以与磁盘进行互换

　　二.spark算子

　　　　spark算子一共分为两类，一类叫做Transformation(转换)，一类叫做Action(动作)

　　　　Transformation延迟执行,Transformation会记录元数据信息,当计算任务触犯Action才开始真正的执行(这个上一个章节也介绍过)

　　　　这个里面起前面无论是map还是filter的方法，都是transform方法，所以这个值并没有真正的别改变，直到collect,这个是Action，则它真正的值才会被调用

　　三.创建RDD的两种方式

　　　　1.通过HDFS支持的文件系统创建RDD,RDD里面没有真正要计算的数据，只记录一下元数据

　　　　2.通过scala集合或数组以并行化的方式创建RDD

　　　　看一下内部实现对于RDD的概括(5个特点)

　　　　Internally, each RDD is characterized by five main properties:
　　　　- A list of partitions
　　　　- A function for computing each split
　　　　- Alist of dependencies on other RDDs
　　　　- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
　　　　- Optionally, a list of preferred locations to compute each split on (e.g. block · locations an HDFS file)

　　四.spark在IDEA上的第一个程序

　　　　1.首先我们先在idea上写一个spark程序，然后package

object WordCount {

  def main(args: Array[String]): Unit = {

    //非常重要，通向spark集群的入口

    val conf = new SparkConf().setAppName("WC")

    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map(((_,1))).reduceByKey(_+_).sortBy(_._2).saveAsTextFile(args(1))

    sc.stop()

  }

}

　　　　首先先要澄清一点，这个里面我们的spark是采用maven的形式来创建的，所以我们的pom文件加上上对spark的支持

　　　　我们在package的时候，会在target中生成两个jar包，我们选容量大的，应为可能要包括其他的库

　　　　2.上传到Linux上面，并提交(这个里面和在hadoop上面执行jar包很相似)

./spark-submit

  --master spark://192.168.109.136:7077

  --class cn.wj.spark.WordCount

  --executor-memory 512m

  --total-executor-cores 2 /tmp/hello-spark-1.0.jar            hdfs://192.168.109.136:9000/wc/*  hdfs://192.168.109.136:9000/wc/out

　　　　即可,这个时候我们可以通过192.168.109.136:8080可以查看当前spark的项目执行情况

　　　　五.Master与Worker的关系

　　　　Master管理所有的Worker,进而进行资源的调度，Worker管理当前的节点，Worker会启动Executor来完成真正的计算

初见spark-02(RDD及其简单算子)的更多相关文章

关于spark RDD trans action算子、lineage、宽窄依赖详解
这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势.之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫在h ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
[转]Spark学习之路（三）Spark之RDD
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录一.RDD的概述 1.1 什么是RDD? ...
Spark学习之路（三）Spark之RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
Spark之 RDD
简介 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Resilien ...
Hadoop学习(9)-spark的安装与简单使用
spark和mapreduce差不多,都是一种计算引擎,spark相对于MapReduce来说,他的区别是,MapReduce会把计算结果放在磁盘,spark把计算结果既放在磁盘中有放在内存中,ma ...
Spark之RDD
Spark学习之路Spark之RDD 目录一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数 ...
Spark RDD :Spark API--Spark RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
Spark学习之路（三）Spark之RDD[转]
RDD的概述什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...

随机推荐

《C#多线程编程实现方式》
一.使用线程的理由 1.可以使用线程将代码同其他代码隔离,提高应用程序的可靠性. 2.可以使用线程来简化编码. 3.可以使用线程来实现并发执行. 二.基本知识 1.进程与线程:进程作为操作系统执行程序 ...
css3实现iPhone滑动解锁
该效果的主要实现思路是给文字添加渐变的背景,然后对背景进行裁剪,按文字裁剪(目前只有webkit内核浏览器支持该属性),最后给背景添加动画,即改变背景的位置,背景动画效果如下(GIF录制时有卡顿,代码 ...
ansible使用2-命令
并发与shell # bruce用户身份,-m指定模块名称,默认模块名command,all所有目标主机,也可以指定组名或者主机名 ansible all -m ping -u bruce # bru ...
Vim中修改列模式的文字为ABCD或1234的递增序号
vimrc里添加 vnoremap <F3> :<C-u>call <SID>AddCharOfCursor()<CR> "递增列模式下的字符 ...
rosservice call ERROR:Unable to load type ... Have you typed 'make'
you need to source in the new terminal $ source ~/catkin_ws/devel/setup.bash
linux下composer+laravel随笔
1.composer中文网:https://www.phpcomposer.com/ laravel中文网:https://d.laravel-china.org/ 2.composer是的作用是 ...
hash函数的选择
哈稀函数按照定义可以实现一个伪随机数生成器(PRNG),从这个角度可以得到一个公认的结论:哈希函数之间性能的比较可以通过比较其在伪随机生成方面的比较来衡量. 一般来说,对任意一类的数据存在一个理论上完 ...
Uva 10820 交表
题目链接:https://uva.onlinejudge.org/external/108/10820.pdf 题意: 对于两个整数 x,y,输出一个函数f(x,y),有个选手想交表,但是,表太大,需 ...
C&C++
编写一个程序,要求用户输入一串整数和任意数目的空格,这些整数必须位于同一行中,但允许出现在该行中的任何位置.当用户按下键盘上的“Enter”键时,数据输入结束.程序自动对所有的整数进行求和并打印出结果 ...
redis string类型

初见spark-02(RDD及其简单算子)

初见spark-02(RDD及其简单算子)的更多相关文章

随机推荐

热门专题