Spark程序设计—创建RDD:从Scala集合构造成RDD

parallelize(a, 3)

makeRDD(a, 3)

他俩使用方式一样,只不过名字不一样

Spark程序设计—创建RDD:本地文件/HDFS

textFile(path, 100)

sequenceFile

wholeTextFiles

举例:

1. 文本文件(TextInputFormat)

  sc.textFile(“file.txt”) //将本地文本文件加载成RDD

  sc.textFile(“directory/*.txt”) //将某类文本文件加载成RDD

  sc.textFile(“/data/input”)

  sc.textFile(“file:///data/input”)

  sc.textFile(“hdfs:///data/input”)

  sc.textFile(“hdfs://namenode:8020/data/input”)

2. sequenceFile文件(SequenceFileInputFormat)(SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File))

  sc.sequenceFile(“file.txt”) //将本地二进制文件加载成RDD

  sc.sequenceFile[String, Int] (“hdfs://nn:9000/path/file”)

3. 使用任意自定义的Hadoop InputFormat

  sc.hadoopFile(path, inputFmt, keyClass, valClass)

Spark程序设计—控制ReduceTask数目

所有key/value RDD操作符均包含一个可选参数,表示reduce task并行度

  words.reduceByKey(_ + _, 5)

  words.groupByKey(5)

  visits.join(pageViews, 5)

用户也可以通过修改spark.default.parallelism设置默认并行度

默认并行度为最初的RDD partition数目

Spark高级程序设计——accumulator

Accumulator累加器,分布式累加器

  类似于MapReduce中的counter,将数据从一个节点发送到其他各个节点上去

  通常用于监控,调试,记录符合某类特征的数据数目等

import SparkContext._
val total_counter = sc.accumulator(0L, "total_counter")
val counter0 = sc.accumulator(0L, "counter0") //定义两个累加器
val counter1 = sc.accumulator(0L, "counter1")
val count = sc.parallelize( to n, slices).map { i =>
total_counter +=
val x = random * -
val y = random * –
if (x*x + y*y < ) {
counter1 += //累加器counter1加1
} else {
counter0 += //累加器counter0加1
}
if (x*x + y*y < ) else
}.reduce(_ + _)//

Spark高级程序设计—广播变量broadcast

广播机制

  高效分发大对象,比如字典(map),集合(set)等,每个executor一份,而不是每个task一份

  包括HttpBroadcast和TorrentBroadcast两种

val data = Set(, , , , …..) // 大小为128MB
val bdata = sc.broadcast(data)//将大小为128MB的Set广播出去
val rdd = sc.parallelize(1to , )
val observedSizes= rdd.map(_ => bdata.value.size ….)//在各个task中,通过bdata.value获取广播的集合

Spark高级程序设计—cache

val data = sc.textFile("hdfs://nn:8020/input")
data.cache()
//data.persist(StorageLevel.DISK_ONLY_2)

1、如何创建一个分区为2的RDD:

  创建一个RDD,分区为2,即对list进行并行化,并行度为2

scala> val rdd = sc.parallelize(List(,,),)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[] at parallelize at <console>:

  或者启动10个map Task进行处理,对10个分区都进行map处理

val slices =
val n = * slices
val count = sc.parallelize( to n, slices).map { i =>
val x = random * -
val y = random * -
if (x*x + y*y < ) else
}.reduce(_ + _)

2、将一个有两个分区的RDD收集起来

scala> rdd.collect
res3: Array[Int] = Array(, , )

3、得到这个rdd的分区数

scala> rdd.partitions.size
res4: Int =

4、想要看每个分区结果

  用glom,glom是将一个RDD的每一个分区都变成Array

scala> rdd.glom.collect
res5: Array[Array[Int]] = Array(Array(), Array(, ))

5、将rdd写入hdfs

scala> rdd.saveAsTextFile(“hdfs://nn:8020/output”)
或者
scala> rdd.saveAsSequenceFile(“hdfs://nn:8020/output”) saveastextfile,写的是一个目录,目录下面会生成文件,不要直接指定文件名称 如果rdd会有多个分区,则生成多个文件

6、将多个RDD合并为一个RDD

rdd1.union(rdd2)
或者
rdd2++rdd1
或者
sc.union(rdd1,rdd2,rdd3)
最终的分区数是他们分区数的和

7、产生10w个文件,每个文件里有100个整数

sc.parallelize( to   , ).map(x = > scala.uril.Random.nextLong).saveTextFile("file:///tmp/)

8、将数据放到内存,再从内存中清除掉

rdd.cache()   //需要action才触发cache()
//1w行数据,如果用take(1)来触发action,那么只会cache 一行数据,而不会吧1w行数据都放内存
//从内存中清除
rdd.unpersist(true) //true的意思是,是否一直卡着,知道清空在往下运行

9、在集群上提交程序的时候报错:classNotFound,说明类不在jar包里,去从jar中查找

jar tf xxx.jar |grep 文件名或者类名

10、用命令kill掉运行在Hadoop之上的spark程序

yarn application -kill id

11、x(0), (x(1), x(2))与x._2._2的区别

//数据集如下
//users.dat
// UserID::Gender::Age::Occupation::Zip-code
//movies.dat
// MovieID::Title::Genres
//ratings.dat
// UserID::MovieID::Rating::Timestamp //加载数据
val usersRdd = sc.textFile(“users.dat”)
val ratingsRdd = sc.textFile(“ratings.dat”) //数据抽取
//users: RDD[(userID, (gender, age))]
val users = usersRdd.map(_.split("::")).map { x =>
(x(), (x(), x()))
} //rating: RDD[Array(userID, movieID, ratings, timestamp)]
val rating = ratingsRdd.map(_.split("::")) //usermovie: RDD[(userID, movieID)]
val usermovie = rating.map{ x =>
(x(), x())
}.filter(_._2.equals(MOVIE_ID)) //useRating: RDD[(userID, (movieID, (gender, age))]
val userRating = usermovie.join(users)
//movieuser: RDD[(movieID, (movieTile, (gender, age))]
val userDistribution = userRating.map { x =>
(x._2._2, )
}.reduceByKey(_ + _)
userDistribution.foreach(println) //总结:如果是Array,那么x(0),x(1)代表的是数组中的第0个,第1个元素
//如果是元组(a,b)这种,那么x._1代表的就是a

12、reduceByKey除了_+_,再举例

//.reduceByKey是对相同key做reduce操作,reduce操作除了_+_还有很多其他用法,如下
dataSet.map(line => (extractKey(line), extractStats(line)))
.reduceByKey((a, b) => a.merge(b))
.collect().foreach()

13、groupByKey返回的是什么?

(String,Iterator),value:迭代器里放的是,同一个key对应的一些值的一个集合,如果要求Iterator的数量,count不可以的话,试试size

14、reduceByKey返回的是什么?

//返回的是 RDD
//如果是 WordCount 这种的
//返回的就是 RDD[(String, Int)]

15、groupByKey可以接收函数吗?如何达到reduceByKey一样的结果?

//不可以
//如下
val words = Array("one", "two", "two", "three", "three", "three") val rdd = sc.parallelize(words).map(word => (word, )) val a = rdd.reduceByKey(_ + _) val b = rdd.groupByKey().map(t => (t._1, t._2.sum)) a和b结果一样

16、sortBy怎么用,如何对key-value 的value 降序排序

//拿 WordCount 举例
map((_, 1))
.reduceByKey(_+_)
.sortBy(_._2,false)

17、sortByKey怎么用

rdd,map(x => (x(1),x(2))).sortByKey(false) //降序

spark程序设计的更多相关文章

  1. 【Spark深入学习 -12】Spark程序设计与企业级应用案例02

    ----本节内容------- 1.遗留问题答疑 1.1 典型问题解答 1.2 知识点回顾 2.Spark编程基础 2.1 Spark开发四部曲 2.2 RDD典型实例 2.3 非RDD典型实例 3. ...

  2. 利用Scala语言开发Spark应用程序

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Ja ...

  3. Spark学习资料共享

    链接相关 课件代码:http://pan.baidu.com/s/1nvbkRSt 教学视频:http://pan.baidu.com/s/1c12XsIG 这是最近买的付费教程,对资料感兴趣的可以在 ...

  4. Spark2.x学习笔记:Spark SQL程序设计

    1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. ...

  5. 《Spark MLlib机器学习实践》内容简介、目录

      http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...

  6. 《深入理解Spark:核心思想与源码分析》(前言及第1章)

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  7. 《深入理解Spark:核心思想与源码分析》一书正式出版上市

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  8. 《深入理解Spark:核心思想与源码分析》正式出版上市

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...

  9. 十位一线专家分享Spark现状与未来----峰会摘录

    CSDN大数据技术: 十位一线专家分享Spark现状与未来(一) 十位一线专家分享Spark现状与未来(二) 十位一线专家分享Spark现状与未来(三) 部分摘录: 加州大学伯克利分校AMP实验室博士 ...

随机推荐

  1. 分页技巧__设计分页用的QueryHelper辅助对象

    分页技巧__设计分页用的QueryHelper辅助对象 FROM 必须 实体名 WHERE  可选 条件1 AND 条件2 AND ... 条件n ORDER BY 可选 属性1, 属性2, ... ...

  2. WebStorm Cordova 环境搭建

    一.软件安装 1.nodejs 2.npm 3.Cordova 如果慢,可以修改镜像,再进行安装. npm config set registry http://registry.cnpmjs.org ...

  3. 《C++ Primer Plus》学习笔记0

    Hello,World! 本书版本:<C++ Primer Plus(第6版)中文版>C++是在C语言基础上开发的一种集面向对象编程.泛型编程和过程化编程于一体的编程语言,是C语言的超集. ...

  4. Android 切换主题 (二)

    Android 切换主题 (二) 背景 我原来写过一篇文章关于 android 切换主题的文章 -- Android 切换主题以及换肤的实现 , 里面介绍了如何使用 setTheme() 来切换主题, ...

  5. springboot + ApplicationListener

    ApplicationListener自定义侦听器类 @Component public class InstantiationTracingBeanPostProcessor implements ...

  6. Zabbix数据库表结构

    上一篇:Zabbix分布式监控 acknowledges 当出现报错的时候记录 查看着张表记录了一个事件 actions 动作 自动发现 问题告警 恢复告警 自动注册 alerts 报警信息 同web ...

  7. flume jetty 进程关系 flume jetty 跨域问题 jetty 源码分析

    flume  jetty  跨域问题 13481 httpSource的端口进程号 = flume 启动后的进程号 [root@c log]# netstat -atp Active Internet ...

  8. green rgb(255, 102, 0) #FF6600

    w通过元素背景色定位元素,改变其属性. style="background-color: #FF6600" <script> var w = document.quer ...

  9. golang: multiple http.writeHeader calls

    背景: golang的http服务,读取文件,提供给client下载时候. 出现 multiple http.writeHeader calls 错误. func DownloadFile(w htt ...

  10. Linux 下线程的理解

    2017-04-03 最近深入研究了下Linux线程的问题,发现自己之前一直有些许误解,特记之…… 关于Linux下的线程,各种介绍Linux的书籍都没有深入去解释的,或许真的如书上所述,Linux本 ...