spark程序设计

Spark程序设计—创建RDD：从Scala集合构造成RDD

parallelize(a, 3)

makeRDD(a, 3)

他俩使用方式一样，只不过名字不一样

Spark程序设计—创建RDD：本地文件/HDFS

textFile(path, 100)

sequenceFile

wholeTextFiles

举例：

1. 文本文件（TextInputFormat）

　　sc.textFile(“file.txt”) //将本地文本文件加载成RDD

　　sc.textFile(“directory/*.txt”) //将某类文本文件加载成RDD

　　sc.textFile(“/data/input”)

　　sc.textFile(“file:///data/input”)

　　sc.textFile(“hdfs:///data/input”)

　　sc.textFile(“hdfs://namenode:8020/data/input”)

2. sequenceFile文件（SequenceFileInputFormat）（SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)）

　　sc.sequenceFile(“file.txt”) //将本地二进制文件加载成RDD

　　sc.sequenceFile[String, Int] (“hdfs://nn:9000/path/file”)

3. 使用任意自定义的Hadoop InputFormat

　　sc.hadoopFile(path, inputFmt, keyClass, valClass)

Spark程序设计—控制ReduceTask数目

所有key/value RDD操作符均包含一个可选参数，表示reduce task并行度

　　words.reduceByKey(_ + _, 5)

　　words.groupByKey(5)

　　visits.join(pageViews, 5)

用户也可以通过修改spark.default.parallelism设置默认并行度

默认并行度为最初的RDD partition数目

Spark高级程序设计——accumulator

Accumulator累加器，分布式累加器

　　类似于MapReduce中的counter，将数据从一个节点发送到其他各个节点上去

　　通常用于监控，调试，记录符合某类特征的数据数目等

import SparkContext._

val total_counter = sc.accumulator(0L, "total_counter")

val counter0 = sc.accumulator(0L, "counter0")    //定义两个累加器

val counter1 = sc.accumulator(0L, "counter1")

val count = sc.parallelize( to n, slices).map { i =>

total_counter +=

val x = random *  -

val y = random *  –

if (x*x + y*y < ) {

counter1 +=     //累加器counter1加1

} else {

counter0 +=     //累加器counter0加1

}

if (x*x + y*y < )  else

}.reduce(_ + _)//

Spark高级程序设计—广播变量broadcast

广播机制

　　高效分发大对象，比如字典（map），集合（set）等，每个executor一份，而不是每个task一份

　　包括HttpBroadcast和TorrentBroadcast两种

val data = Set(, , , , …..) // 大小为128MB

val bdata = sc.broadcast(data)//将大小为128MB的Set广播出去

val rdd = sc.parallelize(1to , )

val observedSizes= rdd.map(_ => bdata.value.size ….)//在各个task中，通过bdata.value获取广播的集合

Spark高级程序设计—cache

val data = sc.textFile("hdfs://nn:8020/input")

data.cache()

//data.persist(StorageLevel.DISK_ONLY_2)

1、如何创建一个分区为2的RDD：

　　创建一个RDD，分区为2，即对list进行并行化，并行度为2

scala> val rdd = sc.parallelize(List(,,),)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[] at parallelize at <console>:

　　或者启动10个map Task进行处理，对10个分区都进行map处理

val slices =

val n =  * slices

val count = sc.parallelize( to n, slices).map { i =>

val x = random *  -

val y = random *  -

if (x*x + y*y < )  else

}.reduce(_ + _)

2、将一个有两个分区的RDD收集起来

scala> rdd.collect

res3: Array[Int] = Array(, , )

3、得到这个rdd的分区数

scala> rdd.partitions.size

res4: Int =

4、想要看每个分区结果

　　用glom，glom是将一个RDD的每一个分区都变成Array

scala> rdd.glom.collect

res5: Array[Array[Int]] = Array(Array(), Array(, ))

5、将rdd写入hdfs

scala> rdd.saveAsTextFile(“hdfs://nn:8020/output”)
或者

scala> rdd.saveAsSequenceFile(“hdfs://nn:8020/output”)

saveastextfile，写的是一个目录，目录下面会生成文件，不要直接指定文件名称

如果rdd会有多个分区，则生成多个文件

6、将多个RDD合并为一个RDD

rdd1.union(rdd2)

或者

rdd2++rdd1

或者

sc.union(rdd1,rdd2,rdd3)

最终的分区数是他们分区数的和

7、产生10w个文件，每个文件里有100个整数

sc.parallelize( to   , ).map(x = > scala.uril.Random.nextLong).saveTextFile("file:///tmp/)

8、将数据放到内存，再从内存中清除掉

rdd.cache() 　　//需要action才触发cache()
//1w行数据，如果用take(1)来触发action，那么只会cache 一行数据，而不会吧1w行数据都放内存

//从内存中清除

rdd.unpersist(true)    //true的意思是，是否一直卡着，知道清空在往下运行

9、在集群上提交程序的时候报错：classNotFound，说明类不在jar包里，去从jar中查找

jar tf xxx.jar |grep 文件名或者类名

10、用命令kill掉运行在Hadoop之上的spark程序

yarn application -kill id

11、x(0), (x(1), x(2))与x._2._2的区别

//数据集如下

//users.dat

//    UserID::Gender::Age::Occupation::Zip-code

//movies.dat

//    MovieID::Title::Genres

//ratings.dat

//    UserID::MovieID::Rating::Timestamp

//加载数据

val usersRdd = sc.textFile(“users.dat”)

val ratingsRdd = sc.textFile(“ratings.dat”)

//数据抽取

//users: RDD[(userID, (gender, age))]

val users = usersRdd.map(_.split("::")).map { x =>

    (x(), (x(), x()))

}

//rating: RDD[Array(userID, movieID, ratings, timestamp)]

val rating = ratingsRdd.map(_.split("::"))

//usermovie: RDD[(userID, movieID)]

val usermovie = rating.map{ x =>

(x(), x())

}.filter(_._2.equals(MOVIE_ID))

//useRating: RDD[(userID, (movieID, (gender, age))]

val userRating = usermovie.join(users)

//movieuser: RDD[(movieID, (movieTile, (gender, age))]

val userDistribution = userRating.map { x =>

(x._2._2, )

}.reduceByKey(_ + _)

userDistribution.foreach(println)

//总结：如果是Array，那么x（0），x（1）代表的是数组中的第0个，第1个元素

//如果是元组（a，b）这种，那么x._1代表的就是a

12、reduceByKey除了_+_，再举例

//.reduceByKey是对相同key做reduce操作，reduce操作除了_+_还有很多其他用法，如下

dataSet.map(line => (extractKey(line), extractStats(line)))

.reduceByKey((a, b) => a.merge(b))

.collect().foreach()

13、groupByKey返回的是什么？

（String，Iterator），value：迭代器里放的是，同一个key对应的一些值的一个集合，如果要求Iterator的数量，count不可以的话，试试size

14、reduceByKey返回的是什么？

//返回的是 RDD

//如果是 WordCount 这种的

//返回的就是 RDD[(String, Int)]

15、groupByKey可以接收函数吗？如何达到reduceByKey一样的结果？

//不可以
//如下
val words = Array("one", "two", "two", "three", "three", "three")  

val rdd = sc.parallelize(words).map(word => (word, ))  

val a = rdd.reduceByKey(_ + _)  

val b = rdd.groupByKey().map(t => (t._1, t._2.sum))  

a和b结果一样

16、sortBy怎么用，如何对key-value 的value 降序排序

//拿 WordCount 举例

map((_, 1))

.reduceByKey(_+_)

.sortBy(_._2,false)

17、sortByKey怎么用

rdd,map（x => （x(1)，x(2)））.sortByKey(false) //降序

spark程序设计的更多相关文章

【Spark深入学习 -12】Spark程序设计与企业级应用案例02
----本节内容------- 1.遗留问题答疑 1.1 典型问题解答 1.2 知识点回顾 2.Spark编程基础 2.1 Spark开发四部曲 2.2 RDD典型实例 2.3 非RDD典型实例 3. ...
利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Ja ...
Spark学习资料共享
链接相关课件代码:http://pan.baidu.com/s/1nvbkRSt 教学视频:http://pan.baidu.com/s/1c12XsIG 这是最近买的付费教程,对资料感兴趣的可以在 ...
Spark2.x学习笔记：Spark SQL程序设计
1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. ...
《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
《深入理解Spark：核心思想与源码分析》（前言及第1章）
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
《深入理解Spark：核心思想与源码分析》一书正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
《深入理解Spark：核心思想与源码分析》正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
十位一线专家分享Spark现状与未来----峰会摘录
CSDN大数据技术: 十位一线专家分享Spark现状与未来(一) 十位一线专家分享Spark现状与未来(二) 十位一线专家分享Spark现状与未来(三) 部分摘录: 加州大学伯克利分校AMP实验室博士 ...

随机推荐

maven + hessian 简单样例
项目结构例如以下: pom.xml 内容: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&quo ...
jquery书写一个简易的二级联动
先用php生成一个json数组示例如下 JSON_UNESCAPED_UNICODE 是对汉字进行处理的参数然后HTML代码如下把那个json_city赋值成我们用php生成的json即可 < ...
面试题思考：Java RMI与RPC，JMS的比较
RPC:(Remote Procedure Call) 被设计为在应用程序间通信的平台中立的方式,它不理会操作系统之间以及语言之间的差异. 支持多语言 RMI:(Remote Method Invo ...
MemSQL start[c]up Round 1.E
完全的乱搞题啊... 被坑的要死. 拿到题目就觉得是规律题加构造题, 然后找了了几个小时无果,只知道n为奇数的时候是一定无解的,然后当n为偶数的时候可能有很多解,但是如果乱选择的话,很有可能形成无解的 ...
【POJ1275】Cashier Employment 差分约束
[POJ1275]Cashier Employment 题意: 超市经历已经提供一天里每一小时需要出纳员的最少数量————R(0),R(1),...,R(23).R(0)表示从午夜到凌晨1:00所需要 ...
[转发]CentOS7安装MySQL
在CentOS中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB. 1 下载并安装MySQL官方的 Yum Re ...
kindeditor在Java项目中的应用以及图片上传配置
在官网下载Kindededitor的开发包在项目中javaweb项目中导入kindeditor必须要使用的Jar包(用于文件上传,除非你的富文本编辑器不使用图片上传)jar包可以在官网的开发包中 ...
统计学习方法笔记 -- KNN
K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是 ...
mysql创建用户，以及分配权限
创建用户create user test identified by '123456'; 删除用户DROP USER ''@'localhost'; //删除所有host为localhost的用户给 ...
模拟hadoop-rpc通信
一.RPC服务类 package com.css.rpc.server; import java.io.IOException; import org.apache.hadoop.HadoopIlle ...