006 Spark中的wordcount以及TopK的程序编写

1.启动

　　启动HDFS

　　启动spark的local模式./spark-shell

2.知识点

　textFile:

  def textFile(
    path: String,
    minPartitions: Int = defaultMinPartitions): RDD[String]

　Filter:　

　　Return a new RDD containing only the elements that satisfy a predicate.

　　def filter(f: T => Boolean): RDD[T],返回里面判断是true的RDD。

　map:

  Return a new RDD by applying a function to all elements of this RDD.

　def map[U: ClassTag](f: T => U): RDD[U],从T到U类型的一个数据转换函数，最终返回的RDD中的数据类型是f函数返回的数据类型

　flatMap：

    Return a new RDD by first applying a function to all elements of this
RDD, and then flattening the results.

    def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]
　　从T到集合类型的数据类型转换，集合中的数据类型是U，最终返回的RDD数据类型是f函数返回的集合中的具体的类型数据。

3.编写基础的wordcount程序

 //读取文件

 val rdd=sc.textFile("wc/input/wc.input")

 //过滤数据

 val filterRdd=rdd.filter(len=>len.length>0)

 //数据转换

 val flatMapRdd=filterRdd.flatMap(line=>line.split(" ")

     .map(word=>(word,1)))

 //分组

 val groupByRdd=flatMapRdd.groupBy(tuple=>tuple._1)

 //聚合

 val wordCount=groupByRdd.map(tuple=>{

     val word=tuple._1

     val sum=tuple._2.toList.foldLeft(0)((a,b)=>a+b._2)

     (word,sum)

 })

 //输出

 wordCount.foreach(println)             //控制台上的输出

 wordCount.saveAsTextFile("wc/output6") //HDFS上的输出

4.简化代码（链式编程）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>0).

 //数据转换

 flatMap(_.split(" ").map((_,1))).

 //分组

 groupByKey().

 //统计

 map(tuple=>(tuple._1,tuple._2.toList.sum)).

 //输出

 saveAsTextFile("wc/output7")

5.最优化程序

　　reduceByKey存在combiner。

　　groupBy在大数据量的情况下，会出现OOM

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>0).

 //数据转换

 flatMap(_.split(" ").map((_,1))).

 //统计

 reduceByKey(_+_).

 //输出

 saveAsTextFile("wc/output8")

6.显示结果

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 collect()

7.排序（第二个数，从大到小）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 collect()

8.TopK(方式一)

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 take()

9.TopK（方式二，自定义）

 sc.textFile("wc/input/wc.input").

 //数据过滤

 filter(_.length>).

 //数据转换

 flatMap(_.split(" ").map((_,))).

 //统计

 reduceByKey(_+_).

 //排序

 sortBy(tuple=>tuple._2,ascending=false).

 top()(new scala.math.Ordering[(String,Int)](){

     override def compare(x:(String,Int),y:(String,Int))={

         val tmp=x._2.compare(y._2)

         if(tmp!=) tmp

         else x._1.compare(x._1)

     }

     })

006 Spark中的wordcount以及TopK的程序编写的更多相关文章

Spark中的Wordcount
目录通过scala语言基于local编写spark的Wordcount 基于yarn去调度WordCount 通过scala语言基于local编写spark的Wordcount import org ...
Spark中的wordCount程序实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.s ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程
本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次 ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
020 Spark中分组后的TopN，以及Spark的优化（重点）
一:准备 1.源数据 2.上传数据二:TopN程序编码 1.程序 package com.ibeifeng.bigdata.spark.core import java.util.concurren ...
intellij-idea打包Scala代码在spark中运行
.创建好Maven项目之后(记得添加Scala框架到该项目),修改pom.xml文件,添加如下内容: <properties> <spark.version></spar ...
spark中的RDD以及DAG
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,s ...

随机推荐

[C++]动态内存分配问题
动态分配内存: 1.malloc(int n)/free(&var): https://openhome.cc/Gossip/CGossip/MallocFree.html; 2.new/de ...
c# 匿名函数
int t(){ Func<int> m=()=>3; return m()+m();}
luogu P2515 [HAOI2010]软件安装
传送门看到唯一的依赖关系,容易想到树型dp,即\(f_{i,j}\)表示选点\(i\)及子树内连通的点,代价为\(j\)的最大价值,然后就是选课那道题但是要注意 1.题目中的依赖关系不一定是树,可 ...
一个极好的JavaScript学习网址
JavaScript学习网址:https://javascript.info/ 网址界面如下,内容和排版都非常不错,内容也比较新,不像一些教程已经是好几年前的了.把这个教程浏览一遍,能够解答很多看代码 ...
如何利用 Python 完成验签操作
柠檬班Python8期的佑佑以及Python7期的掠掠同学昨天都私下问华华老师如何利用Python完成验签的操作. 今天我们就以佑佑的例子来跟大家进行简单的说明以及操作! 一.什么是验签: 用非常简单 ...
android 使用web查看SQLite数据
添加依赖: compile 'com.facebook.stetho:stetho:1.4.2'compile 'com.facebook.stetho:stetho-okhttp3:1.4.2' 初 ...
FPN 学习笔记
通常,利用网络对物体进行检测时,浅层网络分辨率高,学到的是图片的细节特征,深层网络,分辨率低,学到的更多的是语义特征. 1).通常的CNN使用如下图中显示的网络,使用最后一层特征图进行预测例如VGG ...
Freemarker导出带多个不重复图片的word
1.新建一个word,添加一张图片,调整好图片大小与位置.
volatile的深入理解--【sky原创】
volatile 所有定义的变量都是在内存上面的, 例如: int i = 10; int j = i; int k = i; i = 10; 是初始化的变量,存放在数据段,未初始化的变量存放在 ...
oracle客户端安装
一.引导安装并配置 1)下载客户端(两个文件) 2)选中两个压缩包解压到同一个文件夹下 3)点击setup 4)选择:创建和配置数据库桌面类选择安装目录,全局数据库名:orcl,密码admin口令管理 ...

006 Spark中的wordcount以及TopK的程序编写

006 Spark中的wordcount以及TopK的程序编写的更多相关文章

随机推荐

热门专题