小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序

还是以经典案例Wordcount为例：

逻辑思路：

1.先把文本按空格切分成每个单词 flatMap()

2.将每个单词都转换成Tuple2类型(hello ,1) map()

3.将key相同的次数相加(hello , 5) reduceByKey()

4.将(hello , 5) 反转成(5 , hello) map()

5.将反转好的RDD 通过key排序 sortByKey()

6.将排序好的RDD 再反转成(hello , 5) map()

7.打印 foreach()

scala版本

/**

  * sortwordcount 案例

  * 通过单词出现的次数 倒序排序

  */

object SortWordCountScala {

  def main(args: Array[String]): Unit = {

    //创建SparkContext sparkconf

    val conf = new SparkConf()

      .setAppName("sortWordCount")

      .setMaster("local")

    val sc = new SparkContext(conf)

    //读取文件

    val lines = sc.textFile("D:\\daima\\work\\1011\\spark-test-zhonghuashishan\\file\\data_syn.txt")

    //原始Wordcount案例

    val split = lines.flatMap(line => line.split(" "))

    val map = split.map(m => (m ,))

    val reduce = map.reduceByKey(_ + _ )

    //将(you ,2 ) (hello ,3) 反转成(2 , you) (3 , hello)

    val fanzhuan = reduce.map(r => (r._2 , r._1))

    //通过key排序 sortByKey 参数为false ：倒序(3 , hello) (2 , you)

    val sort = fanzhuan.sortByKey(false)

    //在将反转之后排序好的rdd在反转成：(hello ,3) (you , 2)

    val put = sort.map(m => (m._2 , m._1))

    //打印

    put.foreach(p => println(p._1 +"单词"+p._2+"个数"))

  }

}

Java版本

/**

* 排序的Wordcount程序

* 通过单词出现的次数 倒序排序

*/

public class SortWordCount {

    public static void main (String [] args){

        //创建sparkconf 和JavaSparkContext

        SparkConf conf = new SparkConf()

                .setAppName("SortWordCount")

                .setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

        //创建linesrdd

        JavaRDD<String> linesRDD = sc.textFile("D:\\daima\\work\\1011\\spark-test-zhonghuashishan\\file\\data_syn.txt");

        //执行之前我们做过的单词计数

        JavaRDD<String> stringJavaRDD = linesRDD.flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterator<String> call(String s) throws Exception {

                return Arrays.asList(s.split(" ")).iterator();

            }

        });

        //给每个单词都拼成 (q,1)

        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = stringJavaRDD.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s, );

            }

        });

        //结果为 (yu , 3) (hello ,2)

        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD1 = stringIntegerJavaPairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer integer, Integer integer2) throws Exception {

                return integer + integer2;

            }

        });

        //通过new Tuple2  将(yu , 3) (hello ,2)  反转成 (3 , yu) (2 , hello)

        JavaPairRDD<Integer, String> integerStringJavaPairRDD = stringIntegerJavaPairRDD1.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {

            @Override

            public Tuple2<Integer, String> call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {

                return new Tuple2<>(stringIntegerTuple2._2, stringIntegerTuple2._1);

            }

        });

        //按照key进行排序 倒序 (3 , yu) (2 , hello)

        JavaPairRDD<Integer, String> integerStringJavaPairRDD1 = integerStringJavaPairRDD.sortByKey(false);

        //将排序好的(3 , yu) (2 , hello) 反转成 (yu , 3) (hello ,2)

        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD2 = integerStringJavaPairRDD1.mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(Tuple2<Integer, String> integerStringTuple2) throws Exception {

                return new Tuple2<String, Integer>(integerStringTuple2._2, integerStringTuple2._1);

            }

        });

        //打印

        stringIntegerJavaPairRDD2.foreach(new VoidFunction<Tuple2<String, Integer>>() {

            @Override

            public void call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {

                System.out.println(stringIntegerTuple2._1 + "单词"+ stringIntegerTuple2._2 +"个数");

            }

        });

        //关闭JavaSparkContext

        sc.close();

    }

}

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序的更多相关文章

Spark - 经典案例
初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之. 本文熟悉下 Spark 数据处理的几个经典案例. 首先将 Scala SDK 的源码导入 IDEA,方便查看和调试代 ...
Spark之权威指南经典案例
hadoop权威指南上有一个求历史最高温度的经典案例,源数据如下: -- sample.txt0067011990999991950051507004+68750+023550FM-12+038299 ...
王家林大数据Spark超经典视频链接全集[转]
压缩过的大数据Spark蘑菇云行动前置课程视频百度云分享链接链接:http://pan.baidu.com/s/1cFqjQu SCALA专辑 Scala深入浅出经典视频链接:http://pan ...
汇总java生态圈常用技术框架、开源中间件，系统架构及经典案例等
转自:http://www.51testing.com/html/83/n-3718883.html 有人认为编程是一门技术活,要有一定的天赋,非天资聪慧者不能及也.非也,这是近几年,对于技术这碗饭有 ...
javascript的理解及经典案例
js的简介: JavaScript是一种能让你的网页更加生动活泼的程式语言,也是目前网页中设计中最容易学又最方便的语言. 你可以利用JavaScript轻易的做出亲切的欢迎讯息.漂亮的数字钟.有广告效 ...
jQuery基础的工厂函数以及定时器的经典案例
1. jQuery的基本信息: 1.1 定义: jQuery是JavaScript的程序库之一,它是JavaScript对象和实用函数的封装, 1.2 作用: 许多使用JavaScript能实现的交 ...
Linux运维之道（大量经典案例、问题分析，运维案头书，红帽推荐）
Linux运维之道(大量经典案例.问题分析,运维案头书,红帽推荐) 丁明一编 ISBN 978-7-121-21877-4 2014年1月出版定价:69.00元 448页 16开编辑推荐 1 ...
经典案例：那些让人赞不绝口的创新 HTML5 网站
在过去的10年里,网页设计师使用 Flash.JavaScript 或其他复杂的软件和技术来创建网站.但现在你可以前所未有的快速.轻松地设计或创造互动的.有趣好看的网站.如何创建?答案是 HTML5 ...
Altera OpenCL用于计算机领域的13个经典案例(转)
英文出自:Streamcomputing 转自:http://www.csdn.net/article/2013-10-29/2817319-the-application-areas-opencl- ...

随机推荐

canvas小实验
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
JavaScript 实现文件下载并重命名
第一种是HTML官网中的方法<a href="/images/liang.jpg" download="文件名称">HTML5 中 a 标签提供了一 ...
Luogu P5652 基础博弈练习题 (博弈论、图论)
题目链接 https://www.luogu.org/problem/P5652 题解好题,想了四小时-- 首先考虑如何判断胜负: 首先假设只有一个柱子,那就是奇败偶胜.不难发现最后一个奇数后面的偶 ...
[BZOJ2730]:[HNOI2012]矿场搭建（塔尖）
题目传送门题目描述煤矿工地可以看成是由隧道连接挖煤点组成的无向图.为安全起见,希望在工地发生事故时所有挖煤点的工人都能有一条出路逃到救援出口处.于是矿主决定在某些挖煤点设立救援出口,使得无论哪一个 ...
flask 第六篇 flask内置的session
Flask中的Session非常的奇怪,他会将你的SessionID存放在客户端的Cookie中,使用起来也非常的奇怪 1. Flask 中 session 是需要 secret_key 的 from ...
mumu 连接安卓studio
近期开发一个项目,折腾了好久,编写完程序后,真机上运行没有异常,而在MuMu模拟器上运行,程序总是中断(MuMu模拟器连接不上,只能打包好apk再放到MuMu上测试,有点蠢萌...),没办法调试,就获 ...
Java工程师成神之路（2018年最新版）
一.基础篇 JVM JVM内存结构堆.栈.方法区.直接内存.堆和栈区别 Java内存模型内存可见性.重排序.顺序一致性.volatile.锁.final 垃圾回收内存分配策略.垃圾收集器(G1) ...
6.HBase时髦谨慎财会会计
1.基本概念和原理 2.核心知识点 3.安装部署 4.Hbase开发
学习前端第二天心得体会（初步了解HTML5的部分API以及画布Canvas）
一.HTML5部分API 1.选择器querySelector和querySelectorAll 1.1.querySelector:返回文档中匹配指定的CSS选择器的第一元素. document. ...
wpf prism IRegionManager 和IRegionViewRegistry
引入了一个新的问题,IRegionViewRegistry和IRegionManager都具有RegisterViewWithRegion方法,二者有区别么? 答案是——没有.我们已经分析过,在Uni ...

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序

小记--------spark-Wordcount经典案例之对结果根据词频进行倒序排序的更多相关文章

随机推荐

热门专题