spark 基于key排序的wordcount

java

 /**

  * 根据单词次数排序的wordcount

  * @author Tele

  *

  */

 public class SortWordCount {

     private static SparkConf conf = new SparkConf().setMaster("local").setAppName("sortwordcount");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     private static String path = "D:\\inputword\\result.txt";

     public static <U> void main(String[] args) {

         JavaRDD<String> rdd = jsc.textFile(path);

         /*

          * JavaRDD<String> lines = rdd.flatMap(new FlatMapFunction<String,String>() {

          *

          * private static final long serialVersionUID = 1L;

          *

          * @Override public Iterator<String> call(String t) throws Exception { return

          * Arrays.asList(t.split(" ")).iterator(); } });

          *

          * JavaPairRDD<String, Integer> tuples = lines.mapToPair(new

          * PairFunction<String,String,Integer>() {

          *

          * private static final long serialVersionUID = 1L;

          *

          * @Override public Tuple2<String,Integer> call(String t) throws Exception {

          * return new Tuple2<String,Integer>(t,1); } });

          */

         JavaPairRDD<String, Integer> tuples = rdd.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Iterator<Tuple2<String, Integer>> call(String t) throws Exception {

                 Stream<Tuple2<String, Integer>> stream = Arrays.asList(t.split(" ")).stream()

                         .map(i -> new Tuple2<>(i, 1));

                 return stream.iterator();

             }

         });

         JavaPairRDD<String, Integer> wc = tuples.reduceByKey(new Function2<Integer, Integer, Integer>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Integer call(Integer v1, Integer v2) throws Exception {

                 return v1 + v2;

             }

         });

         // 将词频与单词互换位置

         JavaPairRDD<Integer, String> cw = wc.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Tuple2<Integer, String> call(Tuple2<String, Integer> t) throws Exception {

                 return new Tuple2<Integer, String>(t._2, t._1);

             }

         });

         JavaPairRDD<Integer, String> result = cw.sortByKey(false);

         result.foreach(new VoidFunction<Tuple2<Integer, String>>() {

             private static final long serialVersionUID = 1L;

             @Override

             public void call(Tuple2<Integer, String> t) throws Exception {

                 System.out.println(t._2 + "----" + t._1);

             }

         });

         // 也可以在排序完毕后换成单词-词频的形式

         /*

          * JavaPairRDD<String, Integer> result = cw.sortByKey(false).mapToPair(new

          * PairFunction<Tuple2<Integer,String>,String,Integer>() {

          *

          * private static final long serialVersionUID = 1L;

          *

          * @Override public Tuple2<String,Integer> call(Tuple2<Integer, String> t)

          * throws Exception { return new Tuple2<String,Integer>(t._2,t._1); } });

          *

          * result.foreach(new VoidFunction<Tuple2<String,Integer>>() {

          *

          * private static final long serialVersionUID = 1L;

          *

          * @Override public void call(Tuple2<String, Integer> t) throws Exception {

          * System.out.println(t._1 + "-------" + t._2); } });

          */

         jsc.close();

     }

 }

scala

 object SortWordCount {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setMaster("local").setAppName("sortwordcount");

     val sc = new SparkContext(conf);

     val rdd = sc.textFile("D:\\inputword\\result.txt", 1);

     val wordcount = rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _);

     wordcount.map(t => (t._2, t._1)).sortByKey(false, 1).map(t => (t._2, t._1)).foreach(t => println(t._1 + "-----" + t._2));

   }

 }

spark 基于key排序的wordcount的更多相关文章

55、Spark Streaming:updateStateByKey以及基于缓存的实时wordcount程序
一.updateStateByKey 1.概述 SparkStreaming 7*24 小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这 ...
Java Map 键值对排序按key排序和按Value排序
一.理论准备 Map是键值对的集合接口,它的实现类主要包括:HashMap,TreeMap,Hashtable以及LinkedHashMap等. TreeMap:基于红黑树(Red-Black tre ...
Spark standalone简介与运行wordcount（master、slave1和slave2）
前期博客 Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2) Spark运行模式概述 1. Stan ...
Spark大数据处理之从WordCount看Spark大数据处理的核心机制（2）
在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源. Spark的应用场景 Spark主要针对两种场景: ...
输入DStream之基础数据源以及基于HDFS的实时wordcount程序
输入DStream之基础数据源以及基于HDFS的实时wordcount程序一.Java方式二.Scala方式基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实 ...
C++ STL中Map的按Key排序和按Value排序
map是用来存放<key, value>键值对的数据结构,可以很方便快速的根据key查到相应的value.假如存储学生和其成绩(假定不存在重名,当然可以对重名加以区分),我们用map来进 ...
Map排序——按key排序，按value排序
注:转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/5959279.html 上一篇博文谈到了集合类的自定义排序方式,那么进一步扩展开来,与集合同等重要的Map有 ...
C++ STL中Map的相关排序操作：按Key排序和按Value排序 - 编程小径 - 博客频道 - CSDN.NET
C++ STL中Map的相关排序操作:按Key排序和按Value排序 - 编程小径 - 博客频道 - CSDN.NET C++ STL中Map的相关排序操作:按Key排序和按Value排序分类: C ...
python字典的排序，按key排序和按value排序---sorted()
>>> d{'a': 5, 'c': 3, 'b': 4} >>> d.items()[('a', 5), ('c', 3), ('b', 4)] 字典的元素是成键 ...

随机推荐

【2017 Multi-University Training Contest - Team 7 && hdu 6121】Build a tree
[链接]点击打开链接 [题意] 询问n个点的完全k叉树,所有子树节点个数的异或总和为多少. [题解] 考虑如下的一棵k=3叉树,假设这棵树恰好有n个节点. 因为满的k叉树,第i层的节点个数为k^(i- ...
洛谷——P2515 [HAOI2010]软件安装
https://www.luogu.org/problem/show?pid=2515#sub 题目描述现在我们的手头有N个软件,对于一个软件i,它要占用Wi的磁盘空间,它的价值为Vi.我们希望从中 ...
C# mongodb帮助类
这是在C#连接MongoDB的帮助类,所使用的驱动是在Vs2015的Nuget管理器中下载的mongodb驱动. 下载第一个,会自动下载下面的两个,不要删除. 在配置文件中配置连接字符串connStr ...
《TCP/IP具体解释卷2：实现》笔记--协议控制块
协议层使用协议控制块(PCB)存放各UDP和TCP插口所要求的多个信息片.Internet协议维护Internet协议控制块 (internet protocol control block)和TCP ...
oracle expdp 备份脚本
#!/bin/bash#Oracle 环境变量 NLS_LANG=AMERICAN_AMERICA.AL32UTF8 ORACLE_SID=zgw ORACLE_BASE=/opt/oracle OR ...
python 字符串大小写转换（不能使用swapcase()方法）
python 3字符串大小写转换要求不能使用swapcase()方法 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:Hiuhung Wa ...
【hdu 3518】Boring counting
[链接]h在这里写链接 [题意] 给出一个字符串,求出至少不重叠出现2次以上的子串有多少个. [题解] 枚举要找的子串的长度i; 根据height数组,找出连续>=i的height; 这几个起始 ...
GCD下载后清除缓存
//GCD下载后清除缓存1 —(void)didReceiveMemoryWarning{ [super didReceiveMemoryWarning]; //清除缓存 [self.cache re ...
UCloud上LAMP小型站点搭建与測试
文件夹介绍 LAMP环境搭建打开UCloud防火墙 WordPress安装应用測试介绍本篇博客旨在通过介绍搭建一个WordPress博客的过程介绍在UCloud的云主机(UHOST)上搭建单 ...
Spring的资源抽象Resource2实体类
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAA0UAAAGkCAIAAABxYhnsAAAABmJLR0QA/wD/AP+gvaeTAAAACXBIWX ...

spark 基于key排序的wordcount

spark 基于key排序的wordcount的更多相关文章

随机推荐

热门专题