大数据算法设计模式(1)

topN算法，spark实现

package com.kangaroo.studio.algorithms.topn;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.broadcast.Broadcast;

import scala.Tuple2;

import java.io.Serializable;

import java.util.*;

public class TopNSpark implements Serializable {

    private JavaSparkContext jsc;

    Broadcast<Integer> topNum;

    private String inputPath;

    /*

    *   构造函数

    *   1. 初始化JavaSparkContext

    *   2. 初始化广播变量topN个数, 可以被所有partition共享

    *   3. 初始化输入路径

    * */

    public TopNSpark(Integer Num, String path) {

        jsc = new JavaSparkContext();

        topNum = jsc.broadcast(Num);

        inputPath = path;

    }

    /*

    *   程序入口函数

    * */

    public void run() {

        /*

        *   读入inputPath中的数据

        * */

        JavaRDD<String> lines = jsc.textFile(inputPath, 1);

        /*

        *   将rdd规约到9个分区

        * */

        JavaRDD<String> rdd = lines.coalesce(9);

        /*

        *   将输入转化为kv格式

        *   key是规约的主键, value是排序参考的个数

        *   注: 这里的key并不唯一, 即相同的key可能有多条记录, 所以下面我们规约key成唯一键

        *   输入:line, 输出:kv

        * */

        JavaPairRDD<String, Integer> kv = rdd.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                String[] tokens = s.split(",");

                return new Tuple2<String, Integer>(tokens[0], Integer.parseInt(tokens[1]));

            }

        });

        /*

        *   规约主键成为唯一键

        *   输入:kv, 输出:kv

        * */

        JavaPairRDD<String, Integer> uniqueKeys = kv.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer i1, Integer i2) throws Exception {

                return i1 + i2;

            }

        });

        /*

        *   计算各个分区的topN

        *   这里通过广播变量拿到了topN具体个数, 每个分区都保留topN, 所有分区总个数: partitionNum * topN

        *   输入:kv, 输出:SortMap, 长度topN

        * */

        JavaRDD<SortedMap<Integer, String>> partitions = uniqueKeys.mapPartitions(new FlatMapFunction<Iterator<Tuple2<String,Integer>>, SortedMap<Integer, String>>() {

            public Iterable<SortedMap<Integer, String>> call(Iterator<Tuple2<String, Integer>> iter) throws Exception {

                final int N = topNum.getValue();

                SortedMap<Integer, String> topN = new TreeMap<Integer, String>();

                while (iter.hasNext()) {

                    Tuple2<String, Integer> tuple = iter.next();

                    topN.put(tuple._2, tuple._1);

                    if (topN.size() > N) {

                        topN.remove(topN.firstKey());

                    }

                }

                return Collections.singletonList(topN);

            }

        });

        /*

        *   规约所有分区的topN SortMap, 得到最终的SortMap, 长度topN

        *   reduce过后, 数据已经到了本地缓存, 这是最后结果

        *   输入: SortMap, 长度topN, 当然有partitionNum个, 输出:SortMap, 长度topN

        * */

        SortedMap<Integer, String> finalTopN = partitions.reduce(new Function2<SortedMap<Integer, String>, SortedMap<Integer, String>, SortedMap<Integer, String>>() {

            public SortedMap<Integer, String> call(SortedMap<Integer, String> m1, SortedMap<Integer, String> m2) throws Exception {

                final int N = topNum.getValue();

                SortedMap<Integer, String> topN = new TreeMap<Integer, String>();

                for (Map.Entry<Integer, String> entry : m1.entrySet()) {

                    topN.put(entry.getKey(), entry.getValue());

                    if (topN.size() > N) {

                        topN.remove(topN.firstKey());

                    }

                }

                for (Map.Entry<Integer, String> entry : m2.entrySet()) {

                    topN.put(entry.getKey(), entry.getValue());

                    if (topN.size() > N) {

                        topN.remove(topN.firstKey());

                    }

                }

                return topN;

            }

        });

        /*

        *   将本地缓存的最终结果打印出来

        * */

        for (Map.Entry<Integer, String> entry : finalTopN.entrySet()) {

            System.out.println(entry.getKey() + " -- " + entry.getValue());

        }

    }

    public static void main(String[] args) {

        /*

        *   topN个数:topN

        *   输入数据路径:inputPath

        * */

        Integer topN = Integer.parseInt(args[0]);

        String inputPath = args[1];

        TopNSpark topNSpark = new TopNSpark(topN, inputPath);

        topNSpark.run();

    }

}

大数据算法设计模式(1) - topN spark实现的更多相关文章

大数据算法设计模式(2) - 左外链接(leftOuterJoin) spark实现
左外链接(leftOuterJoin) spark实现 package com.kangaroo.studio.algorithms.join; import org.apache.spark.api ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
大数据平台搭建（hadoop+spark）
大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息主机名 ip地址安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.sc ...
大数据算法->推荐系统常用算法之基于内容的推荐系统算法
港真,自己一直非常希望做算法工程师,所以自己现在开始对现在常用的大数据算法进行不断地学习,今天了解到的算法,就是我们生活中无处不在的推荐系统算法. 其实,向别人推荐商品是一个很常见的现象,比如我用了一 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据系列之并行计算引擎Spark部署及应用
相关博文: 大数据系列之并行计算引擎Spark介绍之前介绍过关于Spark的程序运行模式有三种: 1.Local模式: 2.standalone(独立模式) 3.Yarn/mesos模式本文将介绍 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据学习（24）—— Spark入门
在学Spark之前,我们再回顾一下MapReduce的知识,这对我们理解Spark大有裨益. 在大数据的技术分层中,Spark和MapReduce同为计算层的批处理技术,但是Spark比MapRedu ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...

随机推荐

sqlserver与mysql中vachar(n)中遇到的坑
前两天在做将mysql的数据表导入到sqlserver当中. 本人比较愚笨,操作方法是先将mysql的数据表到处为insert脚本,再在sqlserver中执行sql脚本在网上看了一下那些方法 , ...
angular之scope.$watch
某“大神”挖了个陨石坑,我于是乎似懂非懂的接手,玩了一个月angular.现在项目告一段落,暂别了繁重的重复性工作,可以开始回顾.认真的折腾下之前犹抱琵琶的angular. angular吸引人的特性 ...
Java Object中的equals和hashCode
Java的Object对象中有两个方法比较有意思,一个是equals(),一个是hashCode(),那么这两个的作用有些同学可能还不是很清楚,那么同学们现在就进一步了解一下吧. 下面咱们写一个简单的 ...
PS小实验-去除水印
PS小实验-去除水印水印是一些品牌商覆盖在图片或视频上的一个商标logo或小文本,比如大家最讨厌的百度logo,作者本人也是比较讨厌水印的,让好端端的一张图片变得美中不足. 个人觉得用photosh ...
201521123084 《Java程序设计》第9周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业本次PTA作业题集异常 1. 常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自 ...
第二次项目冲刺（Beta阶段）--第五天
一.站立式会议照片二.项目燃尽图三.项目进展 - 今天任务是改进程序使程序能完成docx文件的读取,但是并没有成功实现解决该问题,所以燃尽图没有前进. -遇到的问题:不支持docx最早认为是jar ...
201521123110 《Java程序设计》第7周学习总结
1. 本章学习总结 2. 书面作业 1.ArrayList代码分析 1.1 解释ArrayList的contains源代码 public boolean contains(Object o) { re ...
201521123048 《Java程序设计》第2周学习总结
本周学习总结 (1)String类数据类型 (2)枚举类型应用 (3)Java数组创建及使用 (4)进一步运用和了解码云书面作业 Q1.使用Eclipse关联jdk源代码,并查看String对象的源 ...
201521123104 《Java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业 1. finally(题目4-2) 1.1 截图你的提交结果(出现学号) 1.2 4-2中f ...
201521123026《JAVA程序设计》第13周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...

大数据算法设计模式(1) - topN spark实现

大数据算法设计模式(1) - topN spark实现的更多相关文章

随机推荐

热门专题