topN算法问题

问题：

如何在10亿个整数中找出前1000个最大的数？

小顶堆堆排序

首先，我们需要构建一个大小为N（1000）的小顶堆，小顶堆的性质如下：每一个父节点的值都小于左右孩子节点，然后依次从文件中读取10亿个整数，如果元素比堆顶小，则跳过不进行任何操作，如果比堆顶大，则把堆顶元素替换掉，并重新构建小顶堆。当10亿个整数遍历完成后，堆内元素就是TopN的结果。

public class TopN {

    //Top10

    public static int N = 10;

   //1亿个整数

    public static int LEN = 100000000;     

    public static int arrs[] =  new int[LEN];

    public static int arr[] = new int[N];

    //数组长度

    public static int len = arr.length;

    //堆中元素的有效元素 heapSize<=len

    public static int heapSize = len;

    public static void main(String[] args) {

    //生成随机数组

    for(int i = 0;i<LEN;i++){

        arrs[i] = new  Random().nextInt(999999999);

    }

    //构建初始堆

    for(int i =  0;i<N;i++){

        arr[i] = arrs[i];

    }

    //构建小顶堆

    long start =System.currentTimeMillis();

    buildMinHeap();

    for(int i = N;i<LEN;i++){

        if(arrs[i] > arr[0]){

            arr[0] = arrs[i];

            minHeap(0);

        }

    }

    System.out.println(LEN+"个数，求Top"+N+"，耗时"+(System.currentTimeMillis()-start)+"毫秒");

    print();

    }      

    /**

     * 自底向上构建小堆

     */

    public static void buildMinHeap(){

        int size = len / 2;

        for(int i = size;i>=0;i--){

        minHeap(i);

        }

    }     

    /**

     * i节点为根及子树是一个小堆

     * @param i

     */

    public static void minHeap(int i){

        int l = left(i);

        int r = right(i);

        int index = i;

        if(l<heapSize && arr[l]<arr[index]){

            index = l;

        }

        if(r<heapSize && arr[r]<arr[index]){

            index = r;

        }

        if(index != i){

            int t = arr[index];

            arr[index] = arr[i];

            arr[i] = t;

            //递归向下构建堆

            minHeap(index);

        }

    }     

    /**

     * 返回i节点的左孩子

     * @param i

     * @return

     */

    public static int left(int i){

        return 2*i;

    }     

    /**

     * 返回i节点的右孩子

     * @param i

     * @return

     */

    public static int right(int i){

        return 2*i+1;

    }    

    /**

     * 打印

     */

     public  static void print(){

         for(int a:arr){

             System.out.print(a+",");

         }

         System.out.println();

     }

topN算法问题的更多相关文章

topN 算法以及逆算法（随笔）
topN 算法以及逆算法(随笔) 注解:所谓的 topN 算法指的是在海量的数据中进行排序从而活动前 N 的数据. 这就是所谓的 topN 算法.当然你可以说我就 sort 一下排序完了直 ...
.net下使用最小堆实现TopN算法
测试代码: using System; using System.Collections.Generic; using System.Linq; using System.Text; namespac ...
TopN算法，流式数据获取前N条数据
背景:由于业务需求,用户想要统计每周,每月,几个月,一年之中的前N条数据. 根据已有的思路无非就是对全部的数据进行排序,然后取出前N条数据,可是这样的话按照目前最优的排序算法复杂度也在O(nlog(n ...
大数据算法设计模式(1) - topN spark实现
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...
数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）
一.二次排序问题. MR/hadoop两种方案: 1.让reducer读取和缓存给个定键的所有值(例如,缓存到一个数组数据结构中,)然后对这些值完成一个reducer中排序.这种方法不具有可伸缩性,因 ...
分别使用Hadoop和Spark实现TopN（1）——唯一键
0.简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈. 这个TopN算法在ma ...
TopN问题（分别使用Hadoop和Spark实现）
简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈. 这个TopN算法在map阶 ...
关于topN问题的几种解决方案
在系统中,我们经常会遇到这样的需求:将大量(比如几十万.甚至上百万)的对象进行排序,然后只需要取出最Top的前N名作为排行榜的数据,这即是一个TopN算法.常见的解决方案有三种: (1)直接使用Lis ...
找工作面试题记录与参考资料（Golang/C++/计算机网络/操作系统/算法等）
记录下去年(2020年)找工作的面试题及参考资料. C++ 智能指针的实现原理多态的实现原理[2] C++11/14/17新特性[3] 手写memcpy和memmove[4] 介绍下boost库计 ...
Apache Kylin
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io).作为一套旨在对Hadoop环境下分析流程进行加速.且能够与SQL兼容性工具顺利协作的解决方 ...

随机推荐

OSS管理文件(Node.js)
let OSS = require('ali-oss'); let config = { region: 'oss-cn-hangzhou', //你的Region 注意这个只要空间名不要 ht ...
React使用portal提示 The types returned by 'render()' are incompatible between these types. Type 'ReactPortal' is not assignable to type 'ReactNode'. Type '{}' is not assignable to type 'ReactNode'.
原因:组件返回了个不是<></>的东西原先代码: export default class Index extends React.PureComponent { rende ...
js apply 与 call
简介用来调用方法,第一个参数替换掉用方法的this对象区别:call:A.fn.call(B, arg1,arg2,argn...),后面的参数用逗号分隔 apply:A.fn.apply(B, ...
tzoj：3613 突破包围
http://www.tzcoder.cn/acmhome/problemdetail.do?&method=showdetail&id=3613 算出两两之间min距离,然后从起点开 ...
使用Dapr和Tye启动服务
自 2019 年开源以来,Dapr(Distributed Application runtime )已迅速成为非常流行的构建微服务的开源框架.它提供了分布式应用程序中常用的构建块和已打包的服务,例如 ...
训练题——ADC读取温度
Author:XuanYu 利用ADC测量单片机内部温度废话不多说,直接开搞. 科普先科普一下ADC(不是 AD carry!),ADC是模数转化器,就是模拟信号转换成数字信号的东西,通常的模数转 ...
前端本地 Nginx 反向代理
一.问题引入本地开发遇到线上bug,debug得stash代码切换分支,同时需切换开发环境与生产环境服务,npm run serve 或 npm start 费时二.webpack-dev-ser ...
Encountered unexpected token: "ur" <K_ISOLATION>
在用mybatis-plus的过程中 , 报如下错误 : Caused by: net.sf.jsqlparser.parser.ParseException: Encountered unexpec ...
AD使用积累 - AD原理图界面选中所有器件但不选中电气连接线
1.在随意一个器件上右键,选择查找相似对象. 2.在弹出的界面选择如下两项: 3.点击确定,会高亮所有元器件,这时再进行框选就可以只选中器件.
Stream流相关方法
LIST<对象> 转换MAP 并根据某个字段分组 // 并根据某个字段分组,并做了归类 Map<String, List<User>> collect = user ...

topN算法问题

topN算法问题的更多相关文章

随机推荐

热门专题