topN 算法 以及 逆算法(随笔)

注解:所谓的 topN 算法指的是 在 海量的数据中进行排序从而活动 前 N 的数据。 这就是所谓的 topN 算法。当然你可以说我就 sort 一下 排序完了直接取 slice(0, n) 不就好咯。 但是这的性能会很差~ 那到底能有多差,这篇文章会给大家一个 直观的感受。

第一步、造数据

有排序,那么必须先得有数据 才能在这基础上进行下一步的操作。
    let arr = []
for (let i = 0; i < 2000; i++) {
arr.push(i)
}
console.log(arr) // [0, 1, 2, ..., 10000]

第二步、 打乱数据

ok, 现在 数据原料有了,但是呢,现在这个的排序是正常的。我们现在要做的就是打乱这 10000 个数字的顺序。 thinking , emmmmmm。 好像没什么好的办法。 思路: 既然是要随机乱排列。那么随机数 Math.random() 可以获取一个 随机数 通过这个随机数,我们可以有什么作为呢?

 这个时候,我们想到了 一个 最low 的办法, sort 排序。 然后再利用 random 随机数。 好了,我们试一试
    for (var m = 0; m < arr.length; m++) {
arr.sort( function() {
return 0.5 - Math.random()
})
}
console.log(arr)
没错就是这样,数据就被随机打乱了~~~ 但是性能如何呢?
我们专门来测试了一番。

第三步、 打乱数据 性能测试。

我们先从 循环 1000 来逐步加大运算量,看看我们的浏览器到哪一步会挂 =。=   --- 代码如下:
    let arr = []
let sTime = new Date().getTime()
console.log('第一步' + sTime)
for (let i = 0; i < 1000; i++) {
arr.push(i)
}
console.log('第二步' + arr)
console.log(new Date().getTime() - sTime)
for (var m = 0; m < arr.length; m++) {
arr.sort( function() {
return 0.5 - Math.random()
})
}
console.log('第三步' + arr)
console.log(new Date().getTime() - sTime)
(1) 1000 循环的结果:

造数据:   4 ms
打乱数据: 600 ms (多次平均值)
(2) 2000 循环的结果:

造数据:   8 ms
打乱数据: 2500 ms (多次平均值)
(3) 5000 循环的结果:

造数据:   8 ms
打乱数据: 18000 ms (多次平均值)

实在是 不想测试 10000 次 数据通过 sort 打乱的过程。 时间 tooooooo loooooooong...

第四步、 再获得 topN 个数字

我们通过 可以想到的所有方法 对上面的 2000 次计算的数据进行有效的排序。
sort()?
二叉树?
使用最大堆排序,然后取出前N名?
分成 N * 10 个数组,获取其中的最大值,再排序 ?
(1) sort() 排序法
代码如下:

arr.sort(function(a, b) {
return a - b
})
console.log('第四步' + arr)
结果:

很神奇,在仅仅只有 5000 的数据量的时候 sort 排序 速度居然也还是很快。 平均值在  6ms 左右。
(2) sort() 分成 N * 10 个数组,获取其中的最大值,再排序
晚上回家继续写~~~ 敬请期待

topN 算法 以及 逆算法(随笔)的更多相关文章

  1. RSA简介(四)——求逆算法

    此处所谓求逆运算,是指在模乘群里求逆. 第一节里提到互质的两个定义: (1)p,q两整数互质指p,q的最大公约数为1. (2)p.q两整数互质指存在整数a,b,使得ap+bq=1. 只要明白了欧几里得 ...

  2. leetcode算法学习----逆波兰表达式求值(后缀表达式)

    下面题目是LeetCode算法:逆波兰表达式求值(java实现) 逆波兰表达式即后缀表达式. 题目:  有效的运算符包括 +, -, *, / .每个运算对象可以是整数,也可以是另一个逆波兰表达式.同 ...

  3. Levenshtein Distance算法(编辑距离算法)

    编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...

  4. 行为识别笔记:improved dense trajectories算法(iDT算法)(转载)

    iDT算法是行为识别领域中非常经典的一种算法,在深度学习应用于该领域前也是效果最好的算法.由INRIA的IEAR实验室于2013年发表于ICCV.目前基于深度学习的行为识别算法效果已经超过了iDT算法 ...

  5. 数据结构与算法系列研究七——图、prim算法、dijkstra算法

    图.prim算法.dijkstra算法 1. 图的定义 图(Graph)可以简单表示为G=<V, E>,其中V称为顶点(vertex)集合,E称为边(edge)集合.图论中的图(graph ...

  6. MP算法、OMP算法及其在人脸识别的应用

    主要内容: 1.MP算法 2.OMP算法 3.OMP算法的matlab实现 4.OMP在压缩感知和人脸识别的应用 一.MP(Matching Pursuits)与OMP(Orthogonal Matc ...

  7. 【强连通分量】tarjan算法及kosaraju算法+例题

    阅读前请确保自己知道强连通分量是什么,本文不做赘述. Tarjan算法 一.算法简介 Tarjan算法是一种由Robert Tarjan提出的求有向图强连通分量的时间复杂度为O(n)的算法. 首先我们 ...

  8. Hash 算法与 Manacher 算法

    目录 前言 简单介绍 简述 Hash 冲突 离散化 基本结构 普通 Hash 简述 例题 字符串 Hash 简单介绍 核心思想 基本运算 二维字符串 Hash 例题 兔子与兔子 回文子串的最大长度 后 ...

  9. 懂了!国际算法体系对称算法DES原理

    概念 加密领域主要有国际算法和国密算法两种体系.国密算法是国家密码局认定的国产密码算法.国际算法是由美国安全局发布的算法.由于国密算法安全性高等一系列原因.国内的银行和支付机构都推荐使用国密算法. 从 ...

随机推荐

  1. 交叉编译器安装 gcc version 4.3.3 (Sourcery G++ Lite 2009q1-203)

    安装环境    :ubuntu 14.04 安装包       :toolchain.tar.gz 编译器版本:gcc version 4.3.3 (Sourcery G++ Lite 2009q1- ...

  2. go golang 笔试题 面试题 笔试 面试

    go golang 笔试题 面试题 笔试 面试 发现go的笔试题目和面试题目还都是比较少的,于是乎就打算最近总结一下.虽然都不难,但是如果没有准备猛地遇到了还是挺容易踩坑的. 就是几个简单的笔试题目, ...

  3. 201521123017 《Java程序设计》第6周学习总结

    1. 本周学习总结 <> 2. 书面作业 Q1.clone方法 1.1 Object对象中的clone方法是被protected修饰,在自定义的类中覆盖clone方法时需要注意什么? 1. ...

  4. 201521123039《Java程序设计》第十三周学习总结

    1. 本周学习总结 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu.edu.cn,分析返回结果有何不同?为什么会有这样的不同? 下面是IP地 ...

  5. 201521123066 《Java程序设计》第十一周学习总结

    1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业 1.互斥访问与同步访问 完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synch ...

  6. **********MySql查询方法重要**********

    分析问题要分步,查询每一步的结果,最后连起来 例如下面有四张表让你查询 查询选修“3-105”课程的成绩高于“109”号同学成绩的所有同学的记录. 第一部,找到课程编号为3-105的记录中学号为109 ...

  7. 框架应用:Spring framework (五) - Spring MVC技术

    软件开发中的MVC设计模式 软件开发的目标是减小耦合,让模块之前关系清晰. MVC模式在软件开发中经常和ORM模式一起应用,主要作用是将(数据抽象,数据实体传输和前台数据展示)分层,这样前台,后台,数 ...

  8. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  9. Linux 命令练习

     ls命令 ls就是list的简写,目的是打印当前目录下的清单 格式 ls[选项][目录名] 常用参数 -a –all 列出目录下的所有文件,包括以 . 开头的隐含文件 -l 除了文件名之外,还将文件 ...

  10. ACM学习之路___HDU 5723(kruskal + dfs)

    Abandoned country Time Limit: / MS (Java/Others) Memory Limit: / K (Java/Others) Total Submission(s) ...