海量数据统计topK

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

思路：

把这1G的数据一次性全部读入内存是不可能了，可以每次读一行，然后将该词存到一个哈希表里去，哈希表的value是词出现的次数。

现在的问题是，这个哈希表有多大，能不能装载1M的内存中去。

假设这1G文件里每个词都不一样，那么最多有不同的1G/1Byte = 1G个词，一个哈希表的节点中包含了单词(key)，频率(value),next指针，则内存至少要24bytes * 1G，这显然大大超了。不过如果题目告诉我们顶多有一百万个不同的词，那么 24bytes*1M=24M，对于大多数的机器，这个哈希表是可以建立的，当然此题内存只有1M，连24M的哈希表都装不下。

因此我们的第一步是将所有的词分到不同的文件中去，相同的词要分到相同的文件中去。这样文件的规模小了，建立的哈希表也就小了。

将单词的哈希值对5000取模，根据结果将单词分配到5000个文件中去。这样，平均情况下，一个文件中有1G/5000 = 0.2M个词，哈希表基本上能装得下了。

对每个文件进行hashmap统计，将词与频率写到一个新的文件中，得到5000个新文件。

维护一个100个节点的最小堆，依次读5000个文件中的每一条记录。如果频率小于堆顶，证明该词比堆里的100个单词频率都低，不可能进top100，舍弃。如果频率大于堆顶，就将该词至于堆顶，然后调用维护函数，维护最小堆的性质。所有的记录遍历完了，最小堆中的单词就是结果。

总结：

哈希表的大小不是根据单词的数量，而是根据不同单词的数量。

最大的topK用最小堆，最小的topK用最大堆。

算法的时间复杂度：

分小文件 O(n)

hashmap统计 O(n)

维护最小堆 O(n'logK) n'是不同的单词数，K是topK

海量数据统计topK的更多相关文章

【UV统计】海量数据统计的前世今生
转载请注明出处背景在互联网公司中,每个项目都需要数据统计.分析,便于项目组利用详细数据研究项目的整体情况,进行下一步的调整.在数据统计中,UV统计是最常见的,也是最普遍的.有的场景要求实时性很高, ...
Redis 实战篇：巧用Bitmap 实现亿级海量数据统计
在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合. 常见的场景如下: 给一个 userId ,判断用户登陆状态: 显示用户某个月的签到次数和首次签到时间: 两亿用户最近 ...
PHP内核探索之变量（7）- 不平凡的字符串
切,一个字符串有什么好研究的. 别这么说,看过<平凡的世界>么,平凡的字符串也可以有不平凡的故事.试看: (1) 在C语言中,strlen计算字符串的时间复杂度是?PHP中呢? ...
我的阿里、腾讯暑期实习Offer经历
三四月份对我拿来说是个忙碌的两个月,实验室项目到了关键的时刻,自己又需要抽身去找暑期实习,总之过得很快.值得欣慰的是幸运的拿到了阿里和腾讯的暑期实习offer,也算是对三四月份的忙碌一些回报吧.阿里的 ...
人脸检测及识别python实现系列（3）——为模型训练准备人脸数据
人脸检测及识别python实现系列(3)——为模型训练准备人脸数据机器学习最本质的地方就是基于海量数据统计的学习,说白了,机器学习其实就是在模拟人类儿童的学习行为.举一个简单的例子,成年人并没有主动 ...
目标检测的评价标准mAP, Precision, Recall, Accuracy
目录 metrics 评价方法 TP , FP , TN , FN 概念计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 A ...
巨杉Tech | SparkSQL+SequoiaDB 性能调优策略
当今时代,企业数据越发膨胀.数据是企业的价值,但数据处理也是一种技术挑战.在海量数据处理的场景,即使单机计算能力再强,也无法满足日益增长的数据处理需求.所以,分布式才是解决该类问题的根本解决方案.而在 ...
Redis 面霸篇：高频问题横扫核心知识点
「码哥字节」从高频面试问题跟大家一起横扫 Redis 核心知识点,从根本上理解 Redis ,不做八股文的工具人,做扭转乾坤的大神. 码哥到如今已经写了 9 篇 Redis 连载,后台有小伙伴也让我写 ...
Redis分布式缓存剖析及大厂面试精髓v6.2.6
概述官方说明 Redis官网 https://redis.io/ 最新版本6.2.6 Redis中文官网 http://www.redis.cn/ 不过中文官网的同步更新维护相对要滞后不少时间,但对 ...

随机推荐

Render2
https://blog.csdn.net/wf19930209/article/details/81109388
Ansible 利用playbook批量部署mariadb
环境说一下 192.168.30.21 ansible 192.168.30.25 client1 192.168.30.26 client2 这里我的ansible环境已经部 ...
（2）搜索广告CTR预估
https://www.cnblogs.com/futurehau/p/6184585.html 1. CTR预估的流程数据 -> 预处理 ->特征抽取 ->模型训练 ->后 ...
enote笔记语言（3）
what&why(why not)&how&when&where&which:紫色,象征着神秘而又潜蕴着强大的力量,故取紫色. key&key-memo ...
Vector 和 Array 区别
1:array 定义的时候必须定义数组的元素个数;而vector 不需要:且只能包含整型字面值常量,枚举常量或者用常量表达式初始化的整型const对象, 非const变量以及需要到运行阶段才知道其值的 ...
关于预测io调用的思考
什么是预测io 预测io是linux2.6版本内核调用默认的调用程序,对应用程序进行跟踪,统计应用程序使用io情况,在读操作返回之前先停顿6ms时间(linux默认时间),如果这期间有读操作过来,可以 ...
TCP/IP UDP 协议首部及数据进入协议栈封装的过程
数据的封装 UDP 封装 TCP 封装 IP 封装检验和算法当应用程序用TCP传送数据时,数据被传送入协议栈中,然后逐一通过每一层直到被当作一串比特流送入网络注: UDP数据TCP数据基本一致. ...
《零压力学Python》之第四章知识点归纳
第四章(决策和循环)知识点归纳 if condition: indented_statements [ elif condition: Indented_statements] [else: Inde ...
NetworkManager
网络管理器(NetworManager)是检测网络.自动连接网络的程序.无论是无线还是有线连接,它都可以令您轻松管理.对于无线网络,网络管理器优先连接已知的网络并可以自动切换到最可靠的无线网络.利用网 ...
暑假集训D16总结
考试日常爆炸= = T1 一看就是个树规,然而不会写方程= = T2 一看就是个分块,然而不会分= = T3 终于有点头绪,推了两个小时的30分部分分情况,然后打挂了= = 我玩个鬼啊其实听完,觉 ...

海量数据统计topK

海量数据统计topK的更多相关文章

随机推荐

热门专题