100台机器上海量IP如何查找出现频率 Top 100？

场景题

有 100 机器，每个机器的磁盘特别大，磁盘大小为 1T，但是内存大小只有 4G，现在每台机器上都产生了很多 ip 日志文件，每个文件假设有50G，那么如果计算出这 100 太机器上访问量最多的 100 ip 呢？也就是Top 100。

思路

其实，一开始我有往布隆过滤器那边考虑，但是布隆过滤器只能大致的判断一个 ip 是否已经存在，而不能去统计数量，不符合该场景。

那么一般这种大数据的问题，都是因为一次不能完全加载到内存，因此需要拆分，那怎么拆呢？ip是32位的，也就是最多就 2³² 个，常见的拆分方法都是 哈希：

把大文件通过哈希算法分配到不同的机器
把大文件通过哈希算法分配到不同的小文件

上面所说，一台机器的内存肯定不能把所有的 ip 全部加载进去，必须在不同机器上先 hash 区分，先看每台机器上，50G 文件，假设我们分成 100 个小文件，那么平均每个就500M，使用 Hash 函数将所有的 ip 分流到不同的文件中。

这个时候相同的 ip 一定在相同的文件中，当然不能排除数据全部倾斜于一个文件的情况，也就是虽然 hash了，但是由于个别ip或者hash值相同的ip太多了，都分到了个别文件上，那么这个时候分流后的文件依旧很大。这种情况我能想到的就是要是文件还是很大，需要再hash，如果基本属于同一个ip，那么这个时候就可以分批次读取，比如一次只读 1G 到内存。

在处理每个小文件时，使用 HashMap 来统计每个 ip 出现的频率，统计完成后，遍历，用最小根堆，获取出现频率最大的100个ip。这个时候，每个小文件都获取到了出现频率最大的100个 ip，然后每个文件的 Top 100 个ip 再进行排序即可（每个文件的top100 都是不一样的，因为前面进行 hash 之后保证相同的 ip 只会落到同一个文件里）。这样就可以得到每台机器上的 Top 100。

不同机器的 Top 100 再进行 加和 并 排序,就可以得到Top 100 的ip。

为什么加和？因为不同机器上可能存在同样的ip，前面的hash操作只是确保同一个机器的不同文件里面的ip一定不一样。

但是上面的操作有什么瑕疵么？当然有！

假设我们又两台机器，有一台机器 C1 的top 100 的ip是 192.128.1.1，top 101 是 192.128.1.2,那么就可能存在另一台机器 C2 上 192.128.1.1 可能从来没有出现过，但是 192.128.1.2 却也排在 top 101,其实总数上 192.128.1.2 是超过192.128.1.1，但是很不幸的是，我们每台机器只保存了 top100，所以它在计算过程中被淘汰了，导致结果不准确。

解决方案：

先用 hash 算法，把 ip 按照 hash 值哈希到不同的机器上，保证相同的ip在相同的机器上，再对每个机器上的ip文件再hash成小文件，这个时候再分别统计小文件的出现频次，用最小根堆处理，不同文件的结果排序，就可以得到每台机器的top 100，再进行不同机器之间的结果排序，就可以得到真正的 top 100。

一般而言，像这种海量数据，比如 有一个包含100亿个URL的大文件,假设每个URL占用64B,请找出其中所有重复的URL. ,内存一次性读不下，只能通过分而治之。

hash 到不同的小文件，一直这样划分，直到满足资源的限制：

hash分流
hash表统计
最小堆/外部排序

如果允许一定的误差存在，其实还可以考虑使用布隆过滤器（Bloom filter）,将URL挨个映射到每一个Bit，在此之前判断该位置是否映射过，来证明它是否已经存在。（有一定的概率出现误判，因为其他的URL也可能会映射到同一位置）

【作者简介】：

秦怀，公众号【秦怀杂货店】作者，技术之路不在一时，山高水长，纵使缓慢，驰而不息。个人写作方向：Java源码解析，JDBC，Mybatis，Spring，redis，分布式，剑指Offer，LeetCode等，认真写好每一篇文章，不喜欢标题党，不喜欢花里胡哨，大多写系列文章，不能保证我写的都完全正确，但是我保证所写的均经过实践或者查找资料。遗漏或者错误之处，还望指正。

剑指Offer全部题解PDF

2020年我写了什么？

开源编程笔记

100台机器上海量IP如何查找出现频率 Top 100？的更多相关文章

大数据学习day17------第三阶段-----scala05------1.Akka RPC通信案例改造和部署在多台机器上 2. 柯里化方法 3. 隐式转换 4 scala的泛型
1.Akka RPC通信案例改造和部署在多台机器上 1.1 Akka RPC通信案例的改造(主要是把一些参数不写是) Master package com._51doit.akka.rpc impo ...
shell远程操作另外一台机器上数据
shell远程操作另外一台机器上的数据,有两种方式: 1 .配置免密登陆,2.使用sshpass 当前存在两台虚拟机,ip地址分别为:192.168.3.32 192.168.3.33 一.免密登陆操 ...
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法
window下在同一台机器上安装多个版本jdk,修改环境变量不生效问题处理办法本机已经安装了jdk1.7,而比较早期的项目需要依赖jdk1.6,于是同时在本机安装了jdk1.6和jdk1.7. 安装 ...
不要将缓存服务器与Tomcat放在单台机器上，否则出现竞争内存问题
缓存分为本地缓存和远程分布式缓存,本地缓存访问速度更快但缓存数据量有限,同时存在与应用程序争用内存的情况. 1.不要将缓存服务器与Tomcat放在单台机器上,否则出现竞争内存问题 2.不要将缓存服务器 ...
通过Mouse Without Borders在多台机器上共享键盘鼠标
博客搬到了fresky.github.io - Dawei XU,请各位看官挪步.最新的一篇是:通过Mouse Without Borders在多台机器上共享键盘鼠标.
在同一台机器上让Microsoft SQL Server 2000/ SQL2005/ SQL2008共存
可能很多朋友都遇到想同时在自己的机器上运行Microsoft SQL Server 2000以及Microsoft SQL Server 2005和Microsoft SQL Server 2008. ...
一台机器上运行多个ActiveMq
由于业务需要一台机器上运行多个ActiveMq,这里主要说一下有什么地方不重复: 1.brokerName名称不能重复 2.端口号不能重复uri = tcp://localhost:50509 3.k ...
如何在同一台机器上安装多个MySQL的实例
转自:'http://www.cnblogs.com/shangzekai/p/4375271.html 最近由于工作的需要,需要在同一台机器上搭建两个MySQL的实例,(注:已经存在了一个3306的 ...
Nginx一台机器上负载均衡多个Tomcat
默认你的机器上安装了Java环境,解压了Tomcat,安装了Nginx.默认这几个tomcat都部署在一台机器上. 对于Tomcat需要改三个地方[你部署的所有tomcat这三个地方都不能一样,如果你 ...

随机推荐

关于 java编程思想第五版《On Java 8》
On Java 8中文版英雄召集令这是该项目的GITHUB地址:https://github.com/LingCoder/OnJava8 广招天下英雄,为开源奉献!让我们一起来完成这本书的翻译吧! ...
在Spring中使用静态工厂时发生的无法得到对象的问题
因为我测试时,使用的是之前的包Spring 3.x一类的jar包,发现我的代码毫无问题,但是就是运行不出来,后面去Spring官网上发现,JDK6+至少都要使用Spring4.x了,而为了配合JDK8 ...
轻量级日志收集方案Loki
先看看结果有多轻量吧官方文档:https://grafana.com/docs/loki/latest/ 简介 Grafana Loki 是一个日志聚合工具,它是功能齐全的日志堆栈的核心. Loki ...
解决Openstack Dashboard无法获取实例故障
在部署配置完openstack基础服务以及dashboard后.登录页面发现很多功能都不正常,无法获取实例,也无法获取镜像. 查看日志 [root@openstack-controller-dev ~ ...
Go依赖包管理--间接依赖
目录 1.indirect含义 1.2 直接依赖未启用 Go module 1.2 直接依赖 go.mod 文件不完整 2.总结 1.indirect含义在使用 Go module 过程中,随着引入 ...
Mybatis-技术专区-如何清晰的解决出现「多对一模型」和「一对多模型」的问题
前提介绍在mybatis如何进行多对一.一对多(一对一)的多表查询呢?本章带你认识如何非常顺滑的解决! 基础使用篇一对一 association association通常用来映射一对一的关系,例 ...
redux的使用
1.redux的使用核心概念 action 动作的对象包含2个属性 type:标识属性, 值为字符串, 唯一, 必要属性 data:数据属性, 值类型任意, 可选属性例子:{ type: 'AD ...
记一次 .NET 某新能源汽车锂电池检测程序 UI挂死分析
更多高质量干货:参见我的 GitHub: dotnetfly 一:背景 1. 讲故事这世间事说来也奇怪,近两个月有三位朋友找到我,让我帮忙分析下他的程序hangon现象,这三个dump分别涉及: 医 ...
SpringBoot详解（一）——
https://www.cnblogs.com/lifullmoon/p/14957771.html https://www.cnblogs.com/lifullmoon/p/14957751.htm ...
python打包发布自己的pip项目
原文链接:https://blog.csdn.net/Liangjun_Feng/article/details/80037315 一.注册pypi账号网址:https://pypi.org/ 直接 ...

100台机器上海量IP如何查找出现频率 Top 100？

场景题

思路

100台机器上海量IP如何查找出现频率 Top 100？的更多相关文章

随机推荐

热门专题