14海量日志提取出现次数最多的IP

问题描述：现有某网站海量日志数据，提取出某日访问该网站次数最多的那个IP。

分析：IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 如果将每个IP地址看做是数组的索引的话，那么需要创建一个unsigned count[N]的数组,即可统计出每个IP的访问次数,但是这个数组的大小是4G*4=16G,
远远超过了32位计算机所支持的内存大小,因此不能直接创建这个数组。

采用划分法解决这个问题，假设允许使用的内存是512M，512M内存可以统计128M个不同的IP地址的访问次数。而4G/128M = 32，所以只要把IP地址划分成32个不同的区间，分别统计出每个区间中访问次数最大的IP，然后就可以计算出所有IP地址中访问次数最大的IP了。

可以把IP地址的最高5位作为区间编号, 剩下的27位作为区间内的值,建立32个临时文件，代表32个区间,把相同区间的IP地址保存到同一的临时文件中。

例如：ip=0x1f4e2342，高5位id=ip>>27=0x11=3，低27位是value=ip&0x07ffffff = 0x074e2342。所以，当扫描到IP为0x1f4e2342时，将value保存在tmp3文件中。

按照上面的方法扫描海量日志，可以得到32个临时文件,每个临时文件中的IP地址的取值范围属于[0-128M),因此可以统计出每个IP地址的访问次数。从而找到访问次数最大的IP地址。

代码如下：

#define N 32 //临时文件数

#define ID(x) (x>>27) //x对应的文件编号

#define VALUE(x) (x&0x07ffffff) //x在文件中保存的值

#define MAKE_IP(x,y) ((x<<27)|y) //由文件编号和值得到IP地址.

#define MEM_SIZE 128*1024*1024

char * data_path = "D:/test/ip.dat"; //ip数据

//产生n个随机IP地址

void make_data(const int& n)

//找到访问次数最大的ip地址

int main()

{

make_data(100000000); //产生测试用的IP数据

fstream arr[N];

for (int i=0; i<N; ++i) //创建N个临时文件

{

char tmp_path[128];

sprintf(tmp_path,"D:/test/tmp%d.dat",i);

arr[i].open(tmp_path,ios::trunc|ios::in|ios::out|ios::binary); //打开第i个文件

if( !arr[i])

{

cout<<"openfile"<<i<<"error"<<endl;

}

ifstreaminfile(data_path,ios::in|ios::binary); //读入测试用的IP数据

unsigned data;

while(infile.read((char*)(&data),sizeof(data)))

{

unsigned val=VALUE(data);

int key=ID(data);

arr[key].write((char*)(&val),sizeof(val)); //保存到临时文件件中

}

for(unsigned i=0; i<N; ++i)

{

arr[i].seekg(0);

}

unsigned max_ip = 0; //出现次数最多的ip地址

unsigned max_times = 0; //最大只出现的次数

//统计每个数出现的次数

unsigned *count = newunsigned[MEM_SIZE];

for (unsigned i=0; i<N; ++i)

{

memset(count, 0,sizeof(unsigned)*MEM_SIZE);

//统计每个临时文件件中不同数字出现的次数

unsigned data;

while(arr[i].read((char*)(&data),sizeof(unsigned)))

{

++count[data];

}

//找出出现次数最多的IP地址

for(unsigned j=0; j<MEM_SIZE;++j)

{

if(max_times<count[j])

{

max_times = count[j];

max_ip = MAKE_IP(i,j); //
恢复成原ip地址.

}

unsigned char *result=(unsigned char *)(&max_ip);

printf("出现次数最多的IP为:%d.%d.%d.%d,共出现%d次", result[0],result[1], result[2], result[3], max_times);

}

(http://blog.csdn.net/v_july_v/article/details/6712171)

14海量日志提取出现次数最多的IP的更多相关文章

使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页
使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页方法1:linux下使用awk命令 # cat access1.log | awk '{print $1" &q ...
从一亿个ip找出出现次数最多的IP(分治法)
/* 1,hash散列 2,找到每个块出现次数最多的(默认出现均匀)—–>可以用字典树 3,在每个块出现最多的数据中挑选出最大的为结果 */ 问题一: 怎么在海量数据中找出重复次数最多的一个算 ...
利用shell脚本统计文件中出现次数最多的IP
比如有如下文件test.txt 1 134.102.173.43 2 134.102.173.43 3 134.102.171.42 4 134.102.170.9 要统计出现次数最多的IP可 ...
BAT面试上机题从3亿个ip中找出访问次数最多的IP详解
我们面临的问题有以下两点:1)数据量太大,无法在短时间内解决:2)内存不够,没办法装下那么多的数据.而对应的办法其实也就是分成1)针对时间,合适的算法+合适的数据结构来提高处理效率:2)针对空间,就是 ...
从大量的IP访问记录中找到访问次数最多的IP
1.内存不受限一个IP有32bit(4Byte),1GB=10亿,那么在4GB内存的情况下,可以存10亿个IP.用HashMap,边存入IP边维护一个最大次数,这样遍历一遍就可以求出,时间复杂度为O ...
统计Apache或nginx日志里访问次数最多的前十个IP
1.根据访问IP统计UV awk '{print $1}' access.log|sort | uniq -c |wc -l 2.统计访问URL统计PV awk '{print $7}' access ...
统计nginx日志里访问次数最多的前十个IP
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr -k1 | head -n 10
查询nginx访问日志中访问次数最多的前10个IP地址
cat log | cut -d ' ' -f 1 | sort | uniq -c | sort -nr | awk '{print $0}' | head -n 10
海量日志数据提取某日访问百度次数最多的那个IP的Java实现
海量日志数据提取某日访问百度次数最多的那个IP的Java实现前几天在网上看到july的一篇文章<教你如何迅速秒杀掉:99%的海量数据处理面试题>,里面说到百度的一个面试题目,题目如下: ...

随机推荐

关于 linux 的 limit 的设置
以下内容参考链接 1.file-max系统最大打开文件描述符数永久性:在/etc/sysctl.conf中设置 2.nr_open是单个进程可分配的最大文件数. 内核支持的最大file handle ...
OPGL+GLFW+GLEW配置详细步骤
转载自:https://blog.csdn.net/weixin_40921421/article/details/80211813 本文设计的工具包: 链接:https://pan.baidu.co ...
策略模式(Strategy)（策略类，场景不同策略不同，环境策略分离组合，）
(定义一组算法,将每个算法都封装起来,并且使它们之间可以互换.) 例:button 与 listener ,在使用时具体根据情况实例化listener,做不同的操作. 背景在软件开发中常常遇到这 ...
hive如何配置支持事务及insert、update、delete
Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置.要想支持行级insert.update.delete,需要配置Hive支持事务. 一.Hive具有ACID语义事务的 ...
TYVJ4239 [NOIP2015提高组DayT3]斗地主
P2668 斗地主题目描述牛牛最近迷上了一种叫斗地主的扑克游戏.斗地主是一种使用黑桃.红心.梅花.方片的A到K加上大小王的共54张牌来进行的扑克牌游戏.在斗地主中, 牌的大小关系根据牌的数码表示如 ...
使用pip安装pymysql
本人使用的python版本是3.6,该版本是自带有pip.可以直接通过pip工具进行安装pymysql: 第一步:找到pip.exe路径. 例如我安装的目录如下,自带的pip工具的python版本,在 ...
一位AI研究员+区块链创业者的终极展望：AI DAO将统治世界
一位AI研究员+区块链创业者的终极展望:AI DAO将统治世界 [日期:2017-01-09] 来源:infoq.com 作者:杨赛 [字体:大中小] Trent McConaghy是一位资深的 ...
Django 的逆向解析url（转）
Django中提供了一个关于URL的映射的解决方案,你可以做两个方向的使用: 1.有客户端的浏览器发起一个url请求,Django根据URL解析,把url中的参数捕获,调用相应的试图, 获取相应的数据 ...
去掉CSS赘余代码，CSS可以更简洁
本篇文章适合css新手学习,对于已经掌握了css的朋友们也可以通过本片文章来复习知识. 作者通过实践,认为在有些情况下css的代码是可以更加简洁的,多数情况下是因为新手对于一些具有多属性的元素代码不能 ...
JAVA的一次编译，到处执行，你知道多少？
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/wangyongxia921/article/details/28117155 一.对AVA的迷茫 ...

14海量日志提取出现次数最多的IP

14海量日志提取出现次数最多的IP的更多相关文章

随机推荐

热门专题