五、基于hadoop的nginx访问日志分析--userAgent和spider

useragent：

代码（不包含蜘蛛）：

# cat top_10_useragent.py

#!/usr/bin/env python

# coding=utf-8

from mrjob.job import MRJob

from mrjob.step import MRStep

from nginx_accesslog_parser import NginxLineParser

import heapq

class UserAgent(MRJob):

    nginx_line_parser = NginxLineParser()

    def mapper(self, _, line):

        self.nginx_line_parser.parse(line)

        field_item = self.nginx_line_parser.http_user_agent

        if field_item is not None:

            yield field_item, 1

    def reducer_sum(self, key, values):

        yield None, (sum(values), key)

    def reducer_top100(self, _, values):

        for count, path in heapq.nlargest(10, values):

            yield count, path

       # for count, path in sorted(values, reverse=True)[:10]:

       #    yield count, path

    def steps(self):

        return (

            MRStep(mapper=self.mapper,

                   reducer=self.reducer_sum

                   ),

            MRStep(reducer=self.reducer_top100)

        )

def main():

    UserAgent.run()

if __name__ == '__main__':

    main()

结果：

# python3 top_10_useragent.py access_all.log-20161227

No configs found; falling back on auto-configuration

Creating temp directory /tmp/top_10_useragent.root.20161228.090725.308144

Running step 1 of 2...

Running step 2 of 2...

Streaming final output from /tmp/top_10_useragent.root.20161228.090725.308144/output...

85262    "IE"

79611    "Chrome"

48560    "Other"

10662    "Firefox"

7927    "Mobile Safari UI/WKWebView"

7182    "Sogou Explorer"

6681    "QQ Browser"

1988    "Mobile Safari"

1781    "Maxthon"

1404    "Edge"

Removing temp directory /tmp/top_10_useragent.root.20161228.090725.308144...

蜘蛛：

#!/usr/bin/env python

# coding=utf-8

from mrjob.job import MRJob

from mrjob.step import MRStep

from nginx_accesslog_parser import NginxLineParser

import heapq

class Spider(MRJob):

    nginx_line_parser = NginxLineParser()

    def mapper(self, _, line):

        self.nginx_line_parser.parse(line)

        field_item = self.nginx_line_parser.user_agent_type

        if field_item is not None:

            yield field_item, 1

    def reducer_sum(self, key, values):

        yield None, (sum(values), key)

    def reducer_top100(self, _, values):

        for count, path in heapq.nlargest(10, values):

            yield count, path

       # for count, path in sorted(values, reverse=True)[:10]:

       #    yield count, path

    def steps(self):

        return (

            MRStep(mapper=self.mapper,

                   reducer=self.reducer_sum

                   ),

            MRStep(reducer=self.reducer_top100)

        )

def main():

    Spider.run()

if __name__ == '__main__':

    main()

执行结果：

# python3 top_10_spider.py access_all.log-20161227

No configs found; falling back on auto-configuration

Creating temp directory /tmp/top_10_spider.root.20161228.091326.295972

Running step 1 of 2...

Running step 2 of 2...

Streaming final output from /tmp/top_10_spider.root.20161228.091326.295972/output...

33542    "magpie-crawler"

25880    "Other"

16578    "Sogou web spider"

6383    "bingbot"

3688    "Baiduspider"

1487    "Yahoo! Slurp"

1096    "JikeSpider"

731    "YisouSpider"

648    "Baiduspider-image"

470    "Googlebot"

Removing temp directory /tmp/top_10_spider.root.20161228.091326.295972...

五、基于hadoop的nginx访问日志分析--userAgent和spider的更多相关文章

一、基于hadoop的nginx访问日志分析---解析日志篇
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接 ...
四、基于hadoop的nginx访问日志分析---top 10 request
代码: # cat top_10_request.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mr ...
二、基于hadoop的nginx访问日志分析---计算日pv
代码: # pv_day.py#!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_accesslog ...
三、基于hadoop的nginx访问日志分析--计算时刻pv
代码: # cat pv_hour.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_acc ...
nginx访问日志分析，筛选时间大于1秒的请求
处理nginx访问日志,筛选时间大于1秒的请求 #!/usr/bin/env python ''' 处理访问日志,筛选时间大于1秒的请求 ''' with open('test.log','a+' ...
Nginx 访问日志分析
0:Nginx日志格式配置 # vim nginx.conf ## # Logging Settings ## log_format access '$remote_addr - $remote_us ...
Nginx访问日志分析
nginx默认的日志格式 log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$sta ...
13 Nginx访问日志分析
#!/bin/bash export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin # Nginx 日志格式: # ...
采集并分析Nginx访问日志
日志服务支持通过数据接入向导配置采集Nginx日志,并自动创建索引和Nginx日志仪表盘,帮助您快速采集并分析Nginx日志. 许多个人站长选取了Nginx作为服务器搭建网站,在对网站访问情况进行分析 ...

随机推荐

ExtPB.Net：窗体应用技巧（2）在树形导航下打开弹出的win窗口
ExtPB.Net的demo程序有个树形导航菜单,里面的菜单打开的窗口放在右边的TabStrip控件中.我们可以设计win通过导航打开,但有时我们希望以弹出窗口的形式打开它,但怎么办呢?现在可以这样修 ...
dSYM 文件分析工具
来到新公司后,前段时间就一直在忙,前不久项目终于成功发布上线了,最近就在给项目做优化,并排除一些线上软件的 bug,因为项目中使用了友盟统计,所以在友盟给出的错误信息统计中能比较方便的找出客户端异 ...
Linux用户态和内核态
究竟什么是用户态,什么是内核态,这两个基本概念以前一直理解得不是很清楚,根本原因个人觉得是在于因为大部分时候我们在写程序时关注的重点和着眼的角度放在了实现的功能和代码的逻辑性上,先看一个例子: 1)例 ...
在Asp.net MVC 3 web应用程序中，我们会用到ViewData与ViewBag，对比一下：
Asp.net MVC中的ViewData与ViewBag ViewData ViewBag 它是Key/Value字典集合它是dynamic类型对像从Asp.net MVC 1 就有了 ASP. ...
[project euler] program 4
上一次接触 project euler 还是2011年的事情,做了前三道题,后来被第四题卡住了,前面几题的代码也没有保留下来. 今天试着暴力破解了一下,代码如下: (我大概是第 172,719 个解出 ...
IT技术思维导图
在网上看到有个人总结的java技术的东东,觉得很好,就保存下来了,码农还真是累啊,只有不断的学习才能有所提高,才能拿更多的RMB啊. java技术思维导图服务端思维导图前端思维导图
Android快乐贪吃蛇游戏实战项目开发教程-02虚拟方向键（一）自定义控件概述
该系列教程概述与目录:http://www.cnblogs.com/chengyujia/p/5787111.html 一.自定义控件简介在本项目中,无论是游戏主区域还是虚拟方向键都是通过自定义控件 ...
Windows操作系统下远程连接MySQL数据库
用Eclipse做一个后台项目,但是数据库不想放在本地电脑,于是买了一个腾讯云服务器(学生有优惠,挺便宜的),装上MySQL数据库,但是测试连接的时候,发现总是连接不是上,但是本地数据库可以连接,于是 ...
EXCEL中对1个单元格中多个数字求和
如A1=3779.3759.3769.3781.3750,A2对A1中4个数字求和怎么求!请高手赐教! 方法一:在B1中输入公式=SUM(MID(A1,{1,6,11,16,21},4)*1) 方法二 ...
谈c++ pb_ds库（二）红黑树大法好
厉害了,没想到翻翻pb_ds库看到这么多好东西,封装好的.现成的splay.红黑树.avl... 即使不能在考场上使用也可以用来对拍哦声明/头文件 #include <ext/pb_ds/tr ...

五、基于hadoop的nginx访问日志分析--userAgent和spider

useragent：

蜘蛛：

五、基于hadoop的nginx访问日志分析--userAgent和spider的更多相关文章

随机推荐

热门专题