二、基于hadoop的nginx访问日志分析---计算日pv

代码：

# pv_day.py
#!/usr/bin/env python

# coding=utf-8

from mrjob.job import MRJob

from nginx_accesslog_parser import NginxLineParser

class PvDay(MRJob):

    nginx_line_parser = NginxLineParser()

    def mapper(self, _, line):

        self.nginx_line_parser.parse(line)

        day, _ = str(self.nginx_line_parser.time_local).split()

        yield day, 1 # 每一天的

    def reducer(self, key, values):

        yield key, sum(values)

def main():

    PvDay.run()

if __name__ == '__main__':

    main()

代码解释：

定义了一个集成MRJob类的job类，这个类包含定义好的steps。

一个‘step’包含一个mapper，combiner和一个reducer，这些是可选的，但是必须使用至少一个。

mapper()方法有两个参数key,value（这个例子中，key被忽略，每行日志作为一个value），并生成key-value对。

reduce()方法接受一个key和一个可迭代的values，并生成许多key-value对（这个例子中，计算每个key对应values值得和，也就是每天对应的PV）。

以不同方式执行job：

基本方式：

# python3 pv_day.py access_all.log-20161227

No configs found; falling back on auto-configuration

Creating temp directory /tmp/pv_day.root.20161228.022837.113256

Running step 1 of 1...

Streaming final output from /tmp/pv_day.root.20161228.022837.113256/output...

"2016-12-27"    47783

"2016-12-26"    299427

Removing temp directory /tmp/pv_day.root.20161228.022837.113256...

标准输入stdin方式，这种方式只接受第一个文件

# python3 pv_day.py < access_all.log-20161227

No configs found; falling back on auto-configuration

Creating temp directory /tmp/pv_day.root.20161228.024431.884434

Running step 1 of 1...

reading from STDIN

Streaming final output from /tmp/pv_day.root.20161228.024431.884434/output...

"2016-12-27"    47783

"2016-12-26"    299427

Removing temp directory /tmp/pv_day.root.20161228.024431.884434...

混合方式：

python3 pv_day.py input1.txt input2.txt - < input3.txt

分布式：

默认情况下，mrjob执行job使用单个Python进程，这里只是调试，并不是精确的分布式计算！

如果使用分布式计算，可以使用 -r/--runner选项。使用 -r inline（默认）， -r local, -r hadoop, -r emr

# python pv_day.py -r hadoop hdfs://my_home/input.txt

另一种方法：

# cat pv_day1.py

#!/usr/bin/env python

# coding=utf-8

from mrjob.job import MRJob

from mrjob.step import MRStep

from nginx_accesslog_parser import NginxLineParser

class PvDay(MRJob):

    nginx_line_parser = NginxLineParser()

    def mapper(self, _, line):

        self.nginx_line_parser.parse(line)

        day, _ = str(self.nginx_line_parser.time_local).split()

        yield day, 1 # 每一天的

        yield 'total', 1 # 总的

    def reducer_sum(self, key, values):

        yield None, (sum(values), key)

    def reducer_sort(self, _, values):

        for count, dt in sorted(values, reverse=True):

            yield dt, count

    def steps(self):

        return (

            MRStep(mapper=self.mapper,

                   reducer=self.reducer_sum),

            MRStep(reducer=self.reducer_sort)

        )

def main():

    PvDay.run()

if __name__ == '__main__':

    main()

执行结果：

# python3 pv_day1.py access_all.log-20161227

No configs found; falling back on auto-configuration

Creating temp directory /tmp/pv_day1.root.20161228.061455.974823

Running step 1 of 2...

Running step 2 of 2...

Streaming final output from /tmp/pv_day1.root.20161228.061455.974823/output...

"total"    347210

"2016-12-26"    299427

"2016-12-27"    47783

Removing temp directory /tmp/pv_day1.root.20161228.061455.974823...

二、基于hadoop的nginx访问日志分析---计算日pv的更多相关文章

三、基于hadoop的nginx访问日志分析--计算时刻pv
代码: # cat pv_hour.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_acc ...
一、基于hadoop的nginx访问日志分析---解析日志篇
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接 ...
四、基于hadoop的nginx访问日志分析---top 10 request
代码: # cat top_10_request.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mr ...
五、基于hadoop的nginx访问日志分析--userAgent和spider
useragent: 代码(不包含蜘蛛): # cat top_10_useragent.py #!/usr/bin/env python # coding=utf-8 from mrjob.job ...
nginx访问日志分析，筛选时间大于1秒的请求
处理nginx访问日志,筛选时间大于1秒的请求 #!/usr/bin/env python ''' 处理访问日志,筛选时间大于1秒的请求 ''' with open('test.log','a+' ...
Nginx 访问日志分析
0:Nginx日志格式配置 # vim nginx.conf ## # Logging Settings ## log_format access '$remote_addr - $remote_us ...
Nginx访问日志分析
nginx默认的日志格式 log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$sta ...
13 Nginx访问日志分析
#!/bin/bash export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin # Nginx 日志格式: # ...
利用GoAccess分析Nginx访问日志
原文链接:https://blog.csdn.net/yown/article/details/56027112 需求:及时得到线上用户访问日志分析统计结果,以便给开发.测试.运维.运营人员提供决策! ...

随机推荐

iOS加密方式及解压缩文件
Base64加密方式 Base64是一种加密方法,可逆的加密. Base64中的可打印字符包括字母A-Z.a-z.数字0-9,这样共有62个字符./ + 填充 = echo -n BC|base64 ...
T-SQL 转义select … like中的特殊字符(百分号)
众所周知,T-SQL中LIKE运算符使用%符号表示通配符.很多时候可能需要查询包含有%的数据,比如需要查询字段coupon中含有5%的数据.那么如何使用已经有百分号(%)符号的LIKE搜索字符串呢? ...
ab
ab is a tool for benchmarking your Apache Hypertext Transfer Protocol (HTTP) server. It is designed ...
shell脚本批量收集linux服务器的硬件信息快速实现
安装ansible批量管理系统.(没有的话,ssh远程命令循环也可以) 在常用的数据库里面新建一张表,用你要收集的信息作为列名,提供可以用shell插入.
[iOS]技巧集锦：UICollectionView在旋转屏幕后Cell中的约束不起作用或自动布局失效
这似乎是iOS的一个BUG(ref: stackoverflow的大神们讲的) 解决方案在继承自UITableViewCell的子类中的init方法中加入如下设置: self.contentView ...
最实用的IT类网站及工具大集合
1.聚合数据大家在开发过程中,可能会用到各种各样的数据,想找一些接口来提供一些数据.比如天气预报查询,火车时刻表查询,彩票查询,身份证查询等等.有了这个接口,直接调用即可.各种各样的API接口满足你 ...
让我们用心感受泛型接口的协变和抗变out和in
关键字out和in相信大家都不陌生,系统定义的很多泛型类型大家F12都或多或少看见了.但是实际中又很少会用到,以前在红皮书里看到,两三页就介绍完了.有的概念感觉直接搬出来的,只是说这样写会怎样,并没有 ...
Linux 内核版本命名
Linux 内核版本命名在不同的时期有其不同的规范,我们熟悉的也许是 2.x 版本奇数表示开发版.偶数表示稳定版,但到 2.6.x 以及 3.x 甚至将来的 4.x ,内核版本命名都不遵守这样的约定. ...
LLDB基础知识
LLDB基础知识 LLDB控制台 Xcode中内嵌了LLDB控制台,在Xcode中代码的下方,我们可以看到LLDB控制台. LLDB控制台平时会输出一些log信息.如果我们想输入命令调试,必须让程序进 ...
升级xcode8之后出现报错提示，提示swift版本问题
最近Xcode升级了,出现了各种蛋疼的错误提示,今天遇到个导入框架出现了提示Swift版本的问题,具体如下: "Use Legacy Swift Language Version" ...

二、基于hadoop的nginx访问日志分析---计算日pv

代码：

代码解释：

以不同方式执行job：

二、基于hadoop的nginx访问日志分析---计算日pv的更多相关文章

随机推荐

热门专题