一、基于hadoop的nginx访问日志分析---解析日志篇

前一阵子，搭建了ELK日志分析平台，用着挺爽的，再也不用给开发拉各种日志，节省了很多时间。

这篇博文是介绍用python代码实现日志分析的，用MRJob实现hadoop上的mapreduce，可以直接放到hadoop集群上运行。

mrjob可以让我们使用Python编写MapReduce运算，并在多个不同平台运行，你可以：

使用纯python编写multi-step MapReduce
本机测试
在hadoop集群上运行

安装mrjob

pip install mrjob

nginx访问日志格式

gamebbs.51.com 10.80.2.176 219.239.255.42 54220 [26/Dec/2016:04:34:39 +0800] "GET /forum.php?mod=ajax&action=forumchecknew&fid=752&time=1482697523&inajax=yes HTTP/1.0" 200 66 "http://gamebbs.51.com/forum.php?mod=forumdisplay&fid=752&page=1" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36 Yunhai Browser" 0.016 0.011

日志格式分为下面几个部分：

server_name（域名）: game.51.com

local_ip（本机内网IP）：10.80.2.176

client_ip（客户端IP）：219.239.255.42

remote_port（客户端建立连接端口）：54220

time_local（请求时间）：[26/Dec/2016:04:34:39 +0800]

method（请求方式）：GET

request（请求url）：/forum.php?mod=ajax&action=forumchecknew&fid=752&time=1482697523&inajax=yes HTTP/1.0

verb（http版本号）：HTTP/1.0

status（状态码）：200

body_bytes_sent：66

http_referer：http://gamebbs.51.com/forum.php?mod=forumdisplay&fid=752&page=1

http_user_agent：Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36 Yunhai Browser

request_time：0.016

upstream_response_time：0.011

处理nginx日志的类：

#!/usr/bin/env python

# coding=utf-8

import datetime

from urllib.parse import urlparse

from user_agents import parse as ua_parse

class NginxLineParser(object):

    def parse(self, line):

        """ 将 nginx 日志解析多个字段

        """

        try:

            line_item = line.strip().split('"')

            self._server_name, self._local_ip, self._client_ip, self._remote_port = line_item[0].strip().split('[')[0].split()

            self._time_local = line_item[0].strip().split('[')[-1].strip(']')

            self._method, self._request, self._verb = line_item[1].strip().split()

            self._status, self._body_bytes_sent = line_item[2].strip().split()

            self._http_referer = line_item[3].strip()

            self._http_user_agent = line_item[-2].strip()

            self._request_time, self._upstream_response_time = line_item[-1].strip().split()

        except:

            with open('/tmp/parser_log_error.txt', 'a+') as f:

                f.write(line + '\n')

    def logline_to_dict(self):

        """ 将日志段转为字典

        """

        line_field = {}

        line_field['server_name'] = self.server_name

        line_field['local_ip'] = self.local_ip

        line_field['client_ip'] = self.client_ip

        line_field['remote_port'] = self.remote_port

        line_field['time_local'] = self.time_local

        line_field['method'] = self.method

        line_field['request'] = self.request

        line_field['verb'] = self.verb

        line_field['status'] = self.status

        line_field['body_bytes_sent'] = self.body_bytes_sent

        line_field['http_referer'] = self.http_referer

        line_field['http_user_agent'] = self.http_user_agent

        line_field['request_time'] = self.request_time

        line_field['upstream_response_time'] = self.upstream_response_time

        return line_field

    @property

    def server_name(self):

        return self._server_name

    @property

    def local_ip(self):

        return self._local_ip

    @property

    def client_ip(self):

        return self._client_ip

    @property

    def remote_port(self):

        return self._remote_port

    @property

    def time_local(self):

        return datetime.datetime.strptime(self._time_local, '%d/%b/%Y:%H:%M:%S +0800')

    @property

    def method(self):

        return self._method

    @property

    def request(self):

        return urlparse(self._request).path

    @property

    def verb(self):

        return self._verb

    @property

    def body_bytes_sent(self):

        return self._body_bytes_sent

    @property

    def http_referer(self):

        return self._http_referer

    @property

    def http_user_agent(self):

        ua_agent = ua_parse(self._http_user_agent)

        if not ua_agent.is_bot:

            return ua_agent.browser.family

    @property

    def user_agent_type(self):

        us_agent = ua_parse(self._http_user_agent)

        if us_agent.is_bot:

            return us_agent.browser.family

    @property

    def status(self):

        return self._status

    @property

    def request_time(self):

        return self._request_time

    @property

    def upstream_response_time(self):

        return self._upstream_response_time

def main():

    """程序执行入口

    """

    ng_line_parser = NginxLineParser()

    with open('test.log', 'r') as f:

        for line in f:

            ng_line_parser.parse(line)

if __name__ == '__main__':

    main()

该类主要有两个方法：

parse：将日志行解析为几个字段
logline_to_dict：将解析好的日志段转为字典类型

一、基于hadoop的nginx访问日志分析---解析日志篇的更多相关文章

四、基于hadoop的nginx访问日志分析---top 10 request
代码: # cat top_10_request.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mr ...
二、基于hadoop的nginx访问日志分析---计算日pv
代码: # pv_day.py#!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_accesslog ...
五、基于hadoop的nginx访问日志分析--userAgent和spider
useragent: 代码(不包含蜘蛛): # cat top_10_useragent.py #!/usr/bin/env python # coding=utf-8 from mrjob.job ...
三、基于hadoop的nginx访问日志分析--计算时刻pv
代码: # cat pv_hour.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_acc ...
快速搭建ELK7.5版本的日志分析系统--搭建篇
title: 快速搭建ELK7.5版本的日志分析系统--搭建篇一.ELK安装部署官网地址:https://www.elastic.co/cn/ 官网权威指南:https://www.elastic ...
【转】阿里巴巴技术专家杨晓明：基于Hadoop技术进行地理空间分析
转自:http://www.csdn.net/article/2015-01-23/2823687-geographic-space-base-Hadoop [编者按]交通领域正产生着海量的车辆位置点 ...
基于ELK进行邮箱访问日志的分析
公司希望能够搭建自己的日志分析系统.现在基于ELK的技术分析日志的公司越来越多,在此也记录一下我利用ELK搭建的日志分析系统. 系统搭建系统主要是基于elasticsearch+logstash+f ...
centos7搭建ELK Cluster集群日志分析平台
应用场景:ELK实际上是三个工具的集合,ElasticSearch + Logstash + Kibana,这三个工具组合形成了一套实用.易用的监控架构, 很多公司利用它来搭建可视化的海量日志分析平台 ...
centos7搭建ELK Cluster集群日志分析平台（一）：Elasticsearch
应用场景: ELK实际上是三个工具的集合,ElasticSearch + Logstash + Kibana,这三个工具组合形成了一套实用.易用的监控架构, 很多公司利用它来搭建可视化的海量日志分析平 ...

随机推荐

.NET/ASP.NET MVC Controller 控制器（IController控制器的创建过程）
阅读目录: 1.开篇介绍 2.ASP.NETMVC IControllerFactory 控制器工厂接口 3.ASP.NETMVC DefaultControllerFactory 默认控制器工厂 4 ...
sublime3 集成angularJs插件
sublime是web开发中一款轻量级高效编辑器,十分适合前端开发(安装sublime是需要注册的,请支持正版) 1.安装sublime3(http://www.sublimetext.com/3) ...
jquery $.trim()去除字符串空格详解
jquery $.trim()去除字符串空格详解语法 jQuery.trim()函数用于去除字符串两端的空白字符. 作用该函数可以去除字符串开始和末尾两端的空白字符(直到遇到第一个非空白字符串为止 ...
Jquery操作cookie，实现简单的记住用户名的操作
一.jquery.cookie.js介绍 jquery.cookie.js是一个基于jquery的插件,一个轻量级的cookie 插件,可以读取.写入.删除 cookie. jquery.cook ...
Apache 安装配置详情
本次文章讲解Apache的安装和基本的配置输入PHP环境搭建的一部分 PHP完整配置信息请参考 http://www.cnblogs.com/azhe-style/p/php_new_env_bui ...
使用expect scp避免直接输密码
需求:现在有一百多台的机器,都是使用用户名密码登录做一些运维操作,不想因为密码变更造成管理上的一些麻烦,所以改为通过密钥文件的方式进行登录,需要提前做一些准备工作,把准备好的.SSH文件复制到各机器的 ...
mysql5.7 root password change
mysqld_safe --skip-grant-tables &update mysql.user set authentication_string=password('Root_1234 ...
uva 1354 Mobile Computing ——yhx
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAABGcAAANuCAYAAAC7f2QuAAAgAElEQVR4nOy9XUhjWbo3vu72RRgkF5
更新chrom遇到flash过期解决办法
更新chrom遇到flash过期解决办法百度最新adobe flash player ppapi最新版下载并安装,重启浏览器即可
网格弹簧质点系统模拟（Spring-Mass System by Fast Method）附源码
弹簧质点模型的求解方法包括显式欧拉积分和隐式欧拉积分等方法,其中显式欧拉积分求解快速,但积分步长小,两个可视帧之间需要多次积分,而隐式欧拉积分则需要求解线性方程组,但其稳定性好,能够取较大的积分步长. ...

一、基于hadoop的nginx访问日志分析---解析日志篇

一、基于hadoop的nginx访问日志分析---解析日志篇的更多相关文章

随机推荐

热门专题