Python 日志处理（三）日志状态码分析、浏览器分析

在企业中，从日志中提取数据进行分析，可以帮助企业更加了解用户行为，用户最感兴趣的产品或者内容，分析得到数据后，可以决定企业在今后的走向。

从这些日志数据中，比较重要的有：

1. 用户访问最多的url，即用户在企业网站最感兴趣的产品或者内容

2. 用户群体的的主要线路是什么？移动？联通？电信？

3. 用户访问的高峰期是什么时候？最高PV(访问量)、UV(独立访客)、IP(独立IP)。

4. 各时段状态码数。比如304，表示静态资源在没有发生改变时，服务器要求客户使用了浏览器本地的缓存，可以降低服务器流量负载等。403、404如果异常得出现很多，则要根据访问得url来判断是否有恶意用户在对网站目录进行扫描和探测。400、500等状态码很多的情况就需要运维人员及时分析并排查原因。

5. 客户浏览器的名称、版本。统计出各种浏览器的分布情况，比如：如果手机浏览器、IE 6.0版本浏览器访问记录很多，则大概可以判断出用户群体大概的操作系统是winXP，win7以上版本，或是手机访问。那就需要考虑是否要对特定版本浏览器进行页面优化，或者如果客户是手机浏览器，那是否要压缩网站页面大小，降低流量消耗，亦或是否要对手机端优化，提升用户体验，牢牢得抓住客户。。

这里涉及部分SEO方面知识，仅作了解即可，如果企业真正需要了，再深入学习。

下面的例子对访问状态码和浏览器名称、版本进行了统计，以引出日志分析、数据挖掘的重要性：

import datetime

import re

from queue import Queue

import threading

from pathlib import Path

from user_agents import parse

from collections import defaultdict

# 正则，文件读取，时间窗口，队列，多线程，高阶函数，分发器，嵌套函数

logline = '''183.60.212.153 - - [19/Feb/2013:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)"'''

pattern = '''(?P<remote_addr>[\d\.]{7,}) - - (?:\[(?P<datetime>[^\[\]]+)\]) "(?P<request>[^"]+)" (?P<status>\d+) (?P<size>\d+) "[^"]+" "(?P<useragent>[^"]+)"'''

# 数据源处理

ops = {

    'datetime': lambda timestr: datetime.datetime.strptime(timestr, "%d/%b/%Y:%H:%M:%S %z"),

    'request': lambda request: dict(zip(('method', 'url', 'protocol'), request.split())),

    'status': int,

    'size': int,

    'useragent': lambda useragent: parse(useragent)

}

regex = re.compile(pattern)

def extract(line):

    matcher = regex.match(line)

    if matcher:

        return {k: ops.get(k, lambda x: x)(v) for k, v in matcher.groupdict().items()}

def openfile(path:str):

    with open(path) as f:

        for line in f:

            fields = extract(line)

            if fields:

                yield fields  # return generator objects,next(load(path))

            else:

                # TODO 不合格数据有哪些

                continue  # TODO 解析失败就抛弃，或者打印日志

def load(*paths):

    '''装载日志文件或路径'''

    for item in paths:

        p = Path(item)

        if not p.exists():

            continue

        if p.is_dir():

            for file in p.iterdir():

                if file.is_file():

                    yield from openfile(str(file))

        elif p.is_file():

            yield from openfile(str(p))

def window(src:Queue, handler, width: int, interval: int):

    '''

    窗口函数

    :param src: 数据源，生成器，用来拿数据

    :param handler: 数据处理函数

    :param width: 时间窗口宽度，秒

    :param interval: 处理时间间隔，秒/ 时间偏移量，秒

    :return:

    '''

    start = datetime.datetime.strptime('1970/01/01 01:01:01 +0800', '%Y/%m/%d %H:%M:%S %z')

    current = datetime.datetime.strptime('1970/01/01 01:01:02 +0800', '%Y/%m/%d %H:%M:%S %z')

    delta = datetime.timedelta(seconds=width-interval)

    buffer = []  #窗口里的待计算数据

    while True:  #while True方式迭代queue

        # 从数据源获取数据

        data = src.get()   # block阻塞的

        if data:

            buffer.append(data)

            current = data['datetime']

        if (current - start).total_seconds() >= interval:

            ret = handler(buffer)      # 如何处理

            print("{}".format(ret))

            start = current

            buffer = [i for i in buffer if i['datetime'] > current - delta]

def donothing_handler(iterable:list):

    # print(iterable)

    return iterable

# 状态码时间段百分比分析

def status_handler(iterable:list):

    d = {}

    for item in iterable:

        key = item['status']

        if key not in d:

            d[key] = 0

        d[key] += 1

    total= sum(d.values())

    return {'{}: {:.2f}%'.format(k,v/total*100) for k,v in d.items()}

# 浏览器分析函数

ua_dict = defaultdict(lambda : 0)  # 作用域改为全局之后,字典递增保存所有ua及其版本

def browser_handler(iterable):

    for item in iterable:

        ua = item['useragent']

        key = (ua.browser.family, ua.browser.version_string)

        ua_dict[key] += 1

    return ua_dict

# 分发器,嵌套函数

def dispatcher(src):

    queues = []  # 队列列表

    threads = []  # 线程管理

    def reg(handler, width, interval):

        q = Queue()    # 分配队列

        queues.append(q)  # 方便调用

        t = threading.Thread(target=window,args=(q, handler, width, interval))

        threads.append(t)

    def run():

        for t in threads:

            t.start()

        for x in src:

            for q in queues:

                q.put(x)

    return reg,run

reg,run = dispatcher(load('test.log'))

# reg注册 窗口

# reg(donothing_handler, 10, 5)    #注册测试

# reg(status_handler, 10, 5)       # 注册状态码处理函数

reg(browser_handler, 60, 60)       # 注册useragent处理函数,注意时间窗口宽度

run()

Python 日志处理（三）日志状态码分析、浏览器分析的更多相关文章

利用python完成多个url状态码的检测
import re import requests import json from threading import Thread,Lock from concurrent.futures impo ...
HTTP协议图--HTTP 响应状态码（重点分析）
1. 状态码概述 HTTP 状态码负责表示客户端 HTTP 请求的返回结果.标记服务器端的处理是否正常.通知出现的错误等工作. HTTP 状态码如 200 OK ,以 3 位数字和原因短语组成.数字中 ...
HTTP学习记录：三、状态码
学习资源主要为:@小坦克HTTP相关博客常见的HTTP状态码: 200--请求成功: 302--重定向: 304--Not Modified:表示上次的文档已经被缓存了,还可以继续使用: 400-- ...
python 使用异常代替返回状态码
(转)Python 日志处理（三）日志状态码分析、浏览器分析
原文:https://www.cnblogs.com/i-honey/p/7791564.html 在企业中,从日志中提取数据进行分析,可以帮助企业更加了解用户行为,用户最感兴趣的产品或者内容,分析得 ...
nginx 499状态码
Web服务器在用着nginx,在日志中偶尔会看到有499这个错误. rfc2616中,400-500间的错误码仅定义到了417,所以499应该是nginx自己定义的.后来想到读读nginx代码,疑问立 ...
Nginx_HTTP 499 状态码 nginx下 499错误
日志记录中HTTP状态码出现499错误有多种情况,我遇到的一种情况是nginx反代到一个永远打不开的后端,就这样了,日志状态记录是499.发送字节数是0. 老是有用户反映网站系统时好时坏,因为线上的产 ...
HTTP 499 状态码 nginx下 499错误[转]
日志记录中HTTP状态码出现499错误有多种情况,我遇到的一种情况是nginx反代到一个永远打不开的后端,就这样了,日志状态记录是499.发送字节数是0. 老是有用户反映网站系统时好时坏,因为线上的产 ...
HTTP 499 状态码 nginx下 499错误
日志记录中HTTP状态码出现499错误有多种情况,我遇到的一种情况是nginx反代到一个永远打不开的后端,就这样了,日志状态记录是499.发送字节数是0. 老是有用户反映网站系统时好时坏,因为线上的产 ...

随机推荐

Java策略模式以及来自lambda的优化
前言设计模式是软件工程中一些问题的统一解决方案的模型,它的出现是为了解决一些普遍存在的,却不能被语言特性直接解决的问题,随着软件工程的发展,设计模式也会不断的进行更新,本文介绍的是经典设计模式 ...
Android的快速开发框架 afinal
afinal 框架学习: http://www.oschina.net/p/afinal
MySQL自定义函数用法详解-复合结构自定义变量/流程控制
自定义函数 (user-defined function UDF)就是用一个象ABS() 或 CONCAT()这样的固有(内建)函数一样作用的新函数去扩展MySQL. 所以UDF是对MySQL功能的一 ...
案例：AWR手工创建快照失败，SYSAUX表空间剩余不足处理
案例:AWR手工创建快照失败,SYSAUX表空间剩余不足处理版本:Oracle 11.2.0.4 RAC 问题现象:AWR手工创建快照失败,SYSAUX表空间剩余不足. 1. 查看SYSAUX表空间 ...
Java基础总结--数组
---数组的定义---组织存储一组数据1.存放相同类型数据的集合--就是一种容器本质上变量也是一种容器--区别就是只存储了一个数据的容器--面对容器,而不是分散的数据eg.买一盘鸡蛋--蛋托其实就是容 ...
NotePad++ 正则表达式替换高级用法 [转]
转自:http://blog.csdn.net/gdp12315_gu/article/details/51730584 在我们处理文件时,很多时候会用到查找与替换.当我们想将文件中某一部分替换替换文 ...
python 文件相关知识
字符编码相关什么是字符编码字符编码的类型字符编码的使用 python2和python里字符编码的区别文件的相关文件的基础操作打开文件的模式字符编码什么是字符编码在计算机里只识别二进制, ...
SpringMVC的流程分析（一）—— 整体流程概括
SpringMVC的整体概括之前也写过springmvc的流程分析,只是当时理解的还不透彻所以那篇文章就放弃了,现在比之前好了些,想着写下来分享下,也能增强记忆,也希望可以帮助到人,如果文章中有什么 ...
2_ROS学习
2_VNC远程连接树莓派在上一次,我们成功的给树莓派安装了Ubuntu mate的操作系统. 树莓派是嵌入式计算机,一般是没有显示屏来显示的,我们通过远程连接来访问树莓派.网上推荐了ssh连接,xr ...
胜利大逃亡(续)（bfs+状态压缩）
胜利大逃亡(续) Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Subm ...

Python 日志处理（三） 日志状态码分析、浏览器分析

Python 日志处理（三） 日志状态码分析、浏览器分析的更多相关文章

随机推荐

热门专题

Python 日志处理（三）日志状态码分析、浏览器分析

Python 日志处理（三）日志状态码分析、浏览器分析的更多相关文章