Nginx访问日志分析

nginx默认的日志格式

log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '

                  '$status $body_bytes_sent "$http_referer" '

                  '"$http_user_agent" "$http_x_forwarded_for"';

字段说明

127.0.0.1 - - [14/May/2017:12:51:13 +0800] "GET /index.html HTTP/1.1" 200 4286 "http://127.0.0.1/" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36"

远程主机IP            请求时间       时区  方法    资源      协议   状态码 发送字节    referer      浏览器信息

统计访问IP前十

# awk '{print $1}' /usr/local/nginx/logs/access.log | sort | uniq -c | sort -nr | head -10

   6958 123.174.51.164

   2307 111.85.34.165

   1617 118.112.143.148

   1489 117.63.146.40

   1404 118.182.116.39

   1352 1.48.219.30

   1132 60.222.231.46

   1129 10.35.1.82

    943 27.227.163.200

    880 58.253.6.133

统计指定某一天的访问IP

# grep "17/May/2017" /usr/local/nginx/logs/access.log | awk '{print $1}' | sort | uniq -c | sort -nr | head -10

# awk '/17\/May\/2017/{print $1}' /usr/local/nginx/logs/access.log | sort | uniq -c | sort -nr | head -10

   6958 123.174.51.164

   2307 111.85.34.165

   1617 118.112.143.148

   1489 117.63.146.40

   1404 118.182.116.39

   1352 1.48.219.30

   1132 60.222.231.46

   1129 10.35.1.82

    943 27.227.163.200

    880 58.253.6.133

经过测试，在文件较大的时候，先grep再awk速度快很多。

过滤URL

# awk '{print $11}' /usr/local/nginx/logs/access.log | sort | uniq -c | sort -nr | head -10

  20737 "http://www.adreambox.net/index.php?app=home&mod=User&act=index"

   4155 "-"

   3981 "http://www.adreambox.net/"

   1921 "http://www.adreambox.net/index.php?app=adreambox&mod=Class&act=prensent&id=5&type=2"

   1299 "http://www.adreambox.net/index.php?app=home&mod=Public&act=doLogin"

   1191 "http://www.adreambox.net/index.php?app=group&mod=Group&act=index&gid=1413"

    718 "http://www.adreambox.net/index.php?app=group&mod=Group&act=index&gid=1403"

    657 "http://www.adreambox.net/index.php?app=wap&mod=Index&act=index"

    657 "http://www.adreambox.net/index.php?act=index&app=home&mod=User"

    639 "http://www.adreambox.net/index.php?app=group&mod=Manage&act=index&gid=1413"

统计指定资源

# awk '($7~/\.html$/){print $1 " " $7 " " $9}' /usr/local/nginx/logs/access.log     #处理第7个字段以'.html'结尾的行

11.0.8.5 //ckeditor/notexist_path.html 404

11.0.8.5 //ckeditor/CHANGES.html 404

11.0.8.18 //docs/CHANGELOG.html 404

11.0.8.5 //themes/mall/default/seller_order.confirm.html 404

11.0.8.18 //themes/mall/default/header.html 404

11.0.8.5 //themes/store/default/footer.html 404

11.0.8.5 //templates/admin/index.html 404

11.0.8.5 //system/templates/admin/login.html 404

11.0.8.18 //templates/404.html 404

11.0.8.18 //admin/editor/editor/dialog/fck_about.html 404

11.0.8.5 //fckeditor/_whatsnew.html 404

11.0.8.5 //FCKeditor/_docs/whatsnew.html 404

11.0.8.5 //style/gb/help/index.html 404

10.10.1.11 /Login/login.html 404

过滤指定时间后的日志并打印IP

# awk '($4>"[15/May/2017:21:16:38"){print $1}' /usr/local/nginx/logs/access.log | sort | uniq -c | sort -nr

 291031 11.0.8.5

 274174 11.0.8.18

   2764 10.10.1.11

   1193 11.0.8.6

      1 127.0.0.1

统计流量

# grep "17/May/2017" /usr/local/nginx/logs/access.log | awk '{sum+=$10}END{print sum}'

95210093059

统计状态码

# awk '{print $9}' /usr/local/nginx/logs/access.log | sort | uniq -c | sort -nr | head -10

1271257 200

 957444 503

  61875 502

  32852 404

  19121 302

  13356 304

   2819 500

   2789 400

    271 499

    203 401

过滤某个时间段的日志

# sed -n '/2017-5-18 9:51:13/,/2017-5-18 9:55:13/p' access.log

Nginx访问日志分析的更多相关文章

一、基于hadoop的nginx访问日志分析---解析日志篇
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接 ...
nginx访问日志分析，筛选时间大于1秒的请求
处理nginx访问日志,筛选时间大于1秒的请求 #!/usr/bin/env python ''' 处理访问日志,筛选时间大于1秒的请求 ''' with open('test.log','a+' ...
四、基于hadoop的nginx访问日志分析---top 10 request
代码: # cat top_10_request.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mr ...
Nginx 访问日志分析
0:Nginx日志格式配置 # vim nginx.conf ## # Logging Settings ## log_format access '$remote_addr - $remote_us ...
13 Nginx访问日志分析
#!/bin/bash export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin # Nginx 日志格式: # ...
二、基于hadoop的nginx访问日志分析---计算日pv
代码: # pv_day.py#!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_accesslog ...
五、基于hadoop的nginx访问日志分析--userAgent和spider
useragent: 代码(不包含蜘蛛): # cat top_10_useragent.py #!/usr/bin/env python # coding=utf-8 from mrjob.job ...
三、基于hadoop的nginx访问日志分析--计算时刻pv
代码: # cat pv_hour.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_acc ...
采集并分析Nginx访问日志
日志服务支持通过数据接入向导配置采集Nginx日志,并自动创建索引和Nginx日志仪表盘,帮助您快速采集并分析Nginx日志. 许多个人站长选取了Nginx作为服务器搭建网站,在对网站访问情况进行分析 ...

随机推荐

hive的优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.l ...
Protocol buffer的使用案例
Protocolbuffer(以下简称PB)是google 的一种数据交换的格式,它独立于语言,独立于平台.google 提供了多种语言的实现:java.c#.c++.go 和 python,每一种实 ...
Kubernetes集群部署篇（一）
K8S集群部署有几种方式:kubeadm.minikube和二进制包.前两者属于自动部署,简化部署操作,我们这里强烈推荐初学者使用二进制包部署,因为自动部署屏蔽了很多细节,使得对各个模块感知很少,非常 ...
笨办法学Python - 习题3: Numbers and Math
目录习题 3: 数字和数学计算算术运算符加分习题: 我的答案: 总结: 扩展: Python比较运算符 Python赋值运算符 Python位运算符 Python逻辑运算符 Python成员运算 ...
comet4j推送 405/500 JSON转换异常
因为Comet4J工作在NIO方式下,所以我们需要调整服务器连接器配置,更换为NOI连接器. 打开server.xml文件将找到原先的连接器配置: <Connector executor=&qu ...
在Windows下制作静态库和动态库
一:静态库的创建 VC++6.0中new一个的为win32 static library工程,之后有二个选项.根据需求选吧. 具体的类或者函数的添加过程和标准的工程一样,直接创建新的类或者添加新的. ...
20135337朱荟潼Java实验报告二
20135337朱荟潼实验二 Java面向对象程序设计一.实验内容 1. 初步掌握单元测试和TDD 2. 理解并掌握面向对象三要素:封装.继承.多态 3. 初步掌握UML建模 4. 熟悉S.O.L ...
selenium之鼠标事件
1.鼠标悬停火狐版本51,selenium版本3ActionChains(driver).move_to_element(above).perform()执行代码时,报错:selenium.commo ...
sprint站立会议
索引卡: 工作认领: 时间 ...
gogoing软件NABCD
N,need 需求:gogoing项目目前打算做得是一个基于石家庄铁道大学在校大学生对于短期节假日出行旅游的指南.最关键的定义为“穷游”.“穷”则体现在以小的花销去实现最完美的旅游方式.我们的gogo ...

Nginx访问日志分析

Nginx访问日志分析的更多相关文章

随机推荐

热门专题