起因

这是今天我线上出了一个bug，需要查看日志并统计一个我需要的信息出现的频率，可以叫做分组统计。

日志文件部分内容



00:09:07.655 [showcase_backend][ShowcaseServiceImpl] WARN  - showcase add recommend from taobao failed |shopId=1482502318|itemId=548320850657||530|Remote service error|isv.item-recommend-service-error:SAVE_REQUEST_TOO_MANY_TIMES|

00:09:07.673 [showcase_backend][topsdk] ERROR - 2017-06-27 00:09:07.673^_^xxxxxxx^_^taobao.item.recommend.add^_^10.28.42.60^_^Linux^_^18^_^http://gwx.api.taobao.com/router/rest^_^app_key=xxxxx&partner_id=top-sdk-java-20170607&method=taobao.item.recommend.add&v=2.0&session=xxxxxxxx&format=json&sign_method=hmac&num_iid=5483473847602&timestamp=2017-06-27+00%3A09%3A07^_^{"error_response":{"code":530,"msg":"Remote service error","sub_code":"isv.item-recommend-service-error:SAVE_REQUEST_TOO_MANY_TIMES","sub_msg":"橱窗推荐商品失败","request_id":"qm4l3wu2cnhu"}}

00:09:07.673 [showcase_backend][ShowcaseServiceImpl] WARN  - showcase add recommend from taobao failed |shopId=14825032138|itemId=548347847602||530|Remote service error|isv.item-recommend-service-error:SAVE_REQUEST_TOO_MANY_TIMES|

00:09:07.695 [showcase_backend][ShowcaseServiceImpl] WARN  - showcase add recommend from taobao failed |shopId=148250232138|itemId=546199835284||530|Remote service error|isv.item-recommend-service-error:SAVE_REQUEST_TOO_MANY_TIMES|橱

目的

统计每个shopId出现的错误的次数

方案

使用awk的分组统计

awk代码



cat xxx.log | grep shopId | awk -F '|'  '{print $2}' | awk -F '=' '{s[$2] += 1} END {for (i in s) {print i, s[i]}}'

部分统计效果如下

···

800599961375 273

800599958609 4

800599956923 674

800599960564 2

800599960811 2930

529692269 1153

800599959910 2174

800599961392 10

800599961165 1

800599959912 26

63456935 558

67376794 490

800599958627 119

800599960127 757

36903919 1263

800599960357 971

800599960604 1

800599961203 211

800599958858 400

800599960609 160

162307612 1

112880504 45

550108033 22

800599956751 1

800599958437 20

800599960164 206

800599959951 134

800599960393 151

60322340 326

72003720 239

800599959939 422

800599959491 1

800599959479 1

72743666 181

800599958012 7

800599957416 9

800599958702 18

63926103 76

800599958897 8241

···

分析awk代码逻辑

cat xxx.log | grep shopId | awk -F '|'  '{print $2}' | awk -F '=' '{s[$2] += 1} END {for (i in s) {print i, s[i]}}'

主要看这段

awk -F '|'  '{print $2}' | awk -F '=' '{s[$2] += 1} END {for (i in s) {print i, s[i]}}'

1.awk -F '|' '{print $2}' 分离出 shopId=1234343 这种格式的数据

2.awk -F '=' '{s[$2] += 1} 将shopId=12323443分离，定义数组s，awk开始处理每行的数据 s[$2] += 1, 将$2的数据当成key存进arrays，value碰到一样的就加1

3.{for (i in s) {print i, s[i]}} 循环打印出数组的key和value

使用awk进行日志信息的分组统计的更多相关文章

PLSQL_统计信息系列06_统计信息的历史和日志
20150506 Created By BaoXinjian
Shell学习笔记：awk实现group by分组统计功能
日常部分数据以 txt 的文件格式提供,为避免入库之后再进行统计的麻烦,故学习 shell 进行处理,减少工作量. 1.样例数据 # test.txt YD5Gxxx|6618151|68254490 ...
Oracle按不同时间分组统计
Oracle按不同时间分组统计 Oracle按不同时间分组统计的sql 如下表table1: 日期(exportDate) 数量(amount) -------------- ----------- ...
【.Net】大文件可使用的文本分组统计工具（附带源码，原创）
本工具可实现的效果: 1.读取大文件(大于1GB) 2.根据分隔符分割后的列分组 3.速度快. 4.处理过程中,可以随时停止处理,操作不卡死. 5.有对当前内存的实时监测,避免过多占用内存,影响系统运 ...
mtools 是由MongoDB 官方工程师实现的一套工具集，可以很快速的日志查询分析、统计功能，此外还支持本地集群部署管理.
mtools 是由MongoDB 官方工程师实现的一套工具集,可以很快速的日志查询分析.统计功能,此外还支持本地集群部署管理 https://www.cnblogs.com/littleatp/p/9 ...
010.简单查询、分组统计查询、多表连接查询（sql实例）
-------------------------------------day3------------ --添加多行数据:------INSERT [INTO] 表名 [(列的列表)] --SEL ...
Linq to SQL 语法查询(链接查询，子查询 & in操作 & join，分组统计等)
Linq to SQL 语法查询(链接查询,子查询 & in操作 & join,分组统计等) 子查询描述:查询订单数超过5的顾客信息查询句法: var 子查询 = from c i ...
每日学习心得：CustomValidator验证控件验证用户输入的字符长度、Linq 多字段分组统计、ASP.NET后台弹出confirm对话框，然后点击确定，执行一段代码
2013-9-15 1. CustomValidator验证控件验证用户输入的字符长度在实际的开发中通常会遇到验证用户输入的字符长度的问题,通常的情况下,可以写一个js的脚本或者函数,在ASP ...
ORACLE的分组统计之ROLLUP(一)
Oracle 9i以后,扩展了group by 的功能,能够满足大部分多维数据的分析统计功能,主要表现: 1. rollup,cube,grouping sets 扩展group by字句提供了丰富的 ...

随机推荐

jQuery css操作
jQuery操作css的元素样式 1.访问匹配元素的样式属性来个小案例: <div id="div" style="width:200px;height:200p ...
深入Android RxJava 2
这篇文章是根据Jake Wharton在GOTO CopenHagen 2016上的讲话整理的. 下一个版本(2.0)的RxJava还在开发中.虽然observable.订阅管理和背压(backpre ...
Junit 入门使用教程
1.Junit 是什么? JUnit是一个Java语言的单元测试框架.它由Kent Beck和Erich Gamma建立,逐渐成为源于Kent Beck的sUnit的xUnit家族中最为成功的一个JU ...
MySql学习笔记(一) —— 数据的分组
前面介绍的聚集函数只是用来计算行数,平均数,最大值,最小值而不用检索所有数据.通过count()函数,我们可以计算生产商1003提供的产品数目,但如果我要查询所有生产商提供的商品数,这就需要进行分组查 ...
mysql数据库小常识
什么是数据库? 计算机处理和存储的一切信息都是数据. 计算机系统中一种用于存储数据的程序. 一种:计算机系统中有很多种能够存取数据的程序. 他们各有特长和长处,有自己的适用范围. 存取:能够保存数据避 ...
Swift 入门之简单语法（二）
可选项判断由于可选项的内容可能为 nil,而一旦为 nil 则不允许参与计算因此使用中,经常需要判断可选项的内容是否为 nil 单个可选项判断 let url = NSURL(string: &q ...
CAP原理、一致性模型、BASE理论和ACID特性
CAP原理在理论计算机科学中,CAP定理(CAP theorem),又被称作布鲁尔定理(Brewer's theorem),它指出对于一个分布式计算系统来说,不可能同时满足以下三点: 一致性(Con ...
Building Particle Filters and Particle MCMC in NIMBLE
This example shows how to construct and conduct inference on a state space model using particle filt ...
zepto源码分析系列
如果你也开发移动端web,如果你也用zepto,应该值得你看看.有问题请留言. Zepto源码分析-架构 Zepto源码分析-zepto(DOM)模块 Zepto源码分析-callbacks模块 Ze ...
JVM-2.Class文件结构
1.Class文件 (1)无关性:除了平台无关性,JVM还支持语言无关性:目前Clojure.Groovy.JRuby.Jyphon.Scala等语言可以在JVM上运行.实现语言无关性的原理仍然是字节 ...

使用awk进行日志信息的分组统计

起因