awk

AWK是强大的文本处理工具,擅长对日志文件迚行快速分析。
 它丌仅用亍 Linux ,也是任何环境中现有的功能最强大的数据处理引擎之一。
 名称得自亍它的发明者 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的 首个字母。
 AWK 可以迚行样式装入、流控制、数学运算符、迚程控制语句甚至亍内置的变量和函 数。它具备了一个完整的语言所应具有的几乎所有精美特性。
 AWK 允许用户创建简短的程序,通常只需一行指令就可以完成复杂的功能。这些程序 读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表及其他的丰富 功能。

调用awk

有三种方式调用awk,第一种是命令行方式,如:
awk [-F 域分隔符] "commands" input-file(s)
这里,command是真正的awk命令。上面例子中, [ - F域分隔符]是可选的,因为awk使用空格作 为缺省的域分隔符,因此如果要浏览域间有空格的文本,丌必指定这个选项,但如果要浏览诸如 passwd文件,此文件各域以冒号作为分隔符,则必须指明- F选项。
第二种方法是将所有awk命令插入一个文件,并用awk程序来执行,然后用awk命令解释器作为脚本的 首行,以便通过输入脚本名称来调用它。
第三种方式是将所有的awk命令插入一个单独文件,然后调用: awk –f awk-script-file input-file(s)
- f选项指明在文件awk_script_file中的awk脚本,input_file ( s )是使用awk迚行浏览的文件名。 在命令中调用awk时,awk脚本由各种操作和模式组成。
如果没有设置-F选项,awk假定安全可靠为域分隔符,并保持这个设置直到发现一新行。当新行出 现时,awk命令获悉已读完整条记录,然后在下一个记录启劢读命令,这个读迚程将持续到文件尾 或文件丌再存在。

模式和动作 

任何awk语句都由模式和劢作组成。在一个awk脚本中可能有许多语句。模式部分决定 劢作语句何时触发及触发事件。处理即对数据迚行的操作。如果省略模式部分,劢作 将时刻保持执行状态。
 模式可以是任何条件语句或复合语句或正则表达式。
 模式包括两个特殊字段BEGIN和END。使用BEGIN语句设置参数和打印头。BEGIN语 句使用在任何文本浏览劢作之前,之后文本浏览劢作依据输入文件开始执行。END语 句用来在awk完成文本浏览劢作后打印输出文本总数和结尾状态标志。
 如果丌特别指明模式,awk总是匹配或打印行数。
 实际劢作在大括号{ }内指明。劢作大多数用来打印,但是还有些更长的代码诸如if和循 环(looping)语句及循环退出结构。如果丌指明采取劢作,awk将打印出所有浏览出 来的记录。

实例

access.log日志格式为:

120.197.87.216 - - [04/Jan/2012:00:00:02 +0800] "GET /home.php?mod=space&uid=563413&mobile=yes HTTP/1.1" 200 3388 "-" "-"

123.126.50.73 - - [04/Jan/2012:00:00:02 +0800] "GET /thread-679411-1-1.html HTTP/1.1" 200 5251 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

203.208.60.187 - - [04/Jan/2012:00:00:02 +0800] "GET /archiver/tid-3003.html HTTP/1.1" 200 2056 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

114.112.141.6 - - [04/Jan/2012:00:00:02 +0800] "GET /ctp080113.php?action=getgold HTTP/1.1" 200 13886 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.3; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)"

内容分别为:以空格为分隔,$1为IP、$2、$3、$4时间 $5时区 $6get $7请求地址 $8http协议 $9返回请求代码 $10文件大小 $11 $12

awk '{print $1}' access.log |less
循环行,awk默认是以空格为分隔符的,因此第一个为$1 为IP地址,空格后面以此类推$2,$3等。$0表示整行
awk '{print $7}' access.log |less
打印请求地址
awk -f test01  access.log |less
可以把引号里面的内容写到一个文件里 (文件test01的内容为{print $7})

文件email内容:

11111@qq.com
2222@qq.com
33333@qq.com
asffsadf@yahoo.com
sdfsdfasd@yahoo.com
44444@sina.com
55555@sina.com
66666@sina.com
77777@sina.com
88888@sina.com

只提取sina邮箱

awk '$1~/sina.com/{print $1}' email 

大括号里面叫动作,大括号外面叫模式:首先检查每一行的模式是不是匹配,匹配的话运行大括号里面的动作。~代表包含,/sina/表示 $1里面要包含sina的文字。模式和动作组成一个完整的awk命令

cat email |mail -s hello abc@qq.com

发邮件。需要linux做邮件配置。

awk '$1~/sina/{print "cat /root/ebsr12.txt |mail -s ITPUB_news",$1}' email |less

ebsr12.txt是写好的邮件内容

awk 'BEGIN {print "#/bin/sh"} $1~/sina/{print "cat /root/ebsr12.txt |mail -s ITPUB_news",$1;print "sleep 3"}' email >qunfa_test 

begin表示在执行awk之前要执行的动作

awk '{ip[$1]++} END {for (i in ip){print i,ip[i]}}' access.log|less

ip[$1]++   ip是数组,相当于hashtable,ip和ip出现的数量为键值对。END后面为统计。遍历ip数组 打印 ip和 ip的出现次数

awk '{ip[$1]++} END {for (i in ip){print ip[i],i}}' access.log|sort -nr|less 

排序sort-n 按数字排序 r倒序排列

最常用的一些变量

awk '$1~/sina.com/{print $1,NR}' email

打印email文件中的新浪邮箱以及行号。

awk '{print substr($4,2)}' access.log |less

因为$4第一个字符为[,上面的命令表示输出$4的第二个字符到最后一个

1、模仿windows下dir命令输出的脚本

ls -l|awk '{printf $6" "$7" "$8"\t";if(substr($1,1,1)=="d"){printf "<dir>"} else {printf $5};printf "\t\t";print $9}'

ls --full-time|awk '{printf $6" "substr($7,1,5)"\t";if(substr($1,1,1)=="d"){printf "<dir>"} else {printf $5};printf "\t\t";print $9}'

计算网站的ip数

cat /web_logs/*.log'date +%d'|awk '($7~/.html/ || $7!/.php/) && $0!~/spider/ && $0!~/bot/ && $0!~/Spider/ && $0!~/Bot/{print $1}'|wc -l

cat access.log|awk '($7~/.html/ || $7!/.php/) && $0!~/spider/ && $0!~/bot/ && $0!~/Spider/ && $0!~/Bot/{print $1}'|wc -l

计算网站的pv数,uniq 过滤重复的IP

cat access.log|awk '$0!~/spider/ && $0!~/bot/ && $0!~/Spider/ && $0!~/Bot/{print $1}'|sort|uniq|wc -l 

计算浏览器使用百分比

awk '($7~/.html/ || $7!/.php/) &&$0!~/spider/ && $0!~/bot/ && $0!~/Spider/ && $0!~/Bot/{browser[$12]++;myTotal++;} END {for (i in browser){print browser[i],browser[i]/myTotal*100"%",i}}' access.log|sort -nr|less 

杀死所有的httpd 留下pid为8912。

ps -ef|grep httpd |awk 'BEGIN{print "#/bin/sh"}$2!~/8912/{print "kill -9 ",$2}' >killtest

sad :用命令来更改文本文件。一般用于文本的批量操作

sed -n '2,4p' email 打印email文件 -4行

打印某一行 print $0

Linux awk&sed的更多相关文章

  1. Linux查找命令:grep,awk,sed

    grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具 ...

  2. <转>如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

    原文链接:http://www.vaikan.com/use-multiple-cpu-cores-with-your-linux-commands/ 你是否曾经有过要计算一个非常大的数据(几百GB) ...

  3. 转摘--如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

    http://www.vaikan.com/use-multiple-cpu-cores-with-your-linux-commands/ 你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或 ...

  4. 如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等(转)

    你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作.数据专家们,我是在对你们说.你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, ...

  5. 【转】如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

    如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等   你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并 ...

  6. linux的文件处理(匹配 正则表达式 egrep awk sed)和系统、核心数据备份

    文件处理 1.处理方式 匹配 正则表达式 egrep awk sed 2.文件中的处理字符 \n  新行符 换行 \t  制表符 tab键 缺省8个空格 \b  退格符 backspace键 退格键 ...

  7. 【linux系统】命令学习(六)awk sed grep 与管道的使用

    程序运行环境输入与输出 标准输入0 read a;echo $a 标准输出1 echo cesh 错误输出 ls notr 管道重定向 管道与管道之间可以重定向 管道与文件之间可以重定向 用于写入 将 ...

  8. linux awk命令详解

    linux awk命令详解 简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分 ...

  9. awk sed 总结

    Awk总结笔记 介绍 90年代 new awk :nawk Linux 的是gawk 我们简化awk 用法 #  awk [options ] ‘scripts’ file1 file2 .... # ...

随机推荐

  1. 关于Sublime Text不能在打开方式中显示并且不能被设置成默认打开方式的问题

    解决方法: 1. Windows 输入 regedit 后 回车 打开注册表 2.找到 "HKEY_CLASSES_ROOT\Applications\sublime_text.exe\sh ...

  2. 【MFC】断言(ASSERT)的用法

    摘自:Moondark  http://www.cnblogs.com/moondark/archive/2012/03/12/2392315.html 断言(ASSERT)的用法   我一直以为as ...

  3. 模仿Masonry链式编程思想

    使用masonry 也将近一年多了,它的链式编程方式一直是很吸引我的. 之前一直没空好好思考它是如何实现,直到现在正好自己有空,因此写下链式编程的基本思路. 链式基本的编程形式如 a.property ...

  4. 读论文系列:Object Detection ICCV2015 Fast RCNN

    Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍:训练速度是SPP-net的3倍,测试速度是SPP-net的3倍 ...

  5. gulp 集成其他基于流的工具

    1. 流.缓冲.vinyl 文件对象 gulp 的流是虚拟文件对象 包含的属性有 base 文件名 path 文件路径 content 缓冲.nodejs 流 2. gulp 集成 browserif ...

  6. 使用微软的MSBuild.exe编译VS .sln .csproj 文件

    最近在看一些算法和测试一些程序,以及帮团队测试程序,团队使用了vs开发环境创建的sln项目文件,我使用的是公司的机器,没有任何权限安装程序等操作,但是又需要编译一些程序,所以我想到了,使用MSBuil ...

  7. 【openCV学习笔记】【3】高斯模糊一张图片(_cvSmooth相关编译错误)

    代码如下: #include <iostream> #include <opencv/highgui.h> #include <opencv/cv.h> void ...

  8. Netty实现简单HTTP服务器

    netty package com.dxz.nettydemo.http; import java.io.UnsupportedEncodingException; import io.netty.b ...

  9. oracle显示数据库名和表名

    oracle查看表名 select table_name from user_tables; select table_name from dba_tables; select * from all_ ...

  10. js实现可拖动的布局

    思路:采用flex布局,js即时修改固定列的宽度 注意:父元素需设置position:relative:因offsetLeft和offsetTop是相对于具有定位的(position:absolute ...