一、awk命令简介

　　awk 是一种很棒的语言，它适合文本处理和报表生成，其语法较为常见，借鉴了某些语言的一些精华，如 C 语言等。在 linux 系统日常处理工作中，发挥很重要的作用，掌握了 awk将会使你的工作变的高大上。 awk 是三剑客的老大，利剑出鞘，必会不同凡响。

　　awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。

二、使用方法

2.1 格式

awk '{pattern + action}' {filenames}
awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)

　　其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号（{}）不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

2.2 常用命令选项

-F fs 　　fs 指定输入分隔符（可指定一个或多个），fs可以是字符串或正则表达式
-v var=value 赋值一个用户定义变量，将外部变量传递给awk
-f scriptfile 从脚本文件中读取awk命令

2.3 awk的内置变量

$n : 当前记录的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段。

$ : 这个变量包含执行过程中当前行的文本内容。

ARGC : 命令行参数的数目。

ARGIND : 命令行中当前文件的位置（从0开始算）。

ARGV : 包含命令行参数的数组。

CONVFMT : 数字转换格式（默认值为%.6g）。

ENVIRON : 环境变量关联数组。

ERRNO : 最后一个系统错误的描述。

FIELDWIDTHS : 字段宽度列表（用空格键分隔）。

FILENAME : 当前输入文件的名。

NR : 表示记录数，在执行过程中对应于当前的行号

FNR : 同NR :，但相对于当前文件。

FS : 字段分隔符（默认是任何空格）。

IGNORECASE : 如果为真，则进行忽略大小写的匹配。如：IGNORECASE=1表示忽略大小写

NF : 表示字段数，在执行过程中对应于当前的字段数。 print $NF打印一行中最后一个字段 OFMT : 数字的输出格式（默认值是%.6g）。 OFS : 输出字段分隔符（默认值是一个空格）。 ORS : 输出记录分隔符（默认值是一个换行符）。 RS : 记录分隔符（默认是一个换行符）。 RSTART : 由match函数所匹配的字符串的第一个位置。 RLENGTH : 由match函数所匹配的字符串的长度。 SUBSEP : 数组下标分隔符（默认值是34）。

2.4 运算符

2.5 正则表达式

三、案例

我们以passwd文件来操作。操作之前先备份好，使用备份的passwd文件操作

[root@VM_0_10_centos shellScript]# awk -F ":" '{print $1}' /tmp/passwd

root

bin

# 这里可以使用“,”将打印的多个条件分隔，打印的效果会自动有空格。如果使用的是$ $，里边是用空格，那打印出来的第一列和第3列会挨在一起

[root@VM_0_10_centos shellScript]# awk -F ":" '{print $1,$3}' /tmp/passwd

root

bin 

[root@VM_0_10_centos shellScript]# awk -F ":" '{print $1 $3}' /tmp/passwd

root0

bin1

或

[root@VM_0_10_centos shellScript]# awk -F ":" '{print $1 " " $3}' /tmp/passwd

root

bin

# 使用制表符打印出信息

[root@VM_0_10_centos shellScript]# awk -F ":" '{print "user:"$1 "\tuid:"$3}' /tmp/passwd

user:root    uid:

user:bin    uid:

1）只查看passwd文件（100内）第20到第30行内容。（面试）

[root@VM_0_10_centos shellScript]# awk '{if(NR>=20 && NR<=30) print $1}' /tmp/passwd

abrt:x::::/etc/abrt:/sbin/nologin

sshd:x:::Privilege-separated

postfix:x::::/var/spool/postfix:/sbin/nologin

chrony:x::::/var/lib/chrony:/sbin/nologin

tcpdump:x::::/:/sbin/nologin

syslog:x::::/home/syslog:/bin/false

mysql:x:::MySQL

nagcmd:x::::/home/nagcmd:/sbin/nologin

nagios:x::::/home/nagios:/sbin/nologin

apache:x::::/home/apache:/bin/bash

nginx:x:::Nginx
# 不加$1打印20-30行所有内容

[root@VM_0_10_centos shellScript]# awk '{if(NR>=20 && NR<=30) print}' /tmp/passwd 

abrt:x::::/etc/abrt:/sbin/nologin

sshd:x:::Privilege-separated SSH:/var/empty/sshd:/sbin/nologin

postfix:x::::/var/spool/postfix:/sbin/nologin

chrony:x::::/var/lib/chrony:/sbin/nologin

tcpdump:x::::/:/sbin/nologin

syslog:x::::/home/syslog:/bin/false

mysql:x:::MySQL Server:/var/lib/mysql:/bin/false

nagcmd:x::::/home/nagcmd:/sbin/nologin

nagios:x::::/home/nagios:/sbin/nologin

apache:x::::/home/apache:/bin/bash

nginx:x:::Nginx web server:/var/lib/nginx:/sbin/nologin

[root@VM_0_10_centos shellScript]# nl /tmp/passwd | awk '{if(NR>=20 && NR<=30) print}' 

        abrt:x::::/etc/abrt:/sbin/nologin

        sshd:x:::Privilege-separated SSH:/var/empty/sshd:/sbin/nologin

        postfix:x::::/var/spool/postfix:/sbin/nologin

        chrony:x::::/var/lib/chrony:/sbin/nologin

        tcpdump:x::::/:/sbin/nologin

        syslog:x::::/home/syslog:/bin/false

        mysql:x:::MySQL Server:/var/lib/mysql:/bin/false

        nagcmd:x::::/home/nagcmd:/sbin/nologin

        nagios:x::::/home/nagios:/sbin/nologin

        apache:x::::/home/apache:/bin/bash

        nginx:x:::Nginx web server:/var/lib/nginx:/sbin/nologin

2）已知text.txt文件内容，打印出Poe和33794712，并以 Poe 33794712格式显示

[root@VM_0_10_centos shellScript]# cat test.txt

I am Poe,my qq is

# 使用多个分隔符，先使用空格分割，然后对分割结果再使用","分割
[root@VM_0_10_centos shellScript]# awk -F "[ ,]" '{print $3,$7}' test.txt

Poe

或

[root@VM_0_10_centos shellScript]# awk -F '[ ,]+' '{print $3,$7}' test.txt

Poe

3）awk -F 指定分割字符

# -F 相当于内置变量FS
[root@VM_0_10_centos shellScript]#  awk 'BEGIN{FS=","} {print $1,$2}' test.txt

 this is a test

 Are you like awk

This's a test

 There are orange apple

4）通过-v 设置变量

[root@VM_0_10_centos shellScript]# cat test.txt

I am Poe,my qq is 

[root@VM_0_10_centos shellScript]# awk -vx= '{print $1,$1+x}' test.txt

I 

[root@VM_0_10_centos shellScript]# awk -vx= '{print $1,$(1+x)}' test.txt

I 

[root@VM_0_10_centos shellScript]# awk -vx= -vy=i '{print $1,$1+x,$1y}' test.txt

I  Ii

  2i

  7i

5）格式化输出

# 8s代表8个space  \n回车换行  %- 后面的-表示前面不空格，不加的话前面也会有8个空格
# 因为这里是打印的$1和$4,所以前面格式输出的有两个值：%-8s和%-10s

[root@VM_0_10_centos shellScript]# awk '{printf "%-8s %-10s\n",$1,$4}' test.txt

I        qq

6）过滤第一列大于2、等于2、第一列大于2且第2列等于'Are'

[root@VM_0_10_centos shellScript]# awk '$1>2 {print $1,$3}' test.txt

 you

This's test

 are

# 需注意，这里不能使用单=号，会被认为是赋值。判断是否等于要使用双等号==

[root@VM_0_10_centos shellScript]# awk '$1==2 {print $1,$3}' test.txt

 is

[root@VM_0_10_centos shellScript]# awk '$1=2 {print $1,$3}' test.txt

 is

 you

 test

 are

[root@VM_0_10_centos shellScript]# awk '$1>2 && $2=="Are" {print $1,$3}' test.txt

 you

7）内置参数用法

NF：字段数　　NR：行号　　FNR：文本行号（文件计数的行号）

FS：记录是以什么为分隔符　　RS：默认分隔符（\n）　　FILENAME：当前文件名　　

OFS：输出记录分隔符（输出换行符），输出时用指定的符号代替换行符

ORS：输出记录分隔符(默认值是一个换行符)

[root@VM_0_10_centos shellScript]# cat test.txt

 this is a test

 Are you like awk

This's a test

 There are orange,apple,mongo

[root@VM_0_10_centos shellScript]#  awk 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS",

"NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}'  test.txt 
FILENAME ARGC  FNR   FS   NF   NR  OFS  ORS   RS

---------------------------------------------

test.txt

test.txt

test.txt

test.txt

[root@VM_0_10_centos shellScript]# awk -F "," 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR"

,"FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}' test.txt 
FILENAME ARGC  FNR   FS   NF   NR  OFS  ORS   RS

---------------------------------------------

test.txt            ,

test.txt            ,

test.txt            ,

test.txt            ,

8）输出行号（行条数NR）及文件行号（FNR）

# $0　在这里是打印文件所有内容

[root@VM_0_10_centos shellScript]# awk '{print NR,FNR,$0}' test.txt

   this is a test

   Are you like awk

  This's a test

   There are orange,apple,mongo

9）输出指定的分隔符

# 注意这里的$前后都加了空格，也可以不加空格，但是格式会比较紧凑

[root@VM_0_10_centos shellScript]# awk '{print $1,$2,$5}' OFS=" $ " test.txt

 $ this $ test

 $ Are $ awk

This's $ a $

 $ There $

10）使用正则，字符串匹配。匹配第2列包含“th”字符，并打印出第二列和第四列

~ 表示模式开始。// 中是模式。！~表示模式取反，不匹配搜索的行

[root@VM_0_10_centos shellScript]# awk '$2 ~ /th/ {print $2,$4}' test.txt

this a

四、awk脚本模式

　　对于每个输入行， awk 都会执行每个脚本代码块一次。然而，在许多编程情况中，可能需要在 awk 开始处理输入文件中的文本之前执行初始化代码。对于这种情况， awk 允许您定义一个 BEGIN 块。

　　因为 awk 在开始处理输入文件之前会执行 BEGIN 块，因此它是初始化 FS（字段分隔符）变量、打印页眉或初始化其它在程序中以后会引用的全局变量的极佳位置。
　　awk 还提供了另一个特殊块，叫作 END 块。 awk 在处理了输入文件中的所有行之后执行这个块。通常， END 块用于执行最终计算或打印应该出现在输出流结尾的摘要信息。

格式：

BEGIN{ 执行前的语句 }
END {处理完所有的行后要执行的语句 }
{处理每一行时要执行的语句}

案例：

1）通过脚本查看输出的效果

[root@VM_0_10_centos shellScript]# cat score.txt

Marry

Jack

Tom

Mike

Bob

[root@VM_0_10_centos shellScript]# cat awk_score.awk

#/bin/awk -f

# 注意上面使用的bash

# 运行前，输出名称

BEGIN {

    Chinese =

    Math =

    English = 

    printf "NAME      NO.      Chinese      Math      English       TOTAL\n"

    printf "-------------------------------------------------------------\n"

}

# 运行中

{

    Chinese += $

    Math += $

    English += $

    printf "%-8s %-8s %6d %10d %10d %12d\n",$,$,$,$,$, $+$+$

}

# 运行后

END {

    printf "-------------------------------------------------------------\n"

    printf "  TOTAL:%16d %10d %10d \n",Chinese,Math,English

    printf "AVERAGE:%16.2f %10.2f %10.2f\n",Chinese/NR,Math/NR,English/NR

}

[root@VM_0_10_centos shellScript]# awk  -f awk_score.awk score.txt

NAME      NO.      Chinese      Math      English       TOTAL

-------------------------------------------------------------

Marry

Jack

Tom

Mike

Bob

-------------------------------------------------------------

  TOTAL:

AVERAGE:           63.80      78.60      70.00

2）计算文件大小

[root@VM_0_10_centos shellScript]# ls -l *.sh

-rwxr-xr-x  root root   Oct   : addUser.sh

-rwxr-xr-x  root root  Oct  : autoCreateUser.sh

-rwxr-xr-x  root root   Oct   : checkMem.sh

-rwxr-xr-x  root root   Oct   : checkRoot.sh

-rwxr-xr-x  root root   Oct  : createUsers.sh

-rwxr-xr-x  root root   Oct  : delUsers.sh

-rwxr-xr-x  root root   Oct  : modifyExtension.sh

-rwxr-xr-x  root root   Oct  : mulTable.sh

-rwxr-xr-x  root root   Oct  : numSort.sh

-rwxr-xr-x  root root   Oct  : progressBar2.sh

-rwxr-xr-x  root root   Oct  : progressBar.sh

-rwxr-xr-x  root root   Oct  : randowName.sh

-rwxr-xr-x  root root   Oct  : sum.sh

-rwxr-xr-x  root root    Oct   : test.sh

[root@VM_0_10_centos shellScript]# ls -l *.sh | awk '{sum+=$5} END {print sum}'

3）打印九九乘法表

[root@VM_0_10_centos shellScript]# seq  | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i

==NR?"\n":"\t")}'
1x1=

1x2=    2x2=

1x3=    2x3=    3x3=

1x4=    2x4=    3x4=    4x4=

1x5=    2x5=    3x5=    4x5=    5x5=

1x6=    2x6=    3x6=    4x6=    5x6=    6x6=

1x7=    2x7=    3x7=    4x7=    5x7=    6x7=    7x7=

1x8=    2x8=    3x8=    4x8=    5x8=    6x8=    7x8=    8x8=

1x9=    2x9=    3x9=    4x9=    5x9=    6x9=    7x9=    8x9=    9x9=

4）统计passwd账户人数

[root@VM_0_10_centos shellScript]# awk '{count++;} END{print "USER Total:" count}' /tmp/passwd

USER Total:

[root@VM_0_10_centos shellScript]# awk 'BEGIN {COUNT=0;print "[start]:" COUNT} {COUNT++;} END{print "USER Total:" COUNT }'

/tmp/passwd [start]:

USER Total:

[root@VM_0_10_centos shellScript]# awk 'BEGIN {COUNT=0;print "[start]:" COUNT} {COUNT+=1;} END{print "USER Total:" COUNT }'

 /tmp/passwd [start]:

USER Total:

5）查询某个文件字节大小

[root@VM_0_10_centos shellScript]# ll users.txt | awk 'BEGIN {SIZE=0} {SIZE=$5+SIZE} END {print "[end] SIZE:" SIZE}'

[end] SIZE:

或

[root@VM_0_10_centos shellScript]# ll numSort.sh | awk 'BEGIN {SIZE=0} {SIZE=$5+SIZE} END {print "[end] SIZE:" SIZE/1024/10

 ,"M"}'[end] SIZE:0.000804901 M

补充单位换算：

6）经典：查看服务器的连接状态

[root@VM_0_10_centos shellScript]# netstat -an|awk '/^tcp/ {++s[$NF]} END{for(a in s)print a,s[a]}'

LISTEN

ESTABLISHED

TIME_WAIT

7）查看日志访问情况

awk '{a[$7]+=$10;++b[$7];total+=$10}END{for(x in a)print b[x],x,a[x]|"sort -rn -k1";print

"total size is :"total}' /app/log/access_log

【文本处理命令】之awk命令详解的更多相关文章

linux管道命令grep命令参数及用法详解---附使用案例|grep
功能说明:查找文件里符合条件的字符串. 语法:grep [-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>] ...
linux sed命令参数及用法详解
linux sed命令参数及用法详解 http://blog.csdn.net/namecyf/article/details/7336308 1. Sed简介 sed 是一种在线编辑器,它一次处理一 ...
linux mount命令参数及用法详解
linux mount命令参数及用法详解非原创,主要来自 http://www.360doc.com/content/13/0608/14/12600778_291501907.shtml. htt ...
【转】linux expr命令参数及用法详解
在抓包过程中,查看某个设定时间内,数据上下行多少,用命令expr 计算! --------------------------------------------------------------- ...
linux useradd(adduser)命令参数及用法详解(linux创建新用户命令)
linux useradd(adduser)命令参数及用法详解(linux创建新用户命令) useradd可用来建立用户帐号.帐号建好之后,再用passwd设定帐号的密码．而可用userdel删除帐号 ...
linux dmesg命令参数及用法详解(linux显示开机信息命令)
linux dmesg命令参数及用法详解(linux显示开机信息命令) http://blog.csdn.net/zhongyhc/article/details/8909905 功能说明:显示开机信 ...
Linux Bash命令关于程序调试详解
转载:http://os.51cto.com/art/201006/207230.htm 参考:<Linux shell 脚本攻略>Page22-23 Linux bash程序在程序员的使 ...
linux dd命令参数及用法详解---用指定大小的块拷贝一个文件（也可整盘备份）
linux dd命令参数及用法详解---用指定大小的块拷贝一个文件日期:2010-06-14 点击:3830 来源: 未知分享至: linux dd命令使用详解 dd 的主要 ...
(转)linux expr命令参数及用法详解
linux expr命令参数及用法详解原文:http://blog.csdn.net/tianmohust/article/details/7628694 expr用法 expr命令一般用于整数值, ...
(转)Linux命令之Ethtool用法详解
Linux命令之Ethtool用法详解原文:http://www.linuxidc.com/Linux/2012-01/52669.htm Linux/Unix命令之Ethtool描述:Ethtoo ...

随机推荐

spring boot 加入mail邮件支持
一.添加依赖  <dependency> <groupId>org.springframework.boot</groupId> ...
Appium使用总结
目前在使用appium过程中遇到的一些问题及规避方法总结如下: Appium使用总结:1.在熄屏下启动测试,会自动唤醒屏幕2.Appium只针对单个应用测试3.使用unittest框架,该框架中每条用 ...
5G技术发展迅猛，亚博电竞（yabo055）搭上科技快车
要说当前互联网科技最为令人期待的当属yabo055点康母的5G技术了.自2018年5G标准确定以来,民众就对5G非常的期待,而亚博电竞早已意识到了5G时代的来临势不可挡,早已着手将5G运用于网站和游戏 ...
ReactNative: 使用标签栏组件TabBarIOS组件
一.简介标签栏Tab的作用对于应用程序那是不言而喻的,它是应用程序中除了导航栏组件外的又一个核心组件,使用它可以实现页面的切换.RN提供了一个TabBarIOS组件来完成页面的切换(视图或者路由), ...
织女星开发板启动模式修改——从ARM M4核启动
前言刚开始玩织女星开发板的时候,想先从熟悉的ARM核入手,连上Jlink,打开MDK版本的Demo程序,编译OK,却检测不到芯片,仔细看了一下文档,原来RV32M1芯片默认从RISC-V核启动,如果 ...
ETCD:与etcd进行交互
原文地址:Interacting with etcd 与etcd进行交互用户更多的是通过putting或者是getting从etcd获取一个键对应的值.这一部分描述了如何通过etcdctl做这些工作 ...
ASP.NET Core SignalR：基础概述
一.简介 ASP.NET Core SignalR 是一个开源代码库,它简化了向应用添加实时 Web 功能的过程. 实时 Web 功能使服务器端代码能够即时将内容推送到客户端. SignalR 的适用 ...
Redis在Window下的安装部署
一.下载由于redis官方不支持windows,所以需要在github上下载window的版本:下载地址.redis约定版次版本号(即第一个小数点后的数字)为偶数的版本是稳定版本(如2.8,3.0) ...
GROUP BY中的WITH CUBE、WITH ROLLUP原理测试及GROUPING应用
前几天,看到一个群友用WITH ROLLUP运算符.由于自个儿没用过,看到概念及结果都云里雾里的,所以突然来了兴趣对生成结果测了一番. 一.概念: WITH CUBE:生成的结果集显示了所选列中值的所 ...
Selenium(三)：操控元素的基本方法
1. 操控元素的基本方法选择到元素之后,我们的代码会返回元素对应的 WebElement对象,通过这个对象,我们就可以操控元素了. 操控元素通常包括: 点击元素在元素中输入字符串,通常是对输入框这 ...

【文本处理命令】之awk命令详解