在上文 awk(1)-简述我们将简要描述了awk的主要使用方向和构成(由一个或多个模式-动作组成),本小节主要讲述awk的各种模式。

ps:例子中使用的输入文件(如countries)内容可由awk(1)-简述获取

模式是什么

ls -l | awk 'NR > 1 && $5 > 1024 {print $9}' //打印当前目录下面,大小大于1K(1024)的文件或目录名称

加粗字体部分即为模式,由此可见模式的主要作用是用于匹配.

有多少种模式

awk programing中作者将awk的模式分为6种,在此处我更倾向于分为下面4类模式:

(1).BEGIN/END(开始和结束执行的特殊模式)

(2).express(判断表达式,包含单个或使用逻辑运算符组合的多个判断,如: $5 != 10 || $3 == 3)

(3)./reg/(正则表达式的匹配)

(4)./pattern1/,/pattern2/(范围表达式)

3.模式的使用

(1).BEGIN/END

BEGIN/END 不匹配任何输入行,BEGIN在awk读取输入前执行,END在awk完成输入后执行

比如:

awk  'BEGIN{FS="\|\|";print "=====================";printf("%.4s\t%.10s\n","ID","Name")} {printf("%.4s\t%.10s\n",$1,$2)} END{print "====================="}' worker.txt

输出为:

=====================
ID    Name
1      Jack
2      Lip
=====================

FS说明:

FS为awk的内置变量,用于设定当前输入记录的分隔符. 默认为空格,可以使用命令行选项-F替代.

如上面的例子等价于:

awk  -F "\|\|" 'BEGIN{print "=====================";printf("%.4s\t%.10s\n","ID","Name")} {printf("%.4s\t%.10s\n",$1,$2)} END{print "====================="}' worker.txt

上面的例子中我们设定FS="\|\|"(多字符,且添加转义字符\),那么FS设定的匹配规则是什么?

如果将一个字符赋值给FS,那么记录的分隔符就为单个字符(不管是否为元字符)

如果将一个字符串(length>1)赋值给FS,那么它就会替换成一个正则表达式.

关于awk的正则表达式的匹配规则,我们将在(3)/reg/字符串匹配描述.

(2).express

该模式主要是 常规运算符如: <,>..,配合常规逻辑运算符 &&,||..等使用,使用方式类似于:
if(express){
    //do something
}

如:

ls -l | awk 'NR > 1 {print}' //输出去除了ls –l的总用量一行的内容

输出为:

-rw-rw-r-- 1 fengyun fengyun 266 11月 21 13:16 countries
-rw-rw-r-- 1 fengyun fengyun   0 11月 21 13:16 empty.txt
-rw-rw-r-- 1 fengyun fengyun  61 11月 17 13:20 worker.txt

ps:print 后面不接任何内容的话,默认为$0

(3)/reg/ 字符串匹配

一个字符串匹配模式 (string-matching pattern) 测试一个字符串是否包含一段可以被正则表达式

关于/reg/的匹配存在3种方式:

(1)./reg/ //匹配整个输入行即没有使用默认的字段即使用$0

如:

awk '/Asia/ {printf("%-5s belongs to Asia\n",$1)}' countries

输出为:

USSR  belongs to Asia
China belongs to Asia
India belongs to Asia
Japan belongs to Asia

(2).expression ~/reg/ //匹配单个被分隔的项目,比如$1,$2

如:
awk '$4 ~ /Asia/ {printf("%-5s belongs to Asia\n",$1)}' countries
输出为:
USSR  belongs to Asia
China belongs to Asia
India belongs to Asia
Japan belongs to Asia

(3).expression !~/r //不包含为true

如:
awk '$4 !~ /Asia/ {printf("%-7s not belongs to Asia\n",$1)}' countries
输出为:
Canada  not belongs to Asia
USA     not belongs to Asia
Brazil  not belongs to Asia
Mexico  not belongs to Asia
France  not belongs to Asia
Germany not belongs to Asia
England not belongs to Asia

另外awk支持regular符号表见下(元字符)

元字符 含义 例子
\

转义字符

awk  -F "\|\|" {print $1} worker.txt//打印每条记录的第1个字段
^

匹配一行的开始,在[]中表示非

awk '/^[^U]/ {print}' countries //匹配不以U为开头的记录
$

匹配一行的结束

awk '/a$/ {print}' countries //记录匹配以a为结尾
[ ] [ ] 匹配一个范围如:[A-Za-z]或[^0-9] awk '$1~/[A-G]/ {print $0}' countries//第1个字段匹配存在A-G字母(范围)
| awk '$1~/A|B/ {print $0}' countries//第1个字段匹配存在A或B字母
( ) 匹配一个字符串 awk '$1~/(USA)/ {print $0}' countries//第1个字段匹配为USA的记录
.

匹配任意1个字符(有且仅有1个)

awk '$4 ~/^A..a$/ {print}' countries //第4个字段匹配以A开头且结尾为a的4个字符的
+

匹配1或多个字符

awk '$1~/US+/ {print $0}' countries//第1个字段匹配存在US或USS等多个S
?

匹配 0 或 1个字符

awk '$1~/S?/ {print $0}' countries //第1个字段匹配存在0或1个S
* 匹配0或多个字符 awk '$1~/S*/ {print $0}' countries //第1个字段匹配存在0或多个个S

awk中正则的组合符号主要是直接组合(reg1)(regs)或reg1|reg2
比如:
(Asian|European|North American) (male|female) (black|blue)bird
一共匹配12种字符串,由Asian male blackbird到North American female bluebird

如在worker.txt新增1行:3**Mario||27||female||Japan

此时FS可以写成:awk -F "\|\| | \*\*" '{print $1}' worker.txt

ps:

由[](范围-互补)中,内部的字符即使需要直接对元字符的匹配也不需要进行转义,
比如: ^[^^] 匹配不以^字符开始的字符串.

采用其余方式使用元字符进行字符串匹配的都需要对元字符进行转义,
比如:awk '/^(\^)+/ {print $0}' countries //匹配以一个^或多个^^为首的字符串

(4)pattern1,pattern2(范围表达式)

一个范围模式由两个逗号分开的模式组成,范围匹配如:/reg1/,/reg2/

比如:

awk '/USSR/,/Japan/ {print}' countries //文档匹配USSR到Japan 的字符串
输出:
USSR 8649 275 Asia
Canada 3852 25 North America
China 3705 1032 Asia
USA 3615 237 North America
Brazil 3286 134 South America
India 1267 746 Asia
Mexico 762 78 North America
France 211 55 Europe
Japan 144 120 Asia

4.总结

本节主要描述了构成awk两大元素之一的模式(pattern),awk的模式主要可以分为4类:

1.BEGIN/END

2.常规表达式

3.正则匹配

4.范围匹配

其中正则表达式的难度最大,需要更多时间的加以实践

5.参考

awk(2)-模式(pattern)的更多相关文章

  1. awk模式pattern

    awk模式pattern 再来回顾下awk的语法 awk [option] 'pattern[action]' file ... awk是按行处理文本,刚才讲解了print动作,现在讲解特殊的patt ...

  2. Redis Keys 命令 - 查找所有符合给定模式( pattern)的 key

    Redis Keys 命令用于查找所有符合给定模式 pattern 的 key .. 语法 redis KEYS 命令基本语法如下: redis 127.0.0.1:6379> KEYS PAT ...

  3. 如何使用 awk 按模式筛选文本或字符串

    在筛选文本时,有时你可能想根据某个给定的条件或使用一个可被匹配的特定模式,去标记某个文件或数行字符串中的某几行.使用 awk 来完成这个任务是非常容易的,这也正是 awk 中可能对你有所帮助的几个功能 ...

  4. 正则表达式(即:匹配模式Pattern)

    通过学习<正则表达式-Regular-Expression-Tutorial.pdf>这份文档,对正则表达式有了很好的了解,原因只有1个--这份文档写得太好了. 它的下载地址是:http: ...

  5. grep使用技巧一:模式pattern为字符串文件

    pattern文件: antc  areq  bdos  bogt   …… igs.txt文件: abmf    298.4725   16.2623   abpo     47.2292  -19 ...

  6. 桥接模式-pattern系列

    git链接 桥接模式 桥梁模式的用意是"将抽象化(Abstraction)与实现化(Implementation)脱耦,使得二者可以独立地变化".这句话有三个关键词,也就是抽象化. ...

  7. awk应用

    h3 { color: rgb(255, 255, 255); background-color: rgb(30,144,255); padding: 3px; margin: 10px 0px } ...

  8. [Swift]LeetCode890. 查找和替换模式 | Find and Replace Pattern

    You have a list of words and a pattern, and you want to know which words in words matches the patter ...

  9. 给定一种 pattern(模式) 和一个字符串 str ,判断 str 是否遵循相同的模式。 这里的遵循指完全匹配,例如, pattern 里的每个字母和字符串 str 中的每个非空单词之间存在着双向连接的对应模式。

    这个是LeetCode上的一道题目.本机上运行时正确的,但是LeetCode上显示是错误的,所以没有办法了只能记录在博客上了. 我的想法是先把pattern和str都转化成数组.例如"abb ...

随机推荐

  1. Microsoft.Office.Interop第三方程序 ppt 转换为PDF出错

    错误信息:Retrieving the COM class factory for component with CLSID {91493441-5A91-11CF-8700-00AA0060263B ...

  2. 基于注解的Spring AOP示例

    基于注解的Spring AOP示例 目录 在XML配置文件中开启 @AspectJ 支持 声明切面及切入点 声明通知 测试 结语 在XML配置文件中开启 @AspectJ 支持 要使用Spring的A ...

  3. linux设备模型

    device_driver和device必须依附总线.总线.驱动.设备最终会落实为sysfs中的一个目录.kobject对应sysfs的一个目录. attribute直接落实sysfs中的一个文件,如 ...

  4. IT技术学习指导之Linux系统入门的4个阶段(纯干货带图)

    IT技术学习指导之Linux系统入门的4个阶段(纯干货带图) 全世界60%的人都在使用Linux.几乎没有人没有受到Linux系统的"恩惠",我们享受的大量服务(包括网页服务.聊天 ...

  5. 搭建apache http服务器

    异步: http://blog.csdn.net/lzhlzz/article/details/39496285

  6. 腾讯的一道JavaScript面试题

    //题目:分别弹出什么内容? <!-- function test(){ this.a = 1; alert(this); //[object Window] } test(); var t = ...

  7. koa框架异步返回值的操作(co,koa-compose)

    最近在做demo的时候使用了koa框架,自己做了一个静态服务器,首先判断访问文件是否存在,在回调函数中设置了this.body,run之后,各种404,花了N长的时间把koa-compose和co模块 ...

  8. http Content-type对照表

    http://tools.jb51.net/table/http_content_type Content-Type,内容类型,一般是指网页中存在的Content-Type,用于定 义网络文件的类型和 ...

  9. 常见Xcode参数设置错误

    错误1 dyld: Library not loaded: /System/Library/Frameworks/AdSupport.framework/AdSupport Referenced fr ...

  10. Apache MiNa 实现多人聊天室

    Apache MiNa 实现多人聊天室 开发环境: System:Windows JavaSDK:1.6 IDE:eclipse.MyEclipse 6.6 开发依赖库: Jdk1.4+.mina-c ...