参考资料:
http://man.linuxde.net/awk

http://www.cnblogs.com/chengmo/archive/2013/01/17/2865479.html

http://bbs.chinaunix.net/thread-691456-1-1.html

awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk做大的优势。

awk还提供了一系列内置的运算函数(如log、sqr、cos、sin等)和一些用于对字符串进行操作(运算)的函数(如length、substr等等)。这些函数的引用大大的提高了awk的运算功能。作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk也不例外,awk中允许进行多种测试,作为样式匹配,还提供了模式匹配表达式~(匹配)和~!(不匹配)。作为对测试的一种扩充,awk也支持用逻辑运算符。

awk命令格式

awk [options] 'script' var=value file(s)

awk [options] -f scriptfile var=value file(s)

option有以下选择:

-F fs:fs为分隔符,可以是字符串也可以是正则表达式,这个作用就是制定分隔符

-v:赋值一个用户定义变量,将外部变量传递给awk。VAR=10000 echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
或者:

var1="aaa"

var2="bbb"

echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2
变量之间用空格分隔作为awk的命令行参数跟随在BEGIN、{}和END语句块之后。

script脚本的结构

awk 'BEGIN{ commands } pattern { commands } END{ commands }'

awk脚本通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成,这三个部分是可选的。任意一个部分都可以不出现在脚本中,脚本通常是被单引号或双引号中,例如: awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename

第一步:执行BEGIN{ commands }语句块中的语句;

第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ commands }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。

第三步:当读至输入流末尾时,执行END{ commands }语句块。

BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。 END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块。 pattern语句块中的通用命令是最重要的部分,它也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块。print中双引号里的内容是直接打印的。pattern语句块类似一个循环体,会对文件中的每一行进行迭代。

awk的内置变量

$n 当前记录的第n个字段,比如n为1表示第一个字段,n为2表示第二个字段。 

$0 这个变量包含执行过程中当前行的文本内容。

FILENAME 当前输入文件的名。

FS 字段分隔符(默认是任何空格)。

NF 表示字段数,在执行过程中对应于当前的字段数。

NR 表示记录数,在执行过程中对应于当前的行号。 

OFMT 数字的输出格式(默认值是%.6g)。

OFS 输出字段分隔符(默认值是一个空格)。

ORS 输出记录分隔符(默认值是一个换行符)。

RS 记录分隔符(默认是一个换行符)。

使用print $NF可以打印出一行中的最后一个字段,使用$(NF-1)则是打印倒数第二个字段,其他以此类推。

统计文件中的行数:awk 'END{ print NR }' filename。这里只使用了END语句块,在读入每一行的时,awk会将NR更新为对应的行号,当到达最后一行NR的值就是最后一行的行号,所以END语句块中的NR就是文件的行数。

一个每一行中第一个字段值累加:awk 'BEGIN{ sum=0; print "总和:" } { print $1"+"; sum+=$1 } END{ print "等于"; print sum }'

awk的运算

和普通语言的运算一样,||&&,只有~匹配正则表达式,~!不匹配正则表达式。

awk中next语句使用:在循环逐行匹配,如果遇到next,就会跳过当前行,直接忽略下面语句。而进行下一行匹配。next语句一般用于多行合并。当记录行号除以2余1,就跳过当前行。下面的print NR,$0也不会执行。下一行开始,程序有开始判断NR%2值。这个时候记录行号是:2 ,就会执行下面语句块:'print NR,$0'

打印偶数行:awk 'NR%2==1{next}{print NR,$0;}' awktext.txt

awktext.txt中的内容如下:

将包含有aa的行跳过:awk '/^aa/{next;}{print "\t"$0;}' awktest.txt

结果:

awk中允许用如下方式将结果输出到一个文件

echo | awk '{printf("hello word!n") > "datafile"}' 或 echo | awk '{printf("hello word!n") >> "datafile"}'

在linux awk的while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。awk中,流程控制语句,语法结构,与c语言类型。每条命令语句后面可以用;分号结尾。

awk 'BEGIN{

test=100;

total=0;

while(i<=test){

total+=i;

i++;

}

print total;

}'

awk数组

数组是awk的灵魂,处理文本中最不能少的就是它的数组处理。因为数组索引(下标)可以是数字和字符串在awk中数组叫做关联数组(associative arrays)。awk 中的数组不必提前声明,也不必声明大小。数组元素用0或空字符串来初始化,这根据上下文而定。字符串和数字都可以做数组下标。

{ for(item in array) {print array[item]}; } #输出的顺序是随机的

{ for(i=1;i<=len;i++) {print array[i]}; } #Len是数组的长度
得到数组长度:awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'
删除数组:delete array[key]可以删除,对应数组key的,序列值。

awk中有一些字符串的处理函数,使用的话可以查询。

打开外部文件(close用法):

awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'

逐行读取外部文件(getline使用方法):

awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'

awk 'BEGIN{print "Enter your name:";getline name;print name;}'

调用外部应用程序(system使用方法):

awk 'BEGIN{b=system("ls -al");print b;}'

awk应用例子

单双引号的差别是:shell对单引号中的内容不解释,直接传给awk,而对双引号中的内容解释后再传给awk.

1、 awk '/101/'   file             显示文件file中包含101的匹配行。
      awk '/101/,/105/'  file       显示文件file中包含101到105的匹配行。

awk '$1 == 5'   file            显示文件file中第一字段值为5的行。

awk '$1 == "CT"'  file        显示文件file中第一字段值为CT的行。注意必须带双引号
      awk '$1 * $2 >100 '   file    显示文件file中第一字段值和第二字段值乘积大于100的行。

awk '$2 >5 && $2<=15'   file    显示文件file中第2字段值大于5同时小于15的行。

2、 awk '{print NR,NF,$1,$NF,}' file   显示文件file的当前记录号、域数和每一行的第一个和最后一个域。
      awk '/aa/ {print $1,$2 + 10}' file    显示文件file的匹配行的第一、二个域加10。
      awk '/aa/ {print $1$2}'  file           找出匹配的行,在输出 等同于下面语句
      awk '/aa/ {print $1 $2}' file     显示文件file的匹配行的第一、二个域,但显示时域中间没有分隔符。
3、 df | awk '$4>1000000 '         通过管道符获得输入,如:显示第4个域满足条件的行。
4、 awk -F “|” '{print $1}'   file      按照新的分隔符“|”进行操作。
      awk  'BEGIN { FS="[: \t|]" }
     {print $1,$2,$3}'    file               通过设置输入分隔符(FS="[: \t|]")修改输入分隔符。

Sep="|"
     awk -F $Sep '{print $1}'  file          按照环境变量Sep的值做为分隔符。   
     awk -F '[ :\t|]' '{print $1}' file          按照正则表达式的值做为分隔符,这里代表空格、:、TAB、|同时做为分隔符。
     awk -F '[][]'    '{print $1}' file          按照正则表达式的值做为分隔符,这里代表[、]

5、awk -f awkfile              file 通过文件awkfile的内容依次进行控制。
     cat awkfile
     /101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。
     {print $1,$2}                               --因为没有模式控制,打印每一行的前两个域。
6、awk '$1 ~ /101/ {print $1}' file             显示文件中第一个域匹配101的行(记录)。
7、awk   'BEGIN { OFS="%"} {print $1,$2}'    file         通过设置输出分隔符(OFS="%")修改输出格式。
8、取得文件第一个域的最大值

awk   'BEGIN { max=100 ;print "max=" max}             BEGIN 表示在处理任意行之前进行的操作。
     {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 
9、  awk '/tom/ {wage=$2+$3; printf wage}' file             找到匹配行后为变量wage赋值并打印该变量。
10、awk '/tom/ {count++;} 
         END {print "tom was found "count" times"}' file             END表示在所有输入行处理完后进行处理。

11、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串
      Flag=abcd
      awk '{print '$Flag'}'   结果为abcd
      awk '{print  "$Flag"}'   结果为$Flag

12、比如以下这个例子:
     a.sh脚本内容
  CPU_MIN=90
  cat aa|awk "{print $CPU_MIN,$1}"

  执行时带个参数:a.sh  1234
  如果按你的说法应该显示: 90  1234
  但实际上只显示90,为什么$1的值没有取到,是否应该和awk本身的变量定义有冲突。如果不使用中间变量,这个1234如何传递到awk中?

  $1是awk的特殊变量,不应该被shell解释。可以这样:
  cat aa|awk "{print $CPU_MIN,\$1}"

awk文本处理知识汇总的更多相关文章

  1. 最全的jQuery知识汇总

    本帖最后由 断天涯大虾 于 2016-12-26 10:22 编辑<ignore_js_op> jQuery是什么? jQuery是javascript编写一个可重用的JavaScript ...

  2. jquery基础知识汇总

    jquery基础知识汇总 一.简介 定义 jQuery创始人是美国John Resig,是优秀的Javascript框架: jQuery是一个轻量级.快速简洁的javaScript库.源码戳这 jQu ...

  3. 网站开发进阶(二十二)HTML UI知识汇总(更新中...)

    HTML知识汇总(更新中...) 1.<iframe> 标签 浏览器支持 所有浏览器都支持 <iframe> 标签. 定义和用法 iframe 元素会创建包含另外一个文档的内联 ...

  4. JSP知识汇总

    JSP知识汇总 一.简介 > HTML - HTML擅长显示一个静态的网页,但是不能调用Java程序. > Servlet - Servlet擅长调用Java程序和后台进行交互,但是它不擅 ...

  5. Java快速入门-03-小知识汇总篇(全)

    Java快速入门-03-小知识汇总篇(全) 前两篇介绍了JAVA入门的一系小知识,本篇介绍一些比较偏的,说不定什么时候会用到,有用记得 Mark 一下 快键键 常用快捷键(熟记) 快捷键 快捷键作用 ...

  6. 沉淀,再出发:Java基础知识汇总

    沉淀,再出发:Java基础知识汇总 一.前言 不管走得多远,基础知识是最重要的,这些知识就是建造一座座高楼大厦的基石和钢筋水泥.对于Java这门包含了编程方方面面的语言,有着太多的基础知识了,从最初的 ...

  7. JavaScript正則表達式知识汇总

    Js 正則表達式知识汇总 正則表達式: 1.什么是RegExp?RegExp是正則表達式的缩写.RegExp 对象用于规定在文本中检索的内容. 2.定义RegExp:var +变量名=new RegE ...

  8. Oracle手边常用70则脚本知识汇总

    Oracle手边常用70则脚本知识汇总 作者:白宁超 时间:2016年3月4日13:58:36 摘要: 日常使用oracle数据库过程中,常用脚本命令莫不是用户和密码.表空间.多表联合.执行语句等常规 ...

  9. Oracle 数据库知识汇总篇

    Oracle 数据库知识汇总篇(更新中..) 1.安装部署篇 2.管理维护篇 3.数据迁移篇 4.故障处理篇 5.性能调优篇 6.SQL PL/SQL篇 7.考试认证篇 8.原理体系篇 9.架构设计篇 ...

随机推荐

  1. 【Longest Valid Parentheses】cpp

    题目: Given a string containing just the characters '(' and ')', find the length of the longest valid ...

  2. 线程生命周期状态UML图

  3. 【Android】cocos2d-x-3.1.1环境搭建与创建工程( Win7 32位系统)

    参考资料: http://blog.csdn.net/wxc237786026/article/details/32907079 1.环境搭建 2.创建工程 2.1 VS2012运行 2.2 Andr ...

  4. 设计模式之工厂模式(Factory)

    设计模式的工厂模式一共有三种:简单工厂模式,工厂模式,抽象工厂模式 简单工厂模式原理:只有一个工厂类,通过传参的形式确定所创建的产品对象种类 代码如下: #include <stdio.h> ...

  5. Matlab实现网络拓补图

    顶点号 顶点号 权值 1 2 400 1 3 450 2 4 300 2 8 230 2 9 140 3 4 600 4 5 210 4 19 310 5 6 230 5 7 200 6 7 320 ...

  6. poj 1185

    上一题的升级版 dp[i][j][k] 表示第 i 行状态为 k 第i-1行状态为 j #include <cstdio> #include <cstdlib> #includ ...

  7. lagstash + elasticsearch + kibana 3 + kafka 日志管理系统部署 02

    因公司数据安全和分析的需要,故调研了一下 GlusterFS + lagstash + elasticsearch + kibana 3 + redis 整合在一起的日志管理应用: 安装,配置过程,使 ...

  8. jQuery .tmpl() 用法

    动态请求数据来更新页面是现在非常常用的方法,比如博客评论的分页动态加载,微博的滚动加载和定时请求加载等. 这些情况下,动态请求返回的数据一般不是已拼好的 HTML 就是 JSON 或 XML,总之不在 ...

  9. Unity3D之Assetbundle

    原地址: Unity3D之Assetbundle 有几个地方需要注意下 1.如何解决资源重复加载的问题 2.初始化了就直接出现在场景中了  感觉怪怪的 3.标红的地方要注意下  prefab上挂载的脚 ...

  10. Oracle自带的用户

    Oracle安装完毕创建数据库实例的时候,会自动生成三个用户sys,system,scott. sys用户是超级管理员,具有最高权限,充当sysdba角色,可以执行create database,默认 ...