Linux awk工具简单学习记录
awk是一个文本分析工具,它把文件逐行读入,以特定符号将每行切分(默认空格为分隔符),切开的部分再进行各种分析处理。
awk其名称得自于它的创始人Alfred Aho 、Peter Weinberger 和Brian Kernighan 姓氏的首个字母。
事实上,awk有4个不同版本:awk、nawk和gawk,还有一个是mawk。gawk 是AWK的GNU版本,通常未作特别说明的awk一般指的是gawk。在RedHat系统中,默认是gawk,而在Ubuntu系统中,默认是mawk。如果需要使用gawk,可以使用apt-get来进行安装,如下:
sudo apt-get install gawk -y
安装完毕后,默认即为gawk,如果还不是默认,可以通过 update-alternatives 命令来进行更改,如下:
sudo update-alternatives --config awk
可以通过输入编号来设置默认的awk版本:

下面是关于awk的使用帮助:

像其他编程语言一样,awk中有一些内置变量,内置变量部分列表如下(重要且常用):
| 属性 | 说明 |
| $0 | 每次读入的一整行 |
| $1 ~ $n | 当前读入行的第n个字段 |
| FS | 字段分隔符,默认是空格 |
| NF | 当前读入行中的字段个数,也即有多少列 |
| NR | 累计读入行的数量,从1开始,多文件处理时累加 |
| FNR | 已经读入某一文件行的数量,就是行号,从1开始,多文件处理时不累加 |
| ARGC | 命令行参数个数 |
| ARGV | 命令行参数数组 |
| BEGIN | 程序开始之前要做的事(仅做一次) |
| END | 程序结束之前要做的事(仅做一次) |
| FILENAME | 当前输入文件的名字 |
awk中的数组无需提前声明,数组下标也不必为整数int类型,可以为字符串string类型,与其说是数组,不如说是映射。
数组下标从1开始,而不是从0开始。
使用for ... in 遍历数组时,每次遍历取得的是数组的index索引,而不是数组元素。
结合上面列举的几个知识点,用个具体例子展示一下。对于有如下的文件:
$ cat word.txt 123456@163.com----a3452801----186035955----123456@163.com
123123@qq.com----wg123123----150731947----123123@qq.com
777888@163.com----li600613----136498718----777888@163.com
456654@qq.com----try649471----134169500----456654@qq.com
159741@qq.com----somechou----186966954----159741@qq.com
现在使用awk先输出“第X列”,然后再读取每一列,代码如下:
awk -F'----' 'BEGIN {print "第一列\t\t第二列\t\t第三列\t\t第四列"} {for(a=1;a<=NF;a++) printf("%s\t",$a);print ""}' word.txt
程序执行结果:

说明:先使用"-F"选项以及"----"字符串指出如何切分每一行,然后在程序开始之前打印一次“第X列”。之后用 for 循环来读取一行中的每一列,for 循环中用到了内置变量NF,NF如前所述,是总的列数量。最后使用 print ""来打印一个换行,print必须带一个空字符串"",否则默认打印每一个列。
下面再用个例子来展示awk中的一种数组功能,文件及其内容依然是上面所给出的那样,这次是将每一列作为一行打印出来,代码如下:
awk -F'----' '{for(a=1;a<=NF;a++) arr[(NR-1)*NF+a]=$a} END{for(each in arr) print arr[each]}' word.txt
程序执行结果:

说明:先使用"-F"选项以及"----"字符串指出如何切分每一行。之后用 for 循环来读取一行中的每一列,for 循环中用到了内置变量NF和NR,用NF和NR来计算每一列的index索引并放入数组arr中。这里需要注意的是 a 和 $a,a表示的是下标索引,$a表示的索引对应的值。最后在程序结束之前使用 for ... in 循环遍历数组,将每一列作为一行打印出来。
最后,一个关于awk的坑,在awk中,处理逻辑部分的语句,不要使用双引号,而要使用单引号,否则会出现无法切割的问题,这与shell的变量$是否解释没有关系,如下:
cat a.txt|awk -F "=" "{print 'yes'}"
如果上面的{print yes}使用双引号包含,则会无法切割每一行,必须使用单引号,应该为 ' { print "yes" } '
Linux awk工具简单学习记录的更多相关文章
- Linux——帮助命令简单学习笔记
Linux帮助命令简单学习笔记: 一: 命令名称:man 命令英文原意:manual 命令所在路径:/usr/bin/man 执行权限:所有用户 语法:man [命令或配置文件] 功能描述:获得帮助信 ...
- Linux命令行及Vim简单学习记录
Linux命令行 1.打开命令行 Ctrl+Alt+t 2.目录 显示当前目录的文件列表 ls 跳转至当前目录中的x文件夹 cd x 返回根目录 cd 3.文件 新建文件1.cpp touch ./1 ...
- awk命令简单学习
请执行命令取出linux中eth0的IP地址(请用cut,有能力者也可分别用awk,sed命令答). 解答: 说明:此题解答方法已经给大家讲解了不下15种,还可以有很多,在这里给大家着重讲下awk的技 ...
- 和菜鸟一起学linux之DBUS基础学习记录
D-Bus三层架构 D-Bus是一个为应用程序间通信的消息总线系统, 用于进程之间的通信.它是个3层架构的IPC 系统,包括: 1.函数库libdbus ,用于两个应用程序互相联系和交互消息. 2.一 ...
- 【转】和菜鸟一起学linux之DBUS基础学习记录
[原文] D-Bus三层架构 D-Bus是一个为应用程序间通信的消息总线系统, 用于进程之间的通信.它是个3层架构的IPC 系统,包括: 1.函数库libdbus ,用于两个应用程序互相联系和交互消息 ...
- linux下计划任务学习记录
0x01 计划任务简介 linux 中计划任务主要分为”循环执行”和”只执行一次”两种,分别对应的时 crond 服务 和 atd 服务: 0x02 只执行一次的计划任务 0x02.1 atd 服务说 ...
- 和菜鸟一起学linux之DBUS基础学习记录(转)
转自:https://www.cnblogs.com/wuyida/p/6299998.html D-Bus三层架构 D-Bus是一个为应用程序间通信的消息总线系统, 用于进程之间的通信.它是个3层架 ...
- Linux 性能工具 - sar学习
简介 sar是一款在linux下的性能工具,可以观察到CPU,内存,IO,运行队列,每秒上下文切换等信息. 软件工具安装 #Ubuntu sudo apt-get install sysstat # ...
- Linux——用户管理简单学习笔记(一)
Linux用户分为三种: 1:超级用户(root,UID=0) 2:普通用户(UID 500-60000) 3:伪用户(UID 1-499) 伪用户: 1.伪用户与系统和程序服务相关 :nbin.d ...
随机推荐
- python中eval方法的使用
eval函数就是实现list.dict.tuple与str之间的转化str函数把list,dict,tuple转为为字符串# 字符串转换成列表a = "[[1,2], [3,4], [5,6 ...
- 第二次Scrum meeting
第二次Scrum meeting 任务及其要求: 成员 12.11 12.12 陈谋 完成Tags的爬取工作(已完成) stackoverflow的问题抽取 卢惠明 视频链接的挖掘和整理(未完成) 视 ...
- 2013337朱荟潼 Linux第三章读书笔记——进程管理
第三章 进程管理 总结 fork创造的子进程复制了父进程资源,包括内存及进程描述符的内容,资源的复制而不是指针的复制. vfork的行为更像一个线程(指没有自已独立的内存空间),更明显的是vfork的 ...
- OS X(10.10) python3.4 matplotlib的安装
最近在用python做一些数据处理相关的工作,当然少不了matplotlib这个模块.之前在windows下分分钟安装成功,结果到了mac下死活编译不过去. 最后还是在stackoverflow上找到 ...
- 英语学习/词典App分析-团队作业(五)
英语学习/词典APP排行五排名: 1.网易有道词典(单词查询翻译类软件). 2.百词斩(单词记忆类软件). 3.沪江开心词场. 4.金山词霸. 5.流利说英语(英语口语APP). 个软件的分析: 1. ...
- IIS错误提示:另一个程序正在使用此文件 进程无法访问
在IIS管理中,启动一个配置好的网站时,提示:另一个程序正在使用此文件 进程无法访问 原因:网站绑定端口被占用 解决办法:更换绑定端口或者将占用此端口的程序关掉即可
- PAT 甲级 1029 Median
https://pintia.cn/problem-sets/994805342720868352/problems/994805466364755968 Given an increasing se ...
- java 方法的返回类型
定义了返回值类型后 必须要执行 return 因为 当一个变量初始化时候 需要有数据 如果方法体里面没有返回数据类型时 这个变量是没有数据的 会报错 所以必须要返回一个数据 当一个方法体里面有 if ...
- C#委托的介绍(delegate、Action、Func、predicate)ga
转载:http://www.cnblogs.com/akwwl/p/3232679.html 感觉写的很好.例子也很简单明了.赞一个 委托是一个类,它定义了方法的类型,使得可以将方法当作另一个方法的参 ...
- 【刷题】LOJ 6002 「网络流 24 题」最小路径覆盖
题目描述 给定有向图 \(G = (V, E)\) .设 \(P\) 是 \(G\) 的一个简单路(顶点不相交)的集合.如果 \(V\) 中每个顶点恰好在 \(P\) 的一条路上,则称 \(P\) 是 ...