Linux中awk后面的RS, ORS, FS, OFS 含义

一、RS 与 ORS 差在哪
  我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。
  默认情况下,RS的值是\n。下面通过实例来理解下RS。 
echo '1a2a3a4a5' | awk '{print $1}'
1a2a3a4a5
echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'
1
2
3
4
5
我们可以看到,在更改了RS的值后,awk定义的行已经不是我们实际意义中的行了。
  上面RS固定的字符串,RS也可以定义为正则表达式。 
echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
1 [a-z]+ ab
2 [a-z]+ bc
3 [a-z]+ cd
4 [a-z]+ de
5 [a-z]+ 
当我们将RS设置为正则表达式的时候,RT这个变量就有作用了,RS的值始终为我们设定的正则,RT的值则是这个正则实际匹配到的内容。
如果RS被设置为空,那么awk会将连续的空行作为行分隔符,与RS设置成"\n\n+"有什么区别???
  1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉
  2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
  3、影响FS变量
  总结下RS的3种情况:
  1) 非空字符串
     以固定字符串作为行分隔符,同时设置变量RT为固定字符串
  2) 正则表达式
     以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
  3) 空字符
     以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中
  理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
  更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
  ORS的值只能设定为字符串,默认情况下,ORS的值是\n 
seq 5 | awk '{print $0}'
1
2
3
4
5
seq 5 | awk 'BEGIN{ORS="a"}{print $0}'
1a2a3a4a5a
我们平常用的 print $0 等价于 printf $0 ORS
二、FS 与 OFS 差在哪
  RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。
  设置变量 FS 与使用 -F 参数是一样的。 
echo '1,2' | awk -F , '{print $1}'
1
echo '1,2' | awk 'BEGIN{FS=","}{print $1}'
1
与 RS 类似,FS 同样可以设置为正则表达式 
echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
1 2 5
FS 有1个特例,就是将FS设置为一个空格,FS=" " ,这也是FS的默认值 
1.In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.
此时,awk会将连续的 空格 或 制表符(\t) 或 换行符(\n) 作为列的分隔符
  那么,FS=" " 与 FS="[ \t\n]+" 有区别么???
  答案是肯定的 
echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
1
echo ' 1 2' | awk 'BEGIN{FS="[ \t\n]+"}{print $1}'

当FS=" "时,awk会自动去掉行首和行尾的 空格 或 制表符(\t) 或 换行符(\n),但FS="[ \t\n]+"是不会的
  同样,FS也可以设置为空 
echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'

1 2
当FS被设置为空字符串的时候,awk会将一行记录的每个字符做为单独的一列
  类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS
  例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列 
echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
123 45 6789
echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 3"}{print $1,$2,$3}'
123 45 678
 echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 5"}{print $1,$2,$3}'
123 45 6789
如果定义的长度小于实际的长度,awk会截断,如果大于实际长度,则以实际长度为准。
  总结下FS的4种情况:
  1) 非空字符串
     以固定字符串作为列分隔符
  2) 正则表达式
     以正则表达式作为列分隔符
  3) 单个空格
     以连续的 空格 或 制表符(\t) 或 换行符(\n)作为列分隔符
  4) 空字符
     以每个字符做为单独的一列
  接下来我们来看看上节提到的问题:
  当 RS="" 时,会将\n强制加入到FS变量中 
cat urfile
1
a
 
2
a
 
 
3
awk -v RS="" '{print "#" $0 "#"}' urfile
#1
a#
#2
a#
#3#
awk -F "b" -v RS="" '{print $1}' urfile
1
2
3
awk -F "c" -v RS="" '{print $1}' urfile
1
2
3
awk -F "c" -v RS="\n\n+" '{print "#" $1 "#"}' urfile
#1
a#
#2
a#
#3
#
如果FS为单个字符,\n始终存在在 FS 中,而 RS="\n\n+" 则不会。
  了解的 FS ,我们来看看 OFS ,FS是awk读入记录时的列分隔符,OFS则是awk输出时的列分隔符。
  我们平时使用的 print $1,$2 等价于 print $1 OFS $2 
echo '1 2' | awk -v OFS="|" '{print $1,$2}'
1|2
echo '1 2' | awk -v OFS="|" '{print $1 OFS $2}'
1|2
如果一行记录有很多列,同时想改变输出的分隔符,print $1,$2,$3 ... 启不是很麻烦?
  当然有简单的方法: 
echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
1 2 3 4 5
 echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'
1|2|3|4|5
echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'
1|2|3|4|5

为了使OFS的设置生效,需要改变 $0 ,这里我们是对 awk 撒了个小谎
  $1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效

  在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”
  这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
  同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
  因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”
三、0 与 "0" 差在哪
  我们先来看一个例子: 
awk 'BEGIN{if(0) print "true";else print "false"}'
false
awk 'BEGIN{if("0") print "true";else print "false"}'
true
为什么同样是 0 ,结果却不一样?
  其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
  以下3种情况是“假”,其他情况都为“真”
  1) 数字 0
  2) 空字符串
  3) 未定义的值 
 awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
false
awk 'BEGIN{a="";if(a) print "true";else print "false"}'
false
awk 'BEGIN{if(a) print "true";else print "false"}'
false

awk如何去重? 
1.awk '! a[$0] ++'

在解释之前,我们先要了解awk的一个特性:
  awk 会根据语境来给未定义的变量赋初始值 
awk 'BEGIN{print a "" 1}'

1
 awk 'BEGIN{print a + 1}'
1

对于未定义的变量,如果要进行字符串操作,会被赋成空字符串 ""
  如果要进行数学运算,会被赋成数字 0

  现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
  对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
  也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
  ! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
  对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
  而 ! 1  ! 2  ! 3 ... 都为假,不会打印。
  下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行: 
seq 10 | awk 'i=!i'
1
3
5
7
9
 
 

Linux中awk后面的RS, ORS, FS, OFS 用法的更多相关文章

  1. Linux中awk后面的RS, ORS, FS, OFS 含义

    转载自http://blog.csdn.net/qq416647781/article/details/40649419   一.RS 与 ORS 差在哪   我们经常会说,awk是基于行列操作文本的 ...

  2. linux awk 中 RS,ORS,FS,OFS 区别与联系【转】

    linux awk 中 RS,ORS,FS,OFS 区别与联系 http://blog.csdn.net/jesseen/article/details/7992929

  3. 转 awk中RS,ORS,FS,OFS区别与联系

     今天用到awk ofs 看到一篇不错文章 awk中RS,ORS,FS,OFS区别与联系 张映 发表于 2010-12-02 分类目录: shell 标签:awk, FS, OFS, ORS, RS, ...

  4. awk中RS,ORS,FS,OFS区别与联系

    学习awk时,一定要记得动手去实践,只有在实践中才能发现问题,以下就我在学习中和实践中的经验,总结一下RS,ORS,FS,OFS的区别和联系. 一.OS和ORS 1.RS是记录分隔符,默认的分隔符是\ ...

  5. awk 中 RS,ORS,FS,OFS 区别与联系

    一,RS与ORS 1,RS是记录分隔符,默认的分隔符是\n,具体用法看下 [root@krlcgcms01 mytest]# cat test1     //测试文件 111 222 333 444 ...

  6. linux中awk的使用

    在linux中awk绝对是核心工具,特别是在查找搜索这一领域,和掌握sed命令一样重要 下面为awk的一些基本知识,基于这些知识,可以让你随意操控一个文件: 在awk中:()括号为条件块,{}为执行的 ...

  7. [转帖]Linux中awk工具的使用

    Linux中awk工具的使用 2018年10月09日 17:26:20 谢公子 阅读数 2170更多 分类专栏: linux系统安全   版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权 ...

  8. linux中awk命令(最全面秒懂)

    目录 一:linux中awk命令 1.awk命令简介 2.awk作用 3.awk的语法格式 4.解析awk使用方法 5.参数 6.awk的生命周期 二:awk中的预定义变量 三:awk运行处理规则的执 ...

  9. linux中awk命令详解(最全面秒懂)

    一:linux中awk命令 1.awk命令简介 AWK 是一种处理文本文件的语言,是一个强大的文本分析工具. 之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinber ...

随机推荐

  1. Godaddy域名因为whois信息虚假被暂时关闭

    如果你收到来自 Godadddy 通过 invalidwhois@godaddy.com 发出的标题为如下内容的邮件: [Incident ID: xxxx] xxxx - DS Invalid Wh ...

  2. hadoop开发setjar方法

    屏蔽 //job.setJar("/Users/sumeng/IdeaProjects/cloudHadoop/out/artifacts/cloudHadoop_jar/cloudHado ...

  3. HDU - 5406 CRB and Apple (费用流)

    题意:对于给定的物品,求两个在高度上单调不递增,权值上单调不递减的序列,使二者长度之和最大. 分析:可以用费用流求解,因为要求长度和最大,视作从源点出发的流量为2的费用流,建负权边,每个物品只能取一次 ...

  4. web前端基础——初识CSS

    1 CSS概要 CSS(Cascading Style Sheets)称为层叠样式表,用于美化页面(单纯HTML写的页面只是网页框架和内容的组合,相当于赤裸的人,而CSS则是给赤裸的人穿上华丽的外衣) ...

  5. spark2.10安装部署(集成hadoop2.7+)

    这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章 因为这里 ...

  6. Ubuntu16.04中查看硬盘的型号和读取速度

    最近在测试FTP服务器,上传和下载的速度与很多因数有关,其中,硬盘的读取速度就是其中不同的区别点,我同时用了三台不用的服务器架设FTP服务,一台是出来ftp服务外还含平台其他管理软件,一台是全新的系统 ...

  7. Linux 日志分析工具(logwatch)安装及使用

    Linux 日志分析工具(logwatch)安装及使用 日志是非常重要的系统文件,管理员每天的重要工作就是分析和查看服务器的日志,判断服务器的健康状态.但是日志管理又是一项非常枯燥的工作,如果需要管理 ...

  8. 自定义圆形头像CircleImageView的使用和源码分析

    http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2015/0806/3268.html tools:context="com.ex ...

  9. 在LAMP的生产环境内添加PHP的cURL扩展模块

    服务器运行一段时间后,可能突然会需求添加某个扩展,如curl.pdo.xmlrpc等, 这就需要在不重新编译 PHP   的情况下独立添加扩展. 下面以安装curl为例,介绍具体安装步骤. 1.安装c ...

  10. 编码解码--url编码解码

    url编码解码,又叫百分号编码,是统一资源定位(URL)编码方式.URL地址(常说网址)规定了常用地数字,字母可以直接使用,另外一批作为特殊用户字符也可以直接用(/,:@等),剩下的其它所有字符必须通 ...