Linux中awk后面的RS, ORS, FS, OFS 含义
默认情况下,RS的值是\n。下面通过实例来理解下RS。
echo '1a2a3a4a5' | awk '{print $1}'
我们可以看到,在更改了RS的值后,awk定义的行已经不是我们实际意义中的行了。
上面RS固定的字符串,RS也可以定义为正则表达式。
echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
当我们将RS设置为正则表达式的时候,RT这个变量就有作用了,RS的值始终为我们设定的正则,RT的值则是这个正则实际匹配到的内容。
1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉
2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
3、影响FS变量
1) 非空字符串
以固定字符串作为行分隔符,同时设置变量RT为固定字符串
2) 正则表达式
以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
3) 空字符
以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中
更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
ORS的值只能设定为字符串,默认情况下,ORS的值是\n
seq 5 | awk '{print $0}'
我们平常用的 print $0 等价于 printf $0 ORS
二、FS 与 OFS 差在哪
设置变量 FS 与使用 -F 参数是一样的。
echo '1,2' | awk -F , '{print $1}'
与 RS 类似,FS 同样可以设置为正则表达式
echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
FS 有1个特例,就是将FS设置为一个空格,FS=" " ,这也是FS的默认值
1.In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.
此时,awk会将连续的 空格 或 制表符(\t) 或 换行符(\n) 作为列的分隔符
那么,FS=" " 与 FS="[ \t\n]+" 有区别么???
答案是肯定的
echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
当FS=" "时,awk会自动去掉行首和行尾的 空格 或 制表符(\t) 或 换行符(\n),但FS="[ \t\n]+"是不会的
同样,FS也可以设置为空
echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'
当FS被设置为空字符串的时候,awk会将一行记录的每个字符做为单独的一列
类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS
例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列
echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
如果定义的长度小于实际的长度,awk会截断,如果大于实际长度,则以实际长度为准。
1) 非空字符串
以固定字符串作为列分隔符
2) 正则表达式
以正则表达式作为列分隔符
3) 单个空格
以连续的 空格 或 制表符(\t) 或 换行符(\n)作为列分隔符
4) 空字符
以每个字符做为单独的一列
当 RS="" 时,会将\n强制加入到FS变量中
cat urfile
如果FS为单个字符,\n始终存在在 FS 中,而 RS="\n\n+" 则不会。
我们平时使用的 print $1,$2 等价于 print $1 OFS $2
echo '1 2' | awk -v OFS="|" '{print $1,$2}'
如果一行记录有很多列,同时想改变输出的分隔符,print $1,$2,$3 ... 启不是很麻烦?
当然有简单的方法:
echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
为了使OFS的设置生效,需要改变 $0 ,这里我们是对 awk 撒了个小谎
$1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效
这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”
awk 'BEGIN{if(0) print "true";else print "false"}'
为什么同样是 0 ,结果却不一样?
其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
以下3种情况是“假”,其他情况都为“真”
1) 数字 0
2) 空字符串
3) 未定义的值
awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
1.awk '! a[$0] ++'
在解释之前,我们先要了解awk的一个特性:
awk 会根据语境来给未定义的变量赋初始值
awk 'BEGIN{print a "" 1}'
对于未定义的变量,如果要进行字符串操作,会被赋成空字符串 ""
如果要进行数学运算,会被赋成数字 0
对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
而 ! 1 ! 2 ! 3 ... 都为假,不会打印。
seq 10 | awk 'i=!i'
Linux中awk后面的RS, ORS, FS, OFS 含义的更多相关文章
- Linux中awk后面的RS, ORS, FS, OFS 用法
Linux中awk后面的RS, ORS, FS, OFS 含义 一.RS 与 ORS 差在哪 我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用. 默认情况下,RS的 ...
- linux awk 中 RS,ORS,FS,OFS 区别与联系【转】
linux awk 中 RS,ORS,FS,OFS 区别与联系 http://blog.csdn.net/jesseen/article/details/7992929
- 转 awk中RS,ORS,FS,OFS区别与联系
今天用到awk ofs 看到一篇不错文章 awk中RS,ORS,FS,OFS区别与联系 张映 发表于 2010-12-02 分类目录: shell 标签:awk, FS, OFS, ORS, RS, ...
- awk中RS,ORS,FS,OFS区别与联系
学习awk时,一定要记得动手去实践,只有在实践中才能发现问题,以下就我在学习中和实践中的经验,总结一下RS,ORS,FS,OFS的区别和联系. 一.OS和ORS 1.RS是记录分隔符,默认的分隔符是\ ...
- awk 中 RS,ORS,FS,OFS 区别与联系
一,RS与ORS 1,RS是记录分隔符,默认的分隔符是\n,具体用法看下 [root@krlcgcms01 mytest]# cat test1 //测试文件 111 222 333 444 ...
- linux中awk的使用
在linux中awk绝对是核心工具,特别是在查找搜索这一领域,和掌握sed命令一样重要 下面为awk的一些基本知识,基于这些知识,可以让你随意操控一个文件: 在awk中:()括号为条件块,{}为执行的 ...
- [转帖]Linux中awk工具的使用
Linux中awk工具的使用 2018年10月09日 17:26:20 谢公子 阅读数 2170更多 分类专栏: linux系统安全 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权 ...
- linux中awk命令(最全面秒懂)
目录 一:linux中awk命令 1.awk命令简介 2.awk作用 3.awk的语法格式 4.解析awk使用方法 5.参数 6.awk的生命周期 二:awk中的预定义变量 三:awk运行处理规则的执 ...
- linux中awk命令详解(最全面秒懂)
一:linux中awk命令 1.awk命令简介 AWK 是一种处理文本文件的语言,是一个强大的文本分析工具. 之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinber ...
随机推荐
- Java8函数之旅 (一) 开始认识lambda
系列之前我想说的 最近有一段时间没写博客了,这几天回到学校,才闲下来,决定写一写最近学习到的知识,既是为了分享,也是为了巩固.之前看到过一篇调查,调查说的是学习新知识,光只是看的话,知识的获取率只 ...
- IBM区块链总经理谈区块链
IBM区块链总经理谈区块链:3.4年前IBM的区块链人员就达到了1500人 Captain Hiro 2018-03-20 16:22 发布在 区块链 3 18349 CCN的记者Eric Eiss ...
- v-show
v-show的原理是当值为false的时候,元素display:none 隐藏了元素且脱离文档流,但是在dom 中仍然存在. 与v-if使用场景不同,文档中提到,当需要高频切换的时候使用v-show ...
- 【杂题总汇】UVa-1336 Fixing the Great Wall
[UVA-1336]Fixing the Great Wall 一开始把题看错了……直接用的整数存储答案:之后用double存最后输出答案的时候取整就AC了
- java后台输入数据的2种方式
java后台输入数据的2种方式 (1) import java.io.BufferedReader; import java.io.InputStreamReader; public class 输入 ...
- mysql指定id默认第一
有个需求 家庭创建人要默认排第一,刚开始用加入家庭的时间排序可以 好简单, 后来加了一个需求 家庭创建人可以转移,结果按时间排序就不行了,又不想去写循环重新排序 就各种百度, 等于就是指定ID排最后 ...
- MySQL时间戳、时间
MySQL中: now():获取当前时间:例:SELECT now(); // 结果:2018-07-03 13:40:14 unix_timestamp():将时间转换为时间戳:例: SELECT ...
- python__高级 : GC垃圾回收相关
python的垃圾回收机制是以引用计数为主,加上标记-清除,分代收集等辅助方式组成的,如果想打开gc功能,需要 import gc 模块 ,然后 gc.enable() 就打开了这个功能,关闭是 gc ...
- 动态代理和AOP
之前说过了我对IOC的理解,这篇文章说以下我对动态代理和基本的对AOP的理解. 所谓动态代理就是,在运行时,动态创建实现了一组指定接口的实现类对象. 比如有: interface A { } inte ...
- 图解HTTP总结(2)——简单的HTTP协议
HTTP协议是一种不保存状态,即无状态(stateless)协议.HTTP协议自身不对请求和响应之间的通信状态进行保存.也就是说在HTTP这个级别,协议对于发送过的请求或响应都不做持久化处理. 使用H ...