awk进阶
整理的awk的小技巧
begin是要放在正则前面的,按照这个顺序:
awk 'begin{} /.*?/ {action}end{}' file
FS=':' 和 -F: 是等同的
-F 表示以 XX为分隔符,那如果想要多个分隔呢?看实例:
$ cat tmp
ss>asdasd>hehe>asd
where are you are my
where are> you> are my $ awk -F '(>|are)' '{print $3}' tmp
hehe
my
you
可以看到,这里的分隔符是 > 或者是 are ,通过第3个例子可以发现,只要句子中出现这两个词,都会作为分隔,所以才出现了you 。
for循环和便利数组,
for(i=;i<;i++)print i,ENVIRON[i]
或者
for(i in ARGV){print i,ARGV[i]}
匹配正则表达式
if(a ~ /^*/)
不匹配
if(a ~! /^*/)
多文件操作,重点学习一下:
dahu@dahu-OptiPlex-:~/myfile$ awk 'FNR==1{print "\r\n"FILENAME}{print $0}' a.txt b.txt
a.txt
100 wang man
200 wangsan woman
300 wangming man
400 wangzheng man
b.txt
100 90 80
200 80 70
300 60 50
400 70 20
看下回显信息,FNR==1相当于一个条件用法,在第一行显示文件名,这个用法可以。类似的,我可以第二行/第三行显示
dahu@dahu-OptiPlex-3046:~/myfile$ awk 'BEGIN{info="it is a test";tlen=split(info,a," ");for(i in a){print tlen,i"\t"a[i]};}'
这句话tlen=split(info,a," "),tlen=4,因为分割成4个部分了,类似于len的用法
dahu@dahu-OptiPlex-3046:~/myfile$ awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";delete tB["a"];for(k in tB){print k,tB[k];}}'
删除数组键值的方法,直接delete
二维数组的用法:
awk 'BEGIN{print">>>>>";
for(i=;i<=;i++)
{
for(j=;j<=;j++)
{
tarr[i,j]=i*j;
}
}
for(m in tarr)
{
split(m,tarr2,SUBSEP); #split(数据源,新的数组,分割符)
print tarr2[],"*",tarr2[],"=",tarr[m]; #二维数组从刚生成的新数组里面获取
}
}'
显示文件的内容按照排序来显示
dahu@dahu-OptiPlex-:~/myfile$ cat b.txt | sort -nk3
两文件合并,借助next实现
[chengmo@centos5 shell]$ cat a.txt b.txt | sort -n -k1 |awk 'NR%2==1{fd1=$2"\t"$3;next}{print $0"\t"fd1}'
也可以直接编程来实现:
awk '
BEGIN{print ">>>>>\nconnect a.txt & b.txt";
if(ARGC<)
{
exit ;
}
file="";
}
{
aData[FILENAME,$]=ARGV[]==FILENAME?$:$"\t"$; #条件判断式,要么整行,要么第二行第三行,和文件名对应
}
END{
for(k in aData)
{
split(k,idx,SUBSEP); #idx是aData的下标,k就是FILENAME和idx[]
if (idx[]==ARGV[] && (ARGV[],idx[])in aData)
{
print aData[ARGV[],idx[]],aData[ARGV[],idx[]] | "sort -nrk1" #这里要加上引号的??
}
}
}' a.txt b.txt
awk正则表达式
- awk内置使用正则表达式函数
gsub( Ere, Repl, [ In ] )
sub( Ere, Repl, [ In ] )
match( String, Ere )
split( String, A, [Ere] )
EPRs类型。一些结合类型表示符没有了:包括:”\d,\D,\s,\S,\t,\v,\n,\f,\r”
常用: /[0-9]+/
常用内置函数
gsub,sub使用 sub是只替换第一个,gsub是全部替换,函数返回值是替换的个数
[chengmo@centos5 ~]$ awk 'BEGIN{info="this is a test2010test!";gsub(/[0-9]+/,"!",info);print info}'
this is a test!test! 在 info中查找满足正则表达式,/[-]+/ 用””替换,并且替换后的值,赋值给info 未给info值,默认是$ 查找字符串(index使用) [wangsl@centos5 ~]$ awk 'BEGIN{info="this is a test2010test!";print index(info,"test")?"ok":"no found";}'
ok 未找到,返回0 正则表达式匹配查找(match使用) [wangsl@centos5 ~]$ awk 'BEGIN{info="this is a test2010test!";print match(info,/[0-9]+/)?"ok":"no found";}'
ok 截取字符串(substr使用) [wangsl@centos5 ~]$ awk 'BEGIN{info="this is a test2010test!";print substr(info,4,10);}'
s is a tes 从第 4个 字符开始,截取10个长度字符串 字符串分割(split使用) [chengmo@centos5 ~]$ awk 'BEGIN{info="this is a test";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}' test
this
is
a 分割info,动态创建数组tA,这里比较有意思,awk for …in 循环,是一个无序的循环。 并不是从数组下标1…n ,因此使用时候需要注意。
getline:awk里,从文件中读取变量到awk中
dahu@dahu-OptiPlex-:~/myfile$ awk 'BEGIN{while("cat car"|getline){print $1;};close("/car")}'
或者
dahu@dahu-OptiPlex-:~/myfile$ awk 'BEGIN{while(getline < "car"){print $1;};close("car")}'
这样就可以实现获取本地文件的功能了
同样的,也可以在脚本里面讲数据写入文件:
awk 'BEGIN{print "hehe"}' > hehe.txt
简单快速数字转汉字:
$ awk 'BEGIN{ORS="";a="零一二三四五六七八九";for(i=0;i<10;i++){arr[i]=substr(a,i+1,1)};b=345;for(j=1;j<=length(b);j++)
{c=substr(b,j,1);print arr[c]};print "\n" }'
三四五
也可以处理文件
$ awk 'BEGIN{ORS="";a="零一二三四五六七八九";for(i=0;i<10;i++){arr[i]=substr(a,i+1,1)}}
{for(j=;j<=length($);j++){c=substr($,j,);print arr[c]};print "\n" }' text
一三四
一三五
一三六
一三七
awk进阶的更多相关文章
- 第10章:awk进阶操作
第10章:awk进阶操作 在第4章:查找与替换简单的讲解了awk的使用,本章介绍详细讲解awk的使用.awk是一个强大的文本分析工具,简单的说awk就是把文件逐行的读入, 以空格为默认分隔符将每行切片 ...
- linux awk进阶篇
上一篇主要是awk的进本应用.本节是awk的进阶篇 ACTION:除去常用的print和printf还有以下几个 expression:表达式 如$1>3 control statements: ...
- awk进阶整理
BEGIN{写在前言,我英语不好,有许多地方直接使用的谷歌翻译.为了能理清awk工具使用的思路,详情还要看awk说明书(man awk) 或者http://www.gnu.org/software/g ...
- LeetCode(194.Transpose File)(awk进阶)
194. Transpose File Given a text file file.txt, transpose its content. You may assume that each row ...
- awk 进阶,百万行文件取交集
今天我们说的不是简单的交集,而是如下示例: file1: as,er,gf,1212kl,iop,121378,jkl,uio,jki,1214vbnm,yuoi,678i,1215sadfasdf, ...
- shell编程awk进阶
awk操作符 算术操作符: x+y, x-y, x*y, x/y, x^y, x%y -x: 转换为负数 +x: 转换为数值 字符串操作符:没有符号的操作符,字符串连接 赋值操作 ...
- Linux三剑客之awk精讲(基础与进阶)
第1章 awk基础入门 要弄懂awk程序,必须熟悉了解这个工具的规则.本实战笔记的目的是通过实际案例或面试题带同学们熟练掌握awk在企业中的用法,而不是awk程序的帮助手册. 1.1 awk简介 一种 ...
- 【Linux进阶】使用grep、find、sed以及awk进行文本操作
目录 一.元字符 二.grep命令 1. 过滤出包含某字符串的行 2. 过滤出以某字符串开头(结尾)的行 3. 过滤出包含某字符串及其相邻的行 4. 过滤出不包含某关键字的行 5. 过滤出包含多个字符 ...
- Linux实战教学笔记18:linux三剑客之awk精讲
Linux三剑客之awk精讲(基础与进阶) 标签(空格分隔): Linux实战教学笔记-陈思齐 快捷跳转目录: * 第1章:awk基础入门 * 1.1:awk简介 * 1.2:学完awk你可以掌握: ...
随机推荐
- 用Visual C#开发基于OpenCV的Windows应用程序
http://blog.163.com/wangxh_jy/blog/static/28233883201001581640283/ 关于详细的配置及程序运行截图,请下载:http://downloa ...
- 010. C++ 传值与传引用
1.参数传递 参数传递:pass by value vs. pass by reference(to const) 推荐:能传引用,尽量传引用(高效,尤其在需要拷贝的对象很大时) class comp ...
- C语言 ------ #undef 的使用
#undef 是在后面取消以前定义的宏定义 该指令的形式为 #undef 标识符 其中,标识符是一个宏名称.如果标识符当前没有被定义成一个宏名称,那么就会忽略该指令. 一旦定义预处理器标识符,它将保持 ...
- 利用Zynq Soc创建一个嵌入式工程
英文题目:Using the Zynq SoC Processing System,参考自ADI的ug1165文档. 利用Zynq Soc创建一个嵌入式工程,该工程总体上包括五个步骤: 步骤一.新建空 ...
- JPA映射持久化对象(Entity)
推荐阅读:JPA criteria 查询:类型安全与面向对象 来源: http://blog.sina.com.cn/s/blog_49fd52cf0100rzjn.html 一个普通的POJO类通过 ...
- CF839 D 容斥
求$gcd>1$的所有$gcd(a_i,a_{i+1}…a_{n})*(n-i+1)$的和 首先先标记所有出现的数.从高到低枚举一个数k,记录它的倍数出现次数cnt,那么当前所有组合的答案就是$ ...
- 《JavaScript 实战》:实现图片幻滑动展示效果
滑动展示效果主要用在图片或信息的滑动展示,也可以设置一下做成简单的口风琴(Accordion)效果.这个其实就是以前写的图片滑动展示效果的改进版,那是我第一篇比较受关注的文章,是时候整理一下了. 有如 ...
- DHTML中window的使用
window对象是对浏览器窗口进行操作的对象.以下列出一些常用的对象(三级为对象的方法.属性) |-navigator:是对浏览器信息进行操作的对象 |-history:包含用户浏览过的url信息 | ...
- 【BZOJ】2820: YY的GCD
[题意]给定N, M,求1<=x<=N, 1<=y<=M且gcd(x, y)为质数的(x, y)有多少对.T<=10^4,N,M<=10^7. [算法]数论(莫比乌 ...
- Spring Cloud全家桶主要组件及简要介绍
一.微服务简介 微服务是最近的一两年的时间里是很火的一个概念.感觉不学习一下都快跟不上时代的步伐了,下边做一下简单的总结和介绍. 何为微服务?简而言之,微服务架构风格这种开发方法,是以开发一组小型服务 ...