awk处理重复行错误分析
[root@localhost ~]#cat 0712
YRSD2-1-11
YRSD2-2-18
YRSD1-1-8
YRSD1-1-18
YRSD1-1-20
YRSD1-1-25
YRSD1-2-38
YRSD1-2-39
YRSD1-2-44
YRSD1-2-48
YRSD1-2-43
YRSD1-3-58
YRSD1-3-59
YRSD1-4-67
YRSD1-4-68
YRSD1-4-70
YRSD1-4-71
YRSD1-3-52
YRSD4-1-5
YRSD3-1-7
YRSD3-1-22
YRSD3-1-28
YRSD3-2-37
YRSD3-2-50
YRSD3-2-53
YRSD3-2-55
YRSD6-1-1
YRSD6-1-5
YRSD6-1-15
YRSD6-2-28
YRSD6-2-32
YRSD6-2-36
YRSD5-1-7
YRSD5-1-22
YRSD5-1-23
YRSD5-1-24
YRSD5-1-25
YRSD5-1-26
YRSD5-2-33
YRSD5-2-37
YRSD5-2-42
YRSD5-2-51
YRSD5-2-54
YRSD5-2-53 YRSD1-1-18
YRSD1-2-38
YRSD1-2-44
YRSD1-2-48
YRSD1-4-67
YRSD1-4-68
YRSD2-1-11
YRSD2-2-18
YRSD3-1-22
YRSD3-1-28
YRSD5-1-22
YRSD5-1-25
YRSD5-2-37
YRSD5-2-42
YRSD5-2-54
YRSD6-1-1
YRSD6-1-15
想将重复的行打印出来,结果搞错了,闲来无聊想想为什么会有这样的结果,算是对awk的加深印象
[root@localhost ~]#awk 'a[$0]++{for(i in a)print i,a[i]}' 0712 | wc -l
810
解析
a[$0]++结果为真时,执行action,所以第一遍不重复的时候,将数组存储
然后每次遇到重复的行,pattern结果为真,执行一次action,一共18个重复行,执行18次,每次结果为45行,共计45*18=810行
顺序对结果也有影响,对计数有影响
[root@localhost ~]#awk '++a[$0]{for(i in a)print i,a[i]}' 0712 | wc -l
1845
解析
因为++a[$0]第一次就有结果了,所以第一次就将a[第一行]打印出来,
第二行时,将第一行、第二行打印出来
第三行时,将第一二三行打印出来
以此类推
不重复行为45行
所以结果为45*(1+45)/2=1035
从第46行开始重复,且每次打印时数组均为45项,即45*18=810
1035+810=1845
over
[root@localhost ~]#awk 'a[$0]++;END{for(i in a)print i,a[i]}' 0712 | wc -l
63
awk只执行pattern对空间的内容没有影响,所以使用END模块也就没有效果
百度百科awk
其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所执行的一系列命令。花括号 ({}) 不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。
所以正确的END模式如下:
[root@localhost ~]#awk '{a[$0]++};END{for(i in a)print i,a[i]}' 0712 | wc -l
45
awk处理重复行错误分析的更多相关文章
- awk除去重复行
awk去除重复行,思路是以每一行的$0为key,创建一个hash数组,后续碰到的行,如果数组里已经有了,就不再print了,否则将其print 测试文件: 用awk: 用sort+uniq好像出错了: ...
- linux 下删除重复行-- uniq 与 awk
$ cat file liw liw liw hdsui mdksjd liw $ cat file | uniq -u # 只删除相邻的,不保留重复行 hdsui mdksjd liw $ cat ...
- 【shell】awk按域去除重复行
首先解释一下什么叫“按域去除重复行”: 有的时候我们需要去除的重复行并不是整行都重复,两行的其中一列的元素相同我们有的时候就需要认定这两行重复,因此有了今天的内容. 去除重复行shell有一个原生命令 ...
- linux用命令删除重复行
文本处理时,经常要删除重复行,下面是三种方法 第一,用sort+uniq,注意,单纯uniq是不行的. sort -n test.txt | uniq 第二,用sort+awk命令,注意,单纯awk同 ...
- Linux合并文件、去除重复行的命令
Linux合并文件命令: awk '{printf("%s\n",$0)}' YQ-*101?.txt > 123.txt linux去除重复行命令:cat YQ-10 ...
- Linux删除重复行 排序和不排序的做法--转载
本文部分翻译自这里,来自 Jadu Saikia 的博客,这个博客上有很多非常有用的小技巧,有空可以多看看. 通常如果我们想获取一个文件里不重复的行的时候,我们可以直接通过 sort -u 命令,先把 ...
- Linux删除重复行
本文转自http://blog.csdn.net/ithomer/article/details/6926325 文本处理时,经常要删除重复行,下面是三种方法 第一,用sort+uniq,注意,单纯u ...
- shell 删除文本中的重复行
三种常见方法:第一,用sort+uniq,注意,单纯uniq是不行的. shell> sort -k2n file | uniq > a.out 这里我做了个简单的测试,当file中的重复 ...
- SQL Server删除重复行的6个方法
SQL Server删除重复行是我们最常见的操作之一,下面就为您介绍六种适合不同情况的SQL Server删除重复行的方法,供您参考. 1.如果有ID字段,就是具有唯一性的字段 delect ta ...
随机推荐
- 一次完整的http的请求过程
一个完整的http的完成请求过程: 输入网址-> 域名解析-> tcp的三次握手-> 建立tcp连接后发起http 请求-> 服务器响应http ,发送数据给浏览器-> ...
- my discipline life
周一 ~ 周五 7.30 --- 8.00 起床,洗漱等 8.00 --- 8.30 默写8-10个英语单词 8.35 --- 9.10 吃早餐,骑自行车去公司 12.20 --- 1 ...
- 七牛php-sdk使用-文档处理
所用到的七牛文档转换服务,主要是:ppt文件转为pdf文件,pdf文件转图片(png). 描述一下需求:上传PPT或者PDF文件到七牛,最终转换为图片.文件上传部分的功能已经讲过了,这里说一下转换处理 ...
- mwValidate.js验证插件
这段时间在公司一直做项目的同时,也学了下js,感觉有必要做一些什么东西出来.思来想去就做了最简单的一个验证插件.我很清楚这个东西市面上已经很多了,但我的目的也很清楚,检验我的学习成果.所以也就无所谓了 ...
- http常见状态码含义
200:请求成功 301:请求的资源已永久移动到新位置 302:请求的资源临时移动到新位置 304:请求内容无改变 401:未授权 403:禁止访问 404:文件未找到 500:服务器内部错误 501 ...
- RHM-M10汽车吊力矩限制器/载荷指示器
一 产品特点 1. 采用7.0寸工业65K色TFT LCD真彩屏,亮度250nit,分辨率800×480: 2. 传感器采用进口机芯,过载能力强: 3. 采用油压取力和大臂弯曲 ...
- JavaScript的ajax使用
使用ajax首先定义个XMLHttpRequest变量,为了判断对IE6以及以下版本的兼容性,需要var xmlHR; if (window.XMLHttpRequest) { ...
- RMQ算法
1. 概述 RMQ(Range Minimum/Maximum Query),即区间最值查询,是指这样一个问题:对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A ...
- Django App(二) Connect Mysql & defualt App admin
这一篇接着上一篇polls App自动创建admin app. 1.安装数据库 这里的内容从官网看越看越像 EntityFramework的内容.Python支持SQLite,MySql,Or ...
- eclipse配置虚拟路径后,每次启动tomcat都会虚拟路径失效的问题解决
由于,eclipse启动tomcat部署项目并不是直接把项目放到tomcat的webapps目录下的,而是从我们在eclipse配置的外部tomcat中取出二进制文件,在eclipse内部插件中作为t ...