awk

awk是一种规格化文件的分析工具，主要处理对象类似数据库导出的条目文本文件，其中一行，就对应一个记录，每个记录包含若干个字段。

类似这种文本：

[root@www ~]# last -n 5 <==仅取出前五行

root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in

root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)

root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)

dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)

root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)

本文利用awk工具实现字段重复的统计功能，例如某个字段不是主键，但是需要检测其值的重复性。

具体参考资料：

http://www.cnblogs.com/51linux/archive/2012/05/23/2515308.html

http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

http://www.gnu.org/software/gawk/manual/gawk.html

问题提出

对于一个lua表文件，为了避免lua表中，新添加的 key = value，如果key已经在表中存在，则新添加的条目在其后，则会将前面已经写过的key覆盖掉，导致key的value值被改变。

例如如下表：

-- 这是个lua table。
luatable = {
--********************START覆盖标签区*****
--********************END 覆盖标签区*******
LANG = [[xxx]],
LANG = [[xxx]]
public_001 = [[ooo]],
public_002 = [[,,,,,]],
public_003 = [[sss]],
public_004 = [[eeee]],

};

方案给出

上面表文件，中包含每个条目， key = value，是我们需要处理的目标

但是其中也有表定义行和注释行，需要在处理过程中舍弃掉。

写一个awk文件， testdup.awk，使用awk调用文件方式执行此文件。

BEGIN{

        print "statistic duplicate ID starts";

        count = ;

        FS = "=";

}

/(.+)=[[:blank:]]*\[\[.*\]\]/ {

        count ++;

        print $;

        printf("key=%s", $);

        if ( keyTimes[$] )

        {

                keyTimes[$] = keyTimes[$] + ;

        }

        else

        {

                keyTimes[$] = ;

        }

}

END{

        print "statistic duplicate ID ends";

        printf("count = %d\n", count);

        printf("total row NR = %d", NR);

    for ( key in keyTimes )

    {

        if (keyTimes[key] >  )

        {

            printf("key(%s) duplicated times=%d", key, keyTimes[key]);

        }

    }

}

命令行执行：

awk -f testdup.awk lang.conf

执行效果：

.......

statistic duplicate ID ends
count = 1986
total row NR = 2289key(LANG ) duplicated times=2

使用awk统计字段重复实践的更多相关文章

awk过滤统计不重复的行
awk以‘\t’为分隔符区分列 cat logs | grep IconsendRedirect | grep 1752 | awk -F'\t' '{print $8}'| wc -l awk过滤统 ...
sqlserver中分区函数 partition by与 group by 区别删除关键字段重复列
partition by关键字是分析性函数的一部分,它和聚合函数(如group by)不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录, partition by ...
**SQL某一表中重复某一字段重复记录查询与处理
sql某一表中重复某一字段重复记录查询与处理 1.查询出重复记录 select 重复记录字段 form 数据表 group by houseno having count(重复记录字段)> ...
python统计元素重复次数
python统计元素重复次数 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- from collections import Counter arr = [ ...
MyBatis 多表联合查询，字段重复的解决方法
MyBatis 多表联合查询,两张表中字段重复时,在配置文件中,sql语句联合查询时使用字段别名,resultMap中对应的column属性使用相应的别名: <resultMap type=&q ...
Access删除某一字段重复的数据但是要保留一条
如下图所示,Checktime这个字段有很多重复数据,我需要把所有Checktime这个字段重复的都删掉,但是还需要保留一条: 在Access做删除查询怎么做呀,来个Access高手,复制粘贴党请手下 ...
mysql 删除单表内多个字段重复的数据
mysql 删除单表内多个字段重复的数据 DELETE from lot_log_payflow WHERE (pay_no,sub_flow_type) in () s1) AND id ) s2) ...
awk 统计
命令太多,记不住,组合起来用一把…..示例文件: 1 2 3 4 5 6 7 8 9 10 11 [root@lovedan test]# cat a.txt hello good world hel ...
mysql查询某个字段重复的数据
查询某个字段重复的数据 ; 查询股票重复的营业厅 ;

随机推荐

int左移32位的行为未定义/Coverity
int左移32位的行为未定义 Coverity 代码静态安全检测 Is Shifting more than 32 bits of a uint64_t integer on an x86 machi ...
HDU 1789 贪心经典
题意给出n门作业的截止时间与分数如果不能在那天结束前做完就扣掉相应分数问怎么安排能让扣分最少思路先按分数从大到小排序先研究大的做好标记一开始每天都能放作业全是true 如果这一天已经 ...
BNF 巴科斯范式
BNF 巴科斯范式(BNF: Backus-Naur Form 的缩写)是由 John Backus 和 Peter Naur 首先引入的用来描述计算机语言语法的符号集.现在,几乎每一位新编程语言书籍 ...
Django 1.8安装使用
1.使用pip安装django, pip是什么,如何安装?自行放狗搜 # pip install "django<1.9" 2.创建项目 # django-admin sta ...
ecshop 完美解决动态ip登录超时和购物车清空问题
ecshop 完美解决动态ip登录超时和购物车清空问题 ECSHOP模板/ecshop开发中心(www.68ecshop.com) / 2014-05-06 前一段时间,ECSHOP开发中心的一个客户 ...
PHP生成随机密码的4种方法及性能对比
PHP生成随机密码的4种方法及性能对比 http://www.php100.com/html/it/biancheng/2015/0422/8926.html 来源:露兜博客时间:2015-04 ...
Arrays类的十大用法
还有很多地方需要细细斟酌 0. 声明数组 String[] aArray = new String[5]; String[] bArray = {"a","b" ...
Memcache 提高缓存命中率
最近手上某个项目跟新代码,新的代码里大量采用memcahce作为缓存.所以开始深入了解memcache的内存分配策略.以前就听说有个PHP写的memcache监控脚本,在网上搜索了一下,果断下载下来用 ...
浏览器cookie数
<?php for ($w=0; $w < 200 ; $w++) { setcookie('name'.$w,'value'.$w, time()+3600*10 ); } var_du ...
android文字阴影效果(转)
关于android文字阴影,共有四个属性可以设置: android:shadowColor :阴影颜色 android:shadowDx :阴影x方向位移 android:shadowDy :阴影y方 ...

使用awk统计字段重复实践

awk

问题提出

方案给出

使用awk统计字段重复实践的更多相关文章

随机推荐

热门专题