如何使用shell脚本快速排序和去重文件数据

　　前面写过一篇通过shell脚本去重10G数据的文章，见《用几条shell命令快速去重10G数据》。然而今天又碰到另外一个业务，业务复杂度比上次的单纯去重要复杂很多。找了很久没有找到相应的办法，于是用shell脚本程序去处理。具体业务逻辑：

　　1、首先根据给定指定进行排序

　　2、排序后对给定字段进行去重，去重的规则如下：

　　　　a）排序后如果相邻N行给定字段值相同的行数不超过两行，则两行都保留。

　　　　a）排序后如果相邻N行给定字段值相同的行数超过两行，则保留首行和尾行。

　　就这样一个业务逻辑，其实看起来并不是太难。但是问题来了，怎么才能在10～20G的数据中快速地进行处理呢？网上找了很久没找到相应的处理办法，于是先用一种相对笨的办法实现。

　　测试数据：

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

　　shell脚本：

if [ "$#" != "" ]; then

        echo "Usage: 参数1：文件路径，参数2：文件名。"

        exit

fi

#源文件所在目录

filepath=$

#源文件绝对路径

orgfile=$filepath"/"$

#合并字段后的临时文件

#mergerfile="$orgfile"_merge.txt

#排序后的临时文件

sortfile="$orgfile"_sort.txt

#最终结果文件

result_unique="$orgfile"_result_unique.txt

echo "">$result_unique

#echo "文件：$orgfile"

#echo "开始合并字段..."

#awk 'BEGIN{ FS=",";}{ print $1","$2","$3","$4","$5","$6","$7","$1$3$4 }' $orgfile > $mergerfile

#echo "字段合并结束..."

echo "文件排序 start..."

#sort -t $"," -k , -k , $mergerfile >$sortfile

sort -t $"," -k , $orgfile >$sortfile

echo "文件排序 end..."

printf "***********文件比较 start**************************\n"

echo "while read line <$sortfile"

cnt=

#首行

firstline=""

#尾行

lastline=""

#上一次比较的key

lastKey=""

#文件行数

linecount=`sed -n '$=' $sortfile`

i=

echo "linecount=========>>>>>>>$linecount"

while read line || [[ -n "$line" ]];

do

  echo $line;

  #合并需要比较的字段

  compare=`echo "$line"|awk -F ',' '{print $1$3$4}'`

  echo "compare=====$compare"

  #判断字符串是否相等

  if [ "$i" != "$linecount" -a "$lastKey" = "$compare" ];then

    echo "[ = ]"

    cnt=$(expr $cnt + )

    lastline="$line"

  else

    #首次进来

    if [ "$firstline" = "" ];then

        firstline=$line

        cnt=

        #echo "$firstline" >> $result_unique

    fi

    #echo "----$i---------------->>>>>>>>>>>$cnt"

    if [ $cnt -gt  -o "$i" == "$linecount" ];then

        echo "----$i---------------->>>>>>>>>>>$cnt"

        if [ "$i" != "$linecount" -a "$lastline" != "" ];then

                echo "$lastline" >> $result_unique

                echo "$line" >> $result_unique

        fi

        # 最后一行的特殊处理

        if [ "$i" == "$linecount" ];then

                echo "================last line==================="

                echo "$line" >> $result_unique

        fi

        firstline="$line"

        lastline="$line"

        cnt=

    elif [ $cnt -eq  ];then

        firstline=$line

        lastline="$line"

        cnt=

        echo "$lastline" >> $result_unique

    fi

  fi

  # 对比key

  lastKey="$compare"

  let i++

done <$sortfile

echo "*******************文件 $orgfile 处理结束***************************"

echo "*******************结果文件 $result_unique ***************************"

exit

　　给脚本添加执行权限：

chmod +x uniquefile.sh

　　执行shell脚本

sh ./uniquefile.sh ./文件路径 文件名

　　结果：

[root@xddsdsdsddssd ~]# sh uniquefile.sh ./ testfile.csv

文件排序 start...

文件排序 end...

***********文件比较 start**************************

while read line <.//testfile.csv_sort.txt

linecount=========>>>>>>>

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

compare=====A0223EE1IDJDJ2938X39284BEOQQQQ54876F0

[ = ]

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E

-------------------->>>>>>>>>>>

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E

[ = ]

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E

[ = ]

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

compare=====F250A4FFIDJDJ2938X39252E7OQQQQB88769E

-------------------->>>>>>>>>>>

================last line===================

*******************文件 .//testfile.csv 处理结束***************************

*******************结果文件 .//testfile.csv_result_unique.txt ***************************

　　最终结果文件：

[root@wewewwew ~]# more testfile.csv_result_unique.txt 

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

A0223EE1IDJDJ2938X39284BE, ,OQQQQ54,876F0,,,ss

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

F250A4FFIDJDJ2938X39252E7, ,OQQQQB8,8769E,,,ss

　　时间比较赶，先这样实现吧。哪位亲们有好的办法请告诉我。

如何使用shell脚本快速排序和去重文件数据的更多相关文章

Centos7下crontab+shell脚本定期自动删除文件
问题描述: 最近有个需求,就是rsync每次同步的数据量很多,但是需要保留的数据库bak文件保留7天就够了,所以需要自动清理文件夹内的bak文件解决方案: 利用shell脚本来定期删除文件夹内的任 ...
Shell脚本使用汇总整理——文件夹及子文件备份脚本
Shell脚本使用汇总整理——文件夹及子文件备份脚本 Shell脚本使用的基本知识点汇总详情见连接: https://www.cnblogs.com/lsy-blogs/p/9223477.html ...
shell脚本实现读取一个文件中的某一列，并进行循环处理
shell脚本实现读取一个文件中的某一列,并进行循环处理 1) for循环 #!bin/bash if [ ! -f "userlist.txt" ]; then echo &qu ...
Shell脚本对Linux进行文件校验
Shell脚本对Linux进行文件校验一.需求有客户等保需求对文件一致性进行校验,想到利用md5sum工具,因此写脚本来对文件进行自定义扫描,后期可以利用其进行校验,快速校验文件发现变更的文件,一 ...
[ Shell ] 通过 Shell 脚本导出 GDSII/OASIS 文件
https://www.cnblogs.com/yeungchie/ 常见的集成电路版图数据库文件格式有 GDSII 和 OASIS,virtuoso 提供了下面两个工具用来在 Shell 中导出版图 ...
Shell脚本 | 抓取log文件
在安卓应用的测试过程中,遇到 Crash 或者 ANR 后,想必大家都会通过 adb logcat 命令来抓取日志定位问题.如果直接使用 logcat 命令的话,默认抓取出的 log 文件包含安卓运行 ...
shell脚本：变量，文件判断，逻辑运算等纪要
shell脚本中的变量定义,引用各有不同的方式,除此之外,很常用的有文件属性判断,逻辑运算,数值运算等,下面记录一下它们的属性作用变量 shell变量的定义分为两种:一种是直接赋值定义,另一种是嵌套 ...
ubuntu 用shell脚本实现将当前文件夹下全部文件夹中的某一类文件复制到同一文件夹下
当前文件夹下有一些文件和文件夹,当中每一个文件夹里都有若干.txt文件. 如今要求在当前文件夹创建一个新文件夹all,且将那些文件夹全部.txt文件都复制到文件夹all.在ubuntu12.04的s ...
shell脚本0——”一切皆文件“，认识Shell
一.”一切皆文件“与“管道” 1)管道:grep foo /path/to/file | grep -n -k 3 | more 实际过程与我们直观认为的相反,最好通过实际过程理解.首先运行的是mor ...

随机推荐

BeanNameAware接口和BeanFactoryAware接口
迄今为止,所接触到的Bean都是“无知觉”的,就像黑客帝国中机械工厂里面“养殖”的人类,他们虽然能完成一定的功能,但是根本不知道自己在工厂(BeanFactory)中的代号(id),或者自己是在哪个工 ...
javascript 之Object内置对象
Object.defineProperty(obj, prop, descriptor)
_fastcall
* 1楼 __fastcall具体含义在C语言中,假设我们有这样的一个函数: int function(int a,int b) 调用时只要用result = function(1,2)这样的方式就 ...
vim基础命令
2015-06-04 by komilevim基础命令打开一个文件 vim index.php 几种模式说明Normal Mode也就是最一般的普通模式,默认进入vim之后,处于这种模式.Inser ...
vim 树形目录插件NERDTree安装及简单用法
转自: http://blog.csdn.net/love__coder/article/details/6659103 1,安装NERDTree插件先下载,官网:http://www.vim.or ...
8-Highcharts曲线图之对数直线图
<!DOCTYPE> <html lang='en'> <head> <title>8-Highcharts曲线图之对数直线图</title> ...
Eclipse构建Maven项目
1. 安装m2eclipse插件要用Eclipse构建Maven项目,我们需要先安装meeclipse插件点击eclipse菜单栏Help->Eclipse Marketpl ...
清北学堂模拟day6 花
[问题描述] 商店里出售n种不同品种的花.为了装饰桌面,你打算买m支花回家.你觉得放两支一样的花很难看,因此每种品种的花最多买1支.求总共有几种不同的买花的方案?答案可能很大,输出答案mod p的值. ...
Linux 开机启动方式设置 inittab 详解，开机直接进入“命令行”模式
Linux下的 /etc/inittab 中的英文解释: This file describes how the INIT process should set up the system in a ...
Xcode如何找到默认的生成路径？
我最近刚刚入门ObjectiveC,在研习<Objective C程序设计(第6版)>一书. 今天看到有关文件和归档的章节,但是我对XCode的生成文件路径并不了解,然后,在调试代码的时候 ...

如何使用shell脚本快速排序和去重文件数据

如何使用shell脚本快速排序和去重文件数据的更多相关文章

随机推荐

热门专题