Linux shell 计算两个文件的并集、交集、差集

假设我们现在有两个文件 a.txt 、b.txt

a.txt 中的内容如下：

b.txt 中的内容如下：

# Example 01

计算并集：

[root@VM_81_181_centos ~]# sort -u a.txt b.txt

1

2

3

4

5

a

b

c

d

e

[root@VM_81_181_centos ~]#

# Exmaple 02

计算交集：

[root@VM_81_181_centos ~]# grep -F -f a.txt b.txt | sort | uniq

1

a

[root@VM_81_181_centos ~]#

# Example 03

计算差集(a - b)：

[root@VM_81_181_centos ~]# grep -F -v -f b.txt a.txt | sort | uniq

3

4

c

d

[root@VM_81_181_centos ~]#

# Example 04

计算差集(b - a):

[root@VM_81_181_centos ~]# grep -F -v -f a.txt b.txt | sort | uniq

2

5

b

e

[root@VM_81_181_centos ~]#

-----------------------------------------------------------手动分割线---------------------------------------------------------------------------

2018/09/30 更新

上面介绍了关于如何使用 grep 命令实现文件的交、差集，但是在实际操作中得到的结果却有点问题存在

[root@VM_81_181_centos ~]# grep -F -f a.txt b.txt | sort | uniq | wc -l

4095

[root@VM_81_181_centos ~]# grep -F -f b.txt a.txt | sort | uniq | wc -l

4729

[root@VM_81_181_centos ~]#

上面的命令我是用于求 a 、b 两个文件的交集，但是当把两个文件的位置顺序改变了一下，结果竟然是不

一样，这是不科学的。

后来仔细想了想，grep 命令是搜索查找的命令，举个例子：

c.txt 文件里面的内容如下：

d.txt 文件里面的内容如下:

11223344

执行 grep 命令:

[root@VM_81_181_centos ~]# grep -F -f c.txt d.txt | sort | uniq

11223344

[root@VM_81_181_centos ~]# grep -F -f d.txt c.txt | sort | uniq

[root@VM_81_181_centos ~]#

根据结果，对第一条命令的解读是：

命令执行后，在 d.txt 文件里面搜索和 c.txt 文件相匹配的字符，因为 c.txt 文件里面的字符 1122 和 d.txt 文件里面的

字符 11223344 前面的 1122 相匹配，则就把 11223344 字符作为两个文件相同的部分记录下来

第二条命令：

命令执行后，在 c.txt 文件里面搜索和 d.txt 文件相匹配的字符，d.txt 文件里面的 11223344 在 c.txt 文件里面找不到

与其类似或相同的字符，所以，结果为空。

现在，在 c.txt 文件里面新增字符 112233445566，结果及操作如下：

c.txt 文件内容：

执行 grep 命令：

[root@VM_81_181_centos ~]# grep -F -f d.txt c.txt | sort | uniq

1122334455

[root@VM_81_181_centos ~]#

结论：

grep -F -f fileA fileB | sort | uniq

当 fileA 文件在前，则表示在 fileB 文件里面搜索和 fileA 文件里面相同或者类似的字符，并将 fileB 文件里面那个字符记录下来

同理，fileB 在前，fileA 在后的情况。

但是，在这里这并不是我们想要的结果，我们想要的结果就是我们以前学数学时候，求两个集合的交集一样，结果输

出的是两个集合共有的部分，尝试了几个方法，最后还是选择使用 cat 命令。

命令格式如下:

cat fileA fileB | sort | uniq -d  # 求交集

cat fileA fileB | sort | uniq -u  # 求差集

这个命令比较好理解，cat 命令先把两个文件合并成一个文件，然后在对合并后的文件进行排序、去重，-d 命令输出文

件中相同的字符，-u 命令输出文件中不同的字符，并且在计算交集的时候 fileA、fileB 文件顺序哪个在前在后的结果都是一样的。

案例如下：

[root@VM_81_181_centos ~]# cat c.txt

1122

1133

1144

1155

1122334455

[root@VM_81_181_centos ~]# cat d.txt

11223344

1122

[root@VM_81_181_centos ~]#

c、d 文件内容如上

执行 cat 命令求交集：

[root@VM_81_181_centos ~]# cat c.txt d.txt | sort | uniq -d

1122

[root@VM_81_181_centos ~]# cat d.txt c.txt | sort | uniq -d

1122

[root@VM_81_181_centos ~]#

执行 cat 命令求差集：

[root@VM_81_181_centos ~]# cat c.txt d.txt | sort | uniq -u

11223344

1122334455

1133

1144

1155

[root@VM_81_181_centos ~]# cat d.txt c.txt | sort | uniq -u

11223344

1122334455

1133

1144

1155

[root@VM_81_181_centos ~]#

但是 cat 命令也有一个短板，当文件比较大的时候，就会出错，但是在这里我们可以去借助

split 命令对文件进行分割，分而治之，然后合并，关于如何使用 split 命令，可以参考我的这篇文章

传送门：https://www.cnblogs.com/leeyongbard/p/9594439.html

----------------------------------------------2019/04/27------------------------------------------------------------

paste命令

按列合并文件

paste 格式为：

paste -d -s -file1 file2

选项含义如下：

-d 指定不同于空格或tab键的分隔符,例如使用@分隔符,使用 -d @

-s 将每个文件合并成行而不是按行粘贴

- 使用标准输入。例如：ls -l | paste 意思是只在一列上显示输出

例子：

#cat pas1

ID897

ID666

ID982

#cat pas2

P.Jones

S.Round

L.Clip

基于 paste 命令将 pas1.txt 和 pas2.txt 两文件粘贴成两列：

# paste pas1 pas2

ID897   P.Jones

ID666   S.Round

ID982   L.Clip

通过交换文件名即可指定哪一列先粘贴：

# paste pas2 pas1

P.Jones ID897

S.Round ID666

L.Clip ID982

要创建不同于空格或tab键的分隔符，使用 -d 选项，如下使用冒号做分隔符：

# paste -d: pas2 pas1

P.Jones:ID897

S.Round:ID666

L.Clip:ID982

要将两列合并成两行，需要使用 -s 选项，如下例子：

# paste -s pas1 pas2

ID897   ID666   ID982

P.Jones S.Round L.Clip

有不同意见，欢迎交流^_^

Linux shell 计算两个文件的并集、交集、差集的更多相关文章

[Linux] 取两个文件的并集/交集/差集
uniq -d是只打印重复行 -u是只打印独一无二的行文件A : abcd文件B: cdef取并集:A + B sort A B|uniq 取交集: sort A B|uniq -d 取差集:A - ...
linux 处理两个文件的并集,交集,计数
1. 取出两个文件的并集(重复的行只保留一份) cat file1 file2 | sort | uniq 2. 取出两个文件的交集(只留下同时存在于两个文件中的文件) cat file1 file2 ...
python求两个列表的并集.交集.差集
求两个列表的差集 >>> a = [1,2,3] >>> b=[1,2] >>> ################################ ...
C#计算两个文件的相对目录算法
C#计算两个文件的相对目录算法楼主大菜鸟一只,第一次写技术博客,如果有概念错误或代码不规范的地方,还请各位多多批评指正.话不多说,来看题: 前一阵子开发了一个用户控件,里面调用了很多css,js等资 ...
php 计算两个文件的相对路径
<?php /** * 计算两个文件的相对路径 */ function relative_path($path1, $path2) { $arr1 = explode('/', dirname( ...
Shell合并两个文件成一个文件的两列paste,awk
Shell合并两个文件成一个文件的两列发布时间:2014-07-20 编辑:www.jquerycn.cn Shell合并两个文件成一个文件的两列,提供了两种方法,普通shell脚本,awk脚本 ...
PHP计算两个时间段是否有交集（边界重叠不算）
优化前的版本: /** * PHP计算两个时间段是否有交集(边界重叠不算) * * @param string $beginTime1 开始时间1 * @param string $endTime1 ...
Linux下对比两个文件夹的方法
最近拿到一份源代码,要命的是这份源代码是浅克隆模式的git包,所以无法完整显示里面的修改的内容. 今天花了一点点时间,找了一个在Linux对比两个文件夹的方法. 其实方法很简单,用meld 去对比两个 ...
php源码之计算两个文件的相对路径
<?php //计算出两个文件的相对路径即path2相对于$path1的相对路径 // http://www.manongjc.com/article/1342.html function ge ...

随机推荐

php获得可靠的精准的当前时间 ( 通过授时服务器 )
有一种情形是这样子的,比如机票业务中的订票流程,我们需要一个非常可靠的当前时间来支持,尽管大多数服务器的时间是非常准确的,我们使用time()来获取的时间是可靠的,但未免会有不确切的情况,也有的服务器 ...
JMX堆栈分析
线程堆栈: 线程堆栈也称线程调用堆栈,是虚拟机中线程(包括锁)状态的一个瞬间快照,即系统在某一个时刻所有线程的运行状态,包括每一个线程的调用堆栈,锁的持有情况.虽然不同的虚拟机打印出来的格式有些不同, ...
How to use CAR FANS C800 Diagnostic Scan Tool to do diagnosis operation
How to use Heavy Duty Diagnostic CAR FANS C800 Diagnostic Scan Tool to do diagnosis operation Here i ...
76 道 Oracle Goldengate 面试问题
基础 12c新特性性能 Troubleshoot 其它 1. Oracle Goldengate 支持部署到哪些拓扑? GoldenGate supports the following topol ...
ltp执行过程总结
命令行:./runltp -b DEVICE -f timers -p -l result-log-timers.20180824 -o screen-log-timers.20180824 runl ...
python的ws库功能，实时获取服务器ws协议返回的数据
# -*- coding:utf-8 -*- ''' 模块下载,帮助地址:https://github.com/liris/websocket-client#readme 模块:websocket-c ...
Golang的数组初始化方式及for-range遍历
package main import ( "fmt" ) func main() { ]], , } //定义并初始化长度为3的数组 fmt.Println(arr1) //[1 ...
enq: TM - contention一例
今天下午,有台服务器出现异常,响应特别慢,io等待奇高,awr top 5事件如下: 经回查ash,找到了造成这些事件的sql语句,如下: select * from v$active_session ...
20165310 《Java程序设计》课程总结
20165310 <Java程序设计>课程总结一.每周作业及实验报告博客链接汇总预备作业一:我期望的师生关系 20165310 我期望的师生关系预备作业二:学习基础和C语言基础调查 ...
Codeforces 868D Huge Strings - 位运算 - 暴力
You are given n strings s1, s2, ..., sn consisting of characters 0 and 1. m operations are performed ...

Linux shell 计算两个文件的并集、交集、差集

Linux shell 计算两个文件的并集、交集、差集的更多相关文章

随机推荐

热门专题