xargs具有并行处理的能力，在处理大文件时，如果应用得当，将大幅提升效率。

xargs详细内容(全网最详细)：https://www.cnblogs.com/f-ck-need-u/p/5925923.html

效率提升测试结果

先展示一下使用xargs并行处理提升的效率，稍后会解释下面的结果。

测试环境：

win10子系统上
32G内存
8核心cpu
测试对象是一个放在固态硬盘上的10G文本文件(如果你需要此测试文件，点此下载，提取码: semu)

下面是正常情况下wc -l统计这个10G文件行数的结果，花费16秒，多次测试，cpu利用率基本低于80%。

$ /usr/bin/time wc -l 9.txt

999999953 9.txt

4.56user 3.14system 0:16.06elapsed 47%CPU (0avgtext+0avgdata 740maxresident)k

0inputs+0outputs (0major+216minor)pagefaults 0swaps

通过分割文件，使用xargs的并行处理功能进行统计，花费时间1.6秒，cpu利用率752%：

$ /usr/bin/time ./b.sh

999999953

7.67user 4.54system 0:01.62elapsed 752%CPU (0avgtext+0avgdata 1680maxresident)k

0inputs+0outputs (0major+23200minor)pagefaults 0swaps

用grep从这个10G的文本文件中筛选数据，花费时间24秒，cpu利用率36%：

$ /usr/bin/time grep "10000" 9.txt >/dev/null

6.17user 2.57system 0:24.19elapsed 36%CPU (0avgtext+0avgdata 1080maxresident)k

0inputs+0outputs (0major+308minor)pagefaults 0swaps

通过分割文件，使用xargs的并行处理功能进行统计，花费时间1.38秒，cpu利用率746%：

$ /usr/bin/time ./a.sh

6.01user 4.34system 0:01.38elapsed 746%CPU (0avgtext+0avgdata 1360maxresident)k

0inputs+0outputs (0major+31941minor)pagefaults 0swaps

速度提高的不是一点点。

xargs并行处理简单示例

要使用xargs的并行功能，只需使用"-P N"选项即可，其中N是指定要运行多少个并行进程，如果指定为0，则使用尽可能多的并行进程数量。

需要注意的是：

既然要并行，那么xargs必须得分批传送管道的数据，xargs的分批选项有"-n"、"-i"、"-L"，如果不知道这些内容，看本文开头给出的文章。
并行进程数量应该设置为cpu的核心数量。如果设置为0，在处理时间较长的情况下，很可能会并发几百个甚至上千个进程。在我测试一个花费2分钟的操作时，创建了500多个进程。
在本文后面，还给出了其它几个注意事项。

例如，一个简单的sleep命令，在不使用"-P"的时候，默认是一个进程按批的先后进行处理：

[root@xuexi ~]# time echo {1..4} | xargs -n 1 sleep

real    0m10.011s

user    0m0.000s

sys     0m0.011s

总共用了10秒，因为每批传一个参数，第一批睡眠1秒，然后第二批睡眠2秒，依次类推，还有3秒、4秒，共1+2+3+4=10秒。

如果使用-P指定4个处理进程，它将以处理时间最长的为准：

[root@xuexi ~]# time echo {1..4} | xargs -n 1 -P 4 sleep

real    0m4.005s

user    0m0.000s

sys     0m0.007s

再例如，find找到一大堆文件，然后用grep去筛选：

find /path -name "*.log" | xargs -i grep "pattern" {}

find /path -name "*.log" | xargs -P 4 -i grep "pattern" {}

上面第一个语句，只有一个grep进程，一次处理一个文件，每次只被其中一个cpu进行调度。也就是说，它无论如何，都只用到了一核cpu的运算能力，在极端情况下，cpu的利用率是100%。

上面第二个语句，开启了4个并行进程，一次可以处理从管道传来的4个文件，在同一时刻这4个进程最多可以被4核不同的CPU进行调度，在极端情况下，cpu的利用率是400%。

并行处理示例

下面是文章开头给出的实验结果对应的示例。一个10G的文本文件9.txt，这个文件里共有9.9亿(具体的是999999953)行数据。

首先一个问题是，怎么统计这么近10亿行数据的？wc -l，看看时间花费。

$ /usr/bin/time wc -l 9.txt

999999953 9.txt

4.56user 3.14system 0:16.06elapsed 47%CPU (0avgtext+0avgdata 740maxresident)k

0inputs+0outputs (0major+216minor)pagefaults 0swaps

总共花费了16.06秒，cpu利用率是47%。

随后，我把这10G数据用split切割成了100个小文件，在提升效率方面，split切割也算是妙用无穷：

split -n l/100 -d -a 3 9.txt fs_

这100个文件，每个105M，文件名都以"fs_"为前缀：

$ ls -lh fs* | head -n 5

-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_000

-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_001

-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_002

-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_003

-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_004

然后，用xargs的并行处理来统计，以下是统计脚本b.sh的内容：

#!/usr/bin/env bash

find /mnt/d/test -name "fs*" |\

 xargs -P 0 -i wc -l {} |\

 awk '{sum += $1}END{print sum}'

上面用-P 0选项指定了尽可能多地开启并发进程数量，如果要保证最高效率，应当设置并发进程数量等于cpu的核心数量(在我的机器上，应该设置为8)，因为在操作时间较久的情况下，可能会并行好几百个进程，这些进程之间进行切换也会消耗不少资源。

然后，用这个脚本去统计测试：

$ /usr/bin/time ./b.sh

999999953

7.67user 4.54system 0:01.62elapsed 752%CPU (0avgtext+0avgdata 1680maxresident)k

0inputs+0outputs (0major+23200minor)pagefaults 0swaps

只花了1.62秒，cpu利用率752%。和前面单进程处理相比，时间是原来的16分之1，cpu利用率是原来的好多好多倍。

再来用grep从这个10G的文本文件中筛选数据，例如筛选包含"10000"字符串的行：

$ /usr/bin/time grep "10000" 9.txt >/dev/null

6.17user 2.57system 0:24.19elapsed 36%CPU (0avgtext+0avgdata 1080maxresident)k

0inputs+0outputs (0major+308minor)pagefaults 0swaps

24秒，cpu利用率36%。

再次用xargs来处理，以下是脚本：

#!/usr/bin/env bash

find /mnt/d/test -name "fs*" |\

 xargs -P 8 -i grep "10000" {} >/dev/null

测试结果：

$ /usr/bin/time ./a.sh

6.01user 4.34system 0:01.38elapsed 746%CPU (0avgtext+0avgdata 1360maxresident)k

0inputs+0outputs (0major+31941minor)pagefaults 0swaps

花费时间1.38秒，cpu利用率746%。

这比用什么ag、ack替代grep有效多了。

提升哪些效率以及注意事项

xargs并行处理用的好，能大幅提升效率，但这是有条件的。

首先要知道，xargs是如何提升效率的，以grep命令为例：

ls fs* | xargs -i -P 8 grep 'pattern' {}

之所以xargs能提高效率，是因为xargs可以分批传递管道左边的结果给不同的并发进程，也就是说，xargs要高效，得有多个文件可处理。对于上面的命令来说，ls可能输出了100个文件名，然后1次传递8个文件给8个不同的grep进程。

还有一些注意事项：

1.如果只有单核心cpu，想提高效率，没门

2.xargs的高效来自于处理多个文件，如果你只有一个大文件，那么需要将它切割成多个小片段

3.由于是多进程并行处理不同的文件，所以命令的多行输出结果中，顺序可能会比较随机

例如，统计行数时，每个文件的出现顺序是不受控制的。

10000000 /mnt/d/test/fs_002

9999999 /mnt/d/test/fs_001

10000000 /mnt/d/test/fs_000

10000000 /mnt/d/test/fs_004

9999999 /mnt/d/test/fs_005

9999999 /mnt/d/test/fs_003

10000000 /mnt/d/test/fs_006

9999999 /mnt/d/test/fs_007

不过大多数时候这都不是问题，将结果排序一下就行了。

4.xargs提升效率的本质是cpu的利用率，因此会有内存、磁盘速度的瓶颈。如果内存小，或者磁盘速度慢(将因为加载数据到内存而长时间处于io等待的睡眠状态)，xargs的并行处理基本无效。

例如，将上面10G的文本文件放在虚拟机上，机械硬盘，内存2G，将会发现使用xargs并行和普通的命令处理几乎没有差别，因为绝大多数时间都花在了加载文件到内存的io等待上。

下一篇文章将介绍GNU parallel并行处理工具，它的功能更丰富，效果更强大。

shell高效处理文本(1)：xargs并行处理的更多相关文章

shell脚本--显示文本内容
shell脚本显示文本内容及相关的常用命令有cat.more.less.head.tail.nl 首先是cat,cat最常用的就是一次性显示文件的所有内容,如果一个文件的内容很多的话,那么就不是很方便 ...
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中利用shell脚本将文本数据导入到mysql中需求1:处理文本中的数据,将文本中的数据插入到mys ...
Shell命令之文本操作
前言在Linux中,文本处理操作是最常见的,应用非常广泛,如果能熟练掌握,可以大大提高开发效率. awk/sed/grep是文本操作领域的“三剑客”,学会了这3个命令就可以应对绝大多数文本处理场景. ...
linux —— shell 编程（文本处理）
导读本文为博文linux —— shell 编程(整体框架与基础笔记)的第4小点的拓展.(本文所有语句的测试均在 Ubuntu 16.04 LTS 上进行) 目录基本文本处理流编辑器sed aw ...
shell 命令合并文本
之前想把代码打印出来看来着,后来合并完之后放在word里发现有2000多页,然后放弃了~anyway,这个命令还是挺有用的. 比如我有文本a001.dat, a002.dat, a003.dat .. ...
shell命令技巧——文本去重并保持原有顺序
简单来说,这个技巧相应的是例如以下一种场景假设有文本例如以下 cccc aaaa bbbb dddd bbbb cccc aaaa 如今须要对它进行去重处理.这个非常easy,sort -u就能够搞 ...
Shell正则表达式和文本处理工具
作业一:整理正则表达式博客一.什么是正则正则就是用一些具有特殊含义的符号组合而成(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. 通配符是由shell解释得. ...
shell学习笔记2-find和xargs
1,find命令形式 find pathname -options [-print - exec -ok] pathname find命令所查找的目录路径.. 表示当前目录,/表示系统根路径 -pri ...
shell学习（20）- xargs
xargs 是给命令传递参数的一个过滤器,也是组合多个命令的一个工具. xargs 可以将管道或标准输入(stdin)数据转换成命令行参数,也能够从文件的输出中读取数据. xargs 也可以将单行或多 ...

随机推荐

Windows多线程学习随笔
自学Windows多线程知识,例程如下: #include <iostream> #include <windows.h> #include <process.h> ...
XSSearch 说明文档保存
XSSearch All Packages | 属性 | 方法(函数) 包 XS 继承关系 class XSSearch » XSServer » XSComponent 版本 1.0.0 源代码 s ...
python操作Redis安装、支持存储类型、普通连接、连接池
一.python操作redis安装和支持存储类型安装redis模块 pip3 install redis 二.Python操作Redis之普通连接 redis-py提供两个类Redis和Strict ...
将 Idea 常用快捷键设置为 Eclipse 的快捷键
补发————grid布局
CSS Grid布局是CSS中最强大的布局系统.与flexbox的一位布局不同的是CSS Grid布局是一个二维布局系统,即它可以同时处理列和行.通过将CSS规则应用于父元素和其子元素,就可以轻松使用 ...
初学mybatis和mysql碰到的问题
今天学习了下使用mybatis操作数据库,期间也是各种问题出现,幸好现在网络发达,网络上很多都可以解决,现在总结一下: Exception in thread "main" org ...
[转]OpenContrail 体系架构文档
OpenContrail 体系架构文档英文原文:http://opencontrail.org/opencontrail-architecture-documentation/ 翻译者:@KkBLu ...
干货---stm32f103之DMA双缓冲__也算我为网络贡献的微薄之力
思考再三:终究是要拿出一些干货--单片机基础核心代码,串口的高效率使用请这里开始.--举一反三,我只列出串口一的双dma缓冲应用范例,剩下的自己扩展.并给与了我迄今觉得最好的串口配置架构-感谢野火的高 ...
使用link标签进行预加载
概述 html中的link标签一般用来引入css文件.但是也可以通过rel属性来进行预加载.本文记录下相关方法,供以后开发时参考,相信对其他人也有用. 参考资料: mdn 通过rel="pr ...
一个需求认识CSS3 的transform-origin属性
最近遇到一个需求,是以前做PHP的同事问我的问题下面是他在百度发的问题截图根据上面的截图,我稍微梳理了一下问题:现在有个div,旋转45度后,这个div的宽度会动态改变,并且要向右上方偏移 ...