如何实现shell并发

很多人都问我如何写shell脚本，如何实现同时给三台ftp服务器上传文件，如何同时检测三台服务器是否alive等，其实这就是想实现shell的并发。那么shell并发该如何实现呢？

下面我就拿这个例子来讲：

每次任务都是输出字符“bingfa”，并停留一秒钟，共20次。

按照正常思维，脚本应该这样写：

[root@station1 ~]# cat a.sh
#!/bin/bash
for((i=0;i<20;i++))
do
sleep 1
echo "bingfa"
done
[root@station1 ~]# time bash a.sh
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
real 0m20.067s
user 0m0.016s
sys 0m0.031s
[root@station1 ~]#

可以看到执行此脚本大概用了20秒。那么使用shell并发该怎么写，很多人都会想到后台程序，类似如下：

[root@station1 ~]# cat b.sh
#!/bin/bash
for((i=0;i<20;i++))
do
{
sleep 1
echo "bingfa"
}&
done
wait
[root@station1 ~]# time bash b.sh
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
bingfa
real 0m1.060s
user 0m0.005s
sys 0m0.057s
[root@station1 ~]#

这样写只需花大概一秒钟，可以看到所有的任务几乎同时执行，如果任务量非常大，系统肯定承受不了，也会影响系统中其他程序的运行，这样就需要一个线程数量的控制。下面是我一开始写的代码（是有问题的）：

[root@station1 ~]# cat c.sh
#!/bin/bash
exec 6<>tmpfile
echo "1\n1\n1" &>6
for((i=0;i<20;i++))
do
read -u 6
{
sleep 1
echo "$REPLY"
echo "1" 1>&6
}&
done
wait
[root@station1 ~]# time bash c.sh
111
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
real 0m1.074s
user 0m0.012s
sys 0m0.031s
[root@station1 ~]#

可以明显看出是有问题的，我本想控制线程个数为3，但是就算文件描述符6中为空，也会被读取空，然后跳过继续下面的执行，所以使用文件描述符打开一个文件是不行的，然后我就想着使用类似管道的文件来做，下面是我的代码：

[root@station1 ~]# cat d.sh
#!/bin/bash
mkfifo fd2
exec 9<>fd2
echo -n -e "1\n1\n1\n" 1>&9
for((i=0;i<20;i++))
do
read -u 9
{ #your process
sleep 1
echo "$REPLY"
echo -ne "1\n" 1>&9
} &
done
wait
rm -f fd2
[root@station1 ~]# time bash d.sh
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
real 0m7.075s
user 0m0.018s
sys 0m0.044s
[root@station1 ~]#

这样就ok了，三个线程运行20个任务，7秒多点。

shell如何实现多线程？

情景

shell脚本的执行效率虽高，但当任务量巨大时仍然需要较长的时间，尤其是需要执行一大批的命令时。因为默认情况下，shell脚本中的命令是串行执行的。如果这些命令相互之间是独立的，则可以使用“并发”的方式执行这些命令，这样可以更好地利用系统资源，提升运行效率，缩短脚本执行的时间。如果命令相互之间存在交互，则情况就复杂了，那么不建议使用shell脚本来完成多线程的实现。

为了方便阐述，使用一段测试代码。在这段代码中，通过seq命令输出1到10，使用for...in语句产生一个执行10次的循环。每一次循环都执行sleep 1，并echo出当前循环对应的数字。

注意：

真实的使用场景下，循环次数不一定等于10，或高或低，具体取决于实际的需求。
真实的使用场景下，循环体内执行的语句往往比较耗费系统资源，或比较耗时等。

请根据真实场景的各种情况理解本文想要表达的内容。

$ cat test1.sh

#/bin/bash

all_num=10

a=$(date +%H%M%S)

for num in `seq 1 ${all_num}`

do

    sleep 1

    echo ${num}

done

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

通过上述代码可知，为了体现执行的时间，将循环体开始前后的时间打印了出来。

运行结果：

$ sh test1.sh

1

2

3

4

5

6

7

8

9

10

startTime:  193649

endTime:    193659

10次循环，每次sleep 1秒，所以总执行时间10s。

方案

方案1：使用"&"使命令后台运行

在linux中，在命令的末尾加上&符号，则表示该命令将在后台执行，这样后面的命令不用等待前面的命令执行完就可以开始执行了。示例中的循环体内有多条命令，则可以以{}括起来，在大括号后面添加&符号。

$ cat test2.sh

#/bin/bash

all_num=10

a=$(date +%H%M%S)

for num in `seq 1 ${all_num}`

do

{

    sleep 1

    echo ${num}

} &

done

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

运行结果：

sh test2.sh

startTime:  194147

endTime:    194147

[j-tester@merger142 ~/bin/multiple_process]$ 1

2

3

4

5

6

7

8

9

10

通过结果可知，程序没有先打印数字，而是直接输出了开始和结束时间，然后显示出了命令提示符[j-tester@merger142 ~/bin/multiple_process]$（出现命令提示符表示脚本已运行完毕），然后才是数字的输出。这是因为循环体内的命令全部进入后台，所以均在sleep了1秒以后输出了数字。开始和结束时间相同，即循环体的执行时间不到1秒钟，这是由于循环体在后台执行，没有占用脚本主进程的时间。

方案2：命令后台运行+`wait`命令

解决上面的问题，只需要在上述循环体的done语句后面加上wait命令，该命令等待当前脚本进程下的子进程结束，再运行后面的语句。

$ cat test3.sh

#/bin/bash

all_num=10

a=$(date +%H%M%S)

for num in `seq 1 ${all_num}`

do

{

    sleep 1

    echo ${num}

} &

done

wait

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

运行结果：

$ sh test3.sh

1

2

3

4

5

6

7

9

8

10

startTime:  194221

endTime:    194222

但这样依然存在一个问题：
因为&使得所有循环体内的命令全部进入后台运行，那么倘若循环的次数很多，会使操作系统在瞬间创建出所有的子进程，这会非常消耗系统的资源。如果循环体内的命令又很消耗系统资源，则结果可想而知。

最好的方法是并发的进程是可配置的。

方案3：使用文件描述符控制并发数

$ cat test4.sh

#/bin/bash

all_num=10

# 设置并发的进程数

thread_num=5

a=$(date +%H%M%S)

# mkfifo

tempfifo="my_temp_fifo"

mkfifo ${tempfifo}

# 使文件描述符为非阻塞式

exec 6<>${tempfifo}

rm -f ${tempfifo}

# 为文件描述符创建占位信息

for ((i=1;i<=${thread_num};i++))

do

{

    echo

}

done >&6 

#

for num in `seq 1 ${all_num}`

do

{

    read -u6

    {

        sleep 1

        echo ${num}

        echo "" >&6

    } &

}

done 

wait

# 关闭fd6管道

exec 6>&-

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

运行结果：

$ sh test4.sh

1

3

2

4

5

6

7

8

9

10

startTime:  195227

endTime:    195229

方案4：使用`xargs -P`控制并发数

xargs命令有一个-P参数，表示支持的最大进程数，默认为1。为0时表示尽可能地大，即方案2的效果。

$ cat test5.sh

#/bin/bash

all_num=10

thread_num=5

a=$(date +%H%M%S)

seq 1 ${all_num} | xargs -n 1 -I {} -P ${thread_num} sh -c "sleep 1;echo {}"

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

运行结果：

$ sh test5.sh

1

2

3

4

5

6

8

7

9

10

startTime:  195257

endTime:    195259

方案5：使用`GNU parallel`命令控制并发数

GNU parallel命令是非常强大的并行计算命令，使用-j参数控制其并发数量。

$ cat test6.sh

#/bin/bash

all_num=10

thread_num=6

a=$(date +%H%M%S)

parallel -j 5 "sleep 1;echo {}" ::: `seq 1 10`

b=$(date +%H%M%S)

echo -e "startTime:\t$a"

echo -e "endTime:\t$b"

运行结果：

$ sh test6.sh

1

2

3

4

5

6

7

8

9

10

startTime:  195616

endTime:    195618

总结

“多线程”的好处不言而喻，虽然shell中并没有真正的多线程，但上述解决方案可以实现“多线程”的效果，重要的是，在实际编写脚本时应有这样的考虑和实现。
另外：
方案3、4、5虽然都可以控制并发数量，但方案3显然写起来太繁琐。
方案4和5都以非常简洁的形式完成了控制并发数的效果，但由于方案5的parallel命令非常强大，所以十分建议系统学习下。
方案3、4、5设置的并发数均为5，实际编写时可以将该值作为一个参数传入。

参考文章

一个入门级可控多线程shell脚本方案

说到shell可控多线程，网上分享的大部分是管道控制的方案。这种方案，张戈博客也曾经实战并分享过一次：《Shell+Curl网站健康状态检查脚本，抓出中国博客联盟失联站点》，感兴趣的朋友可以看看。

下面张戈博客再分享另一种更容易理解的入门级可控多线程shell脚本方案：任务切割、各个击破。

先来 1 段场景描述：

某日，在鹅厂接到了这个任务，需要在Linux服务器中，对几千个IP进行一次Ping检测，只要取得ping可达的IP就好。如果单个IP去ping测试，虽然也可以完成任务，几千个IP还好了，如果更多呢？

鉴于这个case简单程度，第一时间先放弃了以前用过的管道方案，而是采用了各个击破的思想。

简单思路：

按照任务切割的“战略思想”，我先将这几千IP存入一个iplist文件，然后写一个分割函数，将这个文件分成多份临时IP清单，最后，用多线程遍历这些临时IP文件即可变相实现多线程了。

具体代码：

Shell

#!/bin/sh

#文本分割函数：将文本$1按份数$2进行分割

SplitFile()

{

linenum=`wc -l $1 |awk '{print $1}'`

if [[ $linenum -le $2 ]]

then

echo "The lines of this file is less then $2, Are you kidding me..."

exit

Split=`expr $linenum / $2`

Num1=1

FileNum=1

test -d SplitFile || mkdir -p SplitFile

rm -rf SplitFile/*

while [ $Num1 -lt $linenum ]

Num2=`expr $Num1 + $Split`

sed -n "${Num1}, ${Num2}p " $1 > SplitFile/$1-$FileNum

Num1=`expr $Num2 + 1`

FileNum=`expr $FileNum + 1`

done

}

#Define some variables

SPLIT_NUM=${1:-10} #参数1表示分割成多少份即,开启多少个线程，默认10个

FILE=${2:-iplist} #参数2表示分割的对象，默认iplist文件

#分割文件

SplitFile $FILE $SPLIT_NUM

#循环遍历临时IP文件

for iplist in $(ls ./SplitFile/*)

#循环ping测试临时IP文件中的ip（丢后台）

cat $iplist | while read ip

ping -c 4 -w 4 $ip >/dev/null && echo $ip | tee -ai okip.log #ping 可达的IP则写入日志

done & #在while循环后面加上&符号，让这个嵌套循环在后台执行

done

将代码保存为ping.sh之后，执行 sh ping.sh iplist 100 的过程如下：

先将iplist切割成100份，存放在 SplitFile 文件夹中

然后，通过for循环读取这些分割文件，并在后台使用while循环对其中ip执行ping命令。

由于while是丢后台的，所以for循环会一次性执行100个while，相当于开启了100个线程，速度自然不可同日而语矣。

其中，切割的份数即你想要开启的多线程数量，很明显，这种任务分割的思路虽然没有管道方案来的高大上，但是其思想更加简单易懂，而且通用性也更好，适合入门级的简单多线程任务。

如何实现shell并发一个入门级可控多线程shell脚本方案的更多相关文章

[记录]Shell并发模式批量安装saltstack的脚本
SaltStack+Shell: salt-master的配置: #cat /etc/salt/master user: root auto_accept: True salt-minion的配置(支 ...
浅入了解GCD 并发并行同步异步多线程
什么是 GCD?! GCD就是一个函数库(废话) 用来压榨系统的资源,解决多线程处理中一些问题的库(知道这个就够了,很多电影角色都是因为知道太多死得很惨!!!!!) 1.并发与并行 Concurre ...
Python并发编程系列之多线程
1 引言上一篇博文详细总结了Python进程的用法,这一篇博文来所以说Python中线程的用法.实际上,程序的运行都是以线程为基本单位的,每一个进程中都至少有一个线程(主线程),线程又可以创建子线程 ...
python实现并发服务器实现方式(多线程/多进程/select/epoll)
python实现并发服务器实现方式(多线程/多进程/select/epoll) 并发服务器开发并发服务器开发,使得一个服务器可以近乎同一时刻为多个客户端提供服务.实现并发的方式有多种,下面以多进 ...
ipython, 一个 python 的交互式 shell，比默认的python shell 好用得多，支持变量自动补全，自动缩进，支持 bash shell 命令，内置了许多很有用的功能和函数
一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量自动补全,自动缩进,支持 bash shell 命令,内置了许多很有用的功能和函数. 若用的是fish s ...
一个简单的多线程Python爬虫（一）
一个简单的多线程Python爬虫最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 前端页面是用JS模板引擎生成的接口主要是用POST提交参数的目前不会处理使用JS模 ...
[一个经典的多线程同步问题]解决方案一：关键段CS
前面提出了一个经典的多线程同步互斥问题,本篇将用关键段CRITICAL_SECTION来尝试解决这个问题. 本文先介绍如何使用关键段,然后再深层次的分析下关键段的实现机制和原理. 关键段CRITICA ...
Java Tread多线程（0）一个简单的多线程实例
作者 : 卿笃军原文地址:http://blog.csdn.net/qingdujun/article/details/39341887 本文演示,一个简单的多线程实例,并简单分析一下线程. 编程多 ...
Qt5.9一个简单的多线程实例（类QThread）（第一种方法）
Qt开启多线程,主要用到类QThread.有两种方法,第一种用一个类继承QThread,然后重新改写虚函数run().当要开启新线程时,只需要实例该类,然后调用函数start(),就可以开启一条多线程 ...

随机推荐

SpringBoot_04_SpringBoot对ssm的整合
1.在SpringBoot框架下对ssm进行整合 2.搭建一个web的SpringBoot框架 2.1添加pom.xml坐标(需要加上SpringBoot对jsp的支持,和对资源文件位置的说明) &l ...
（转）第04节：Fabric.js用路径画不规则图形
在Canvas上画方形.圆形.三角形都是很容易的,只要调用fabric对应的方法就可以了,但这些都是规则的图形,如果你想画一个不规则的图形,这时候你可以用fabric.js提供的路径绘图方法.所谓路径 ...
VS2010-MFC（工具栏：工具栏资源及CToolBar类）
转自:http://www.jizhuomi.com/software/215.html 上一节讲了菜单及CMenu类的使用,这一节讲与菜单有密切联系的工具栏. 工具栏简介工具栏一般位于主框架窗口的 ...
R软件导入数据_r语言怎么导入数据_R软件导入数据
R软件导入数据_r语言怎么导入数据_R软件导入数据 R软件导入数据 1.Rcmdr安装包导入数据: 1.安装Rcmdr包,输入: install.packages("Rcmdr") ...
MailHelper
using System; using System.Collections.Concurrent; using System.Collections.Generic; using System.Co ...
夏令营501-511NOIP训练16——数字转换
传送门:QAQQAQ 题意:如果一个数x的约数和(不包括它本身,下同)比它本身小,那么x可以变成它的约数和:如果对于某个y>x且y的约数和为x,那么x也可以变成y.例如,4可以变为3,1可以变为 ...
deployment资源
目的:用rc在滚动升级之后,会造成服务访问中孤单,于是k8s引入了deploymentziyuan 创建deployment vim k8s_deploy.yml apiVersion: extens ...
注解@Qualifier@Primary
在Controller中需要注入service那么我的这个server有两个实现类如何区分开这两个impl呢根据注入资源的注解不同实现的方式有一点小小的区别在Controller中使用 @Auto ...
Python全栈开发：初识Python
Pythton简介 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC语 ...
MQTT入门介绍
一简述 MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅(publish/subscribe)模式的"轻量级&q ...

如何实现shell并发一个入门级可控多线程shell脚本方案

shell如何实现多线程？

情景

方案

方案1：使用"&"使命令后台运行

方案2：命令后台运行+`wait`命令

方案3：使用文件描述符控制并发数

方案4：使用`xargs -P`控制并发数

方案5：使用`GNU parallel`命令控制并发数

总结

参考文章

相关知识点

一个入门级可控多线程shell脚本方案

如何实现shell并发一个入门级可控多线程shell脚本方案的更多相关文章

随机推荐

热门专题

如何实现shell并发 一个入门级可控多线程shell脚本方案

shell如何实现多线程？

情景

方案

方案1：使用"&"使命令后台运行

方案2：命令后台运行+wait命令

方案3：使用文件描述符控制并发数

方案4：使用xargs -P控制并发数

方案5：使用GNU parallel命令控制并发数

总结

参考文章

相关知识点

一个入门级可控多线程shell脚本方案

如何实现shell并发 一个入门级可控多线程shell脚本方案的更多相关文章

随机推荐

热门专题

如何实现shell并发一个入门级可控多线程shell脚本方案

方案2：命令后台运行+`wait`命令

方案4：使用`xargs -P`控制并发数

方案5：使用`GNU parallel`命令控制并发数

如何实现shell并发一个入门级可控多线程shell脚本方案的更多相关文章