Python:怎样用线程将任务并行化?
如果待处理任务满足:
- 可拆分,即任务可以被拆分为多个子任务,或任务是多个相同的任务的集合;
- 任务不是CPU密集型的,如任务涉及到较多IO操作(如文件读取和网络数据处理)
则使用多线程将任务并行运行,能够提高运行效率。
假设待处理的任务为:有很多文件目录,对于每个文件目录,搜索匹配一个给定字符串的文件的所有行(相当于是实现grep的功能)。 则此处子任务为:给定一个目录,搜索匹配一个给定字符串的文件的所有行。总的任务为处理所有目录。
将子任务表示为一个函数T,如下所示:
def T(dir, pattern):
print('searching pattern %s in dir %s' % (pattern, dir))
...
为每个子任务创建一个线程
要实现并行化,最简单的方法是为每一个子任务创建一个thread,thread处理完后退出。
from threading import Thread
from time import sleep def T(dir, pattern):
"This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern %s in dir %s' % (pattern, dir)) threads = []
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello' for dir in dirs:
thread = Thread(target=T, args=(dir, pattern)) 1
thread.start() 2
threads.append(thread) for thread in threads:
thread.join() 3 print('Main thread end here')
- 1 :创建一个Thread对象,target参数指定这个thread待执行的函数,args参数指定target函数的输入参数
- 2 :启动这个thread。 T(dir, pattern)将被调用
- 3 :等待,直到这个thread结束。整个for循环表示主进程会等待所有子线程结束后再退出
程序的运行结果为:
searching pattern hello in dir a/b/csearching pattern hello in dir d/f
searching pattern hello in dir b/c
searching pattern hello in dir a/b/d Main thread end here
可以看出由于线程是并行运行的,部分输出会交叠。但主进程的打印总在最后。
以上例子中对于每个dir都需要创建一个thread。如果dir的数目较多,则会创建太多的thread,影响运行效率。 较好的方式是限制总线程的数目。
限制线程数目
可以使用信号量(semaphore)来限制同时运行的最大线程数目。如下所示:
from threading import Thread, BoundedSemaphore
from time import sleep def T(dir, pattern):
"This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern %s in dir %s' % (pattern, dir)) threads = []
dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello' maxjobs = BoundedSemaphore(2) 1
def wrapper(dir, pattern):
T(dir, pattern)
maxjobs.release() 2 for dir in dirs:
maxjobs.acquire() 3
thread = Thread(target=wrapper, args=(dir, pattern))
thread.start()
threads.append(thread) for thread in threads:
thread.join() print('Main thread end here')
- 1 :创建一个有2个资源的信号量。一个信号量代表总的可用的资源数目,这里表示同时运行的最大线程数目为2。
- 2 :在线程结束时释放资源。运行在子线程中。
- 3 :在启动一个线程前,先获取一个资源。如果当前已经有2个线程在运行,则会阻塞,直到其中一个线程结束。 运行在主线程中。
当限制了最大运行线程数为2后,由于只有2个线程同时运行,程序的输出更加有序,几乎总是为:
searching pattern hello in dir a/b/c
searching pattern hello in dir a/b/d
searching pattern hello in dir b/c
searching pattern hello in dir d/f
Main thread end here
以上实现中为每个子任务创建一个线程进行处理,然后通过信号量限制同时运行的线程的数目。如果子任务很多,这种方法会创建太多的线程。更好的方法 是使用线程池。
使用线程池(Thread Pool)
即预先创建一定数目的线程,形成一个线程池。每个线程持续处理多个子任务(而不是处理一个就退出)。这样做的好处是:创建的线程数目会比较固定。
那么,每个线程处理哪些子任务呢?一种方法为:预先将所有子任务均分给每个线程。如下所示:
from threading import Thread
from time import sleep def T(dir, pattern):
"This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern %s in dir %s' % (pattern, dir)) dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello' def wrapper(dirs, pattern): 1
for dir in dirs:
T(dir, pattern) threadsPool = [ 2
Thread(target=wrapper, args=(dirs[0:2], pattern)),
Thread(target=wrapper, args=(dirs[2:], pattern)),
] for thread in threadsPool: 3
thread.start() for thread in threadsPool:
thread.join() print('Main thread end here')
- 1 :这个函数能够处理多个dir,将作为线程的target函数
- 2 :创建一个有2个线程的线程池。并事先分配子任务给每个线程。线程1处理前两个dir,线程2处理后两个dir
- 3 :启动线程池中所有线程
程序的输出结果为:
searching pattern hello in dir a/b/csearching pattern hello in dir b/c searching pattern hello in dir d/f
searching pattern hello in dir a/b/d
Main thread end here
这种方法存在以下问题:
- 子任务分配可能不均。导致每个线程运行时间差别可能较大,则整体运行时长可能被拖长
- 只能处理所有子任务都预先知道的情况,无法处理子任务实时出现的情况
如果有一种方法,能够让线程知道当前所有的待处理子任务,线程一旦空闲,便可以从中获取一个任务进行处理,则以上问题都可以解决。任务队列便是解决方案。
使用消息队列
可以使用Queue实现一个任务队列,用于在线程间传递子任务。主线程将所有待处理子任务放置在队列中,子线程从队列中获取子任务去处理。 如下所有(注:以下代码只运行于Python 2,因为Queue只存在于Python 2) :
from threading import Thread
from time import sleep
import Queue def T(dir, pattern):
"This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern %s in dir %s' % (pattern, dir)) dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello' taskQueue = Queue.Queue() 1 def wrapper():
while True:
try:
dir = taskQueue.get(True, 0.1) 2
T(dir, pattern)
except Queue.Empty:
continue threadsPool = [Thread(target=wrapper) for i in range(2)] 3 for thread in threadsPool:
thread.start() 4 for dir in dirs:
taskQueue.put(dir) 5 for thread in threadsPool:
thread.join()
print('Main thread end here')
- 1 :创建一个任务队列
- 2 :子线程从任务队列中获取一个任务。第一个参数为True,表示如果没有任务,会等待。第二个参数表示最长等待0.1秒 如果在0.1秒后仍然没有任务,则会抛出一个Queue.Empty的异常
- 3 :创建有2个线程的线程池。注意target函数wrapper没有任何参数
- 4 :启动所有线程
- 5 :主线程将所有子任务放置在任务队列中,以供子线程获取处理。由于子线程已经被启动,则子线程会立即获取到任务并处理
程序的输出为:
searching pattern hello in dir a/b/c
searching pattern hello in dir a/b/d
searching pattern hello in dir b/c
searching pattern hello in dir d/f
从中可以看出主进程的打印结果并没有出来,程序会一直运行,而不退出。这个问题的原因是:目前的实现中,子线程为一个无限循环, 因此其永远不会终止。因此,必须有一种机制来结束子进程。
终止子进程
一种简单方法为,可以在任务队列中放置一个特殊元素,作为终止符。当子线程从任务队列中获取这个终止符后,便自行退出。如下所示,使用None作为终止符。
from threading import Thread
from time import sleep
import Queue def T(dir, pattern):
"This is just a stub that simulate a dir operation"
sleep(1)
print('searching pattern %s in dir %s' % (pattern, dir)) dirs = ['a/b/c', 'a/b/d', 'b/c', 'd/f']
pattern = 'hello' taskQueue = Queue.Queue() def wrapper():
while True:
try:
dir = taskQueue.get(True, 0.1)
if dir is None: 1
taskQueue.put(dir) 2
break T(dir, pattern)
except Queue.Empty:
continue threadsPool = [Thread(target=wrapper) for i in range(2)] for thread in threadsPool:
thread.start() for dir in dirs:
taskQueue.put(dir) taskQueue.put(None) 3 for thread in threadsPool:
thread.join()
print('Main thread end here')
- 1 :如果任务为终止符(此处为None),则退出
- 2 :将这个终止符重新放回任务队列。因为只有一个终止符,如果不放回,则其它子线程获取不到,也就无法终止
- 3 :将终止符放在任务队列。注意必须放置在末尾,否则终止符后的任务无法得到处理
修改过后,程序能够正常运行,主进程能够正常退出了。
searching pattern hello in dir a/b/csearching pattern hello in dir a/b/d searching pattern hello in dir b/c
searching pattern hello in dir d/f
Main thread end here
总结
要并行化处理子任务,最简单的方法是为每个子任务创建一个线程去处理。这种方法的缺点是:如果子任务非常多,则需要创建的线程数目会非常多。 并且同时运行的线程数目也会较多。通过使用信号量来限制同时运行的线程数目,通过线程池来避免创建过多的线程。
与每个线程处理一个任务不同,线程池中每个线程会处理多个子任务。这带来一个问题:每个子线程如何知道要处理哪些子任务。 一种方法是预先将所有子任务均分给每个线程,而更灵活的方法则是通过任务队列,由子线程自行决定要处理哪些任务。
使用线程池时,线程主函数通常实现为一个无限循环,因此需要考虑如何终止线程。可以在任务队列中放置一个终止符来告诉线程没有更多任务, 因此其可以终止。
备注: 我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻: https://cloud.tencent.com/developer/support-plan?invite_code=2qako5hpuv0g8
Python:怎样用线程将任务并行化?的更多相关文章
- Python进程、线程、协程
进程和线程的解释 进程(process)和线程(thread)是操作系统的基本概念,计算机的核心是CPU,它承担了所有的计算任务: 单个CPU一次只能运行一个任务,代表单个CPU总是运行一个进程,其他 ...
- python进程、线程、协程(转载)
python 线程与进程简介 进程与线程的历史 我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资 ...
- Python进程、线程、协程详解
进程与线程的历史 我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资源的管理和分配.任务的调度. ...
- 理解 Python 中的线程
原地址:http://blog.jobbole.com/52060/ 本文由 伯乐在线 - acmerfight 翻译自 Akshar Raaj.欢迎加入技术翻译小组.转载请参见文章末尾处的要求. 我 ...
- python进阶-------进程线程(二)
Python中的进程线程(二) 一.python中的"锁" 1.GIL锁(全局解释锁) 含义: Python中的线程是操作系统的原生线程,Python虚拟机使用一个全局解释器锁(G ...
- python中的线程技术
#!/user/bin/env python # @Time :2018/7/7 11:42 # @Author :PGIDYSQ #@File :DaemonTest.py import threa ...
- python并发_线程
关于进程的复习: # 管道 # 数据的共享 Manager dict list # 进程池 # cpu个数+1 # ret = map(func,iterable) # 异步 自带close和join ...
- Python并发编程-线程
Python作为一种解释型语言,由于使用了全局解释锁(GIL)的原因,其代码不能同时在多核CPU上并发的运行.这也导致在Python中使用多线程编程并不能实现并发,我们得使用其他的方法在Python中 ...
- python进阶之 线程编程
1.进程回顾 之前已经了解了操作系统中进程的概念,程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程.程序和进程的区别就在于:程序是指令的集合,它是进程 ...
随机推荐
- Microsoft Office Excel cannot access the file, There are several possible reasons
今天在做EXCEL打印读取模板时报错了,错误信息如下: Microsoft Excel cannot access the file 'D:\xx.xlsx'. There are several p ...
- Darwin Streaming Server 安装流程
Darwin StreamingServer 安装流程 Darwin StreamingServer 支持开放源代码和基于标准的实时传输协议/实时流协议(RTP/ RTSP).MPEG-4 和MP3 ...
- 【Python】Shell MD5使用的那些事
MD5 应该是用的非常多的算法,就自己使用经验说说吧. 场景 算法层面不多说了,维基百科,还有很多文章都有说明. 主要用过的场景 密码存储,现在基本没怎么有使用的了,毕竟破解容易了很多 API校验,现 ...
- 【65】Mybatis详解
Mybatis介绍 MyBatis是一款一流的支持自定义SQL.存储过程和高级映射的持久化框架.MyBatis几乎消除了所有的JDBC代码,也基本不需要手工去设置参数和获取检索结果.MyBatis能够 ...
- LeetCode之“链表”:Merge Two Sorted Lists && Merge k Sorted Lists
1. Merge Two Sorted Lists 题目链接 题目要求: Merge two sorted linked lists and return it as a new list. The ...
- Linux 套接字编程中的 5 个隐患(转)
本文转自IBM博文Linux 套接字编程中的 5 个隐患. “在异构环境中开发可靠的网络应用程序”. Socket API 是网络应用程序开发中实际应用的标准 API.尽管该 API 简单,但是开发新 ...
- 菜鸟玩云计算之十五:在Ubuntu上创建和管理Redhat虚拟机
菜鸟玩云计算之十五:在Ubuntu上创建和管理Redhat虚拟机 chedou@hgdb.net 虚拟机给工作带来巨大的便利,不仅仅体现在资源的按需使用,而且配置的迁移特别方便.本文将使用Ubuntu ...
- 【Linux 操作系统】vim编辑器配置及常用命令
最近工作不安分, 没有了刚入行时候的锐气, 不知道什么时候开始懈怠起来, 周末在电脑旁边看新闻, 搞笑图片, 追美剧, 一坐就是一天, 很是空虚. 我需要摆脱这种状态, 正好想学习一下安卓底层, An ...
- 如何修改SpriteBuilder中的按钮禁用启用状态
按钮的禁用状态和按钮的User Interaction Enabled属性并不相符. 后者设定的是按钮是否参与用户交互. 你不能直接在SpriteBuilder中编译按钮的禁用启用属性.除非你想给按钮 ...
- BCD码转十进制C语言实现
#include <stdio.h> #include <stdlib.h> #define uchar unsigned char uchar BCD_Decimal(uch ...