1 模块简介

multiprocessing模块在Python2.6中引入。最初的multiprocessing是由Jesse Noller和Richard Oudkerk在PEP 371中定义。就像你可以在threading模块中使用多个线程一样,multiprocessing模块允许你使用多个进程。当你使用多个进程时,你可以避免GIL锁,并充分利用机器的多处理器。

multiprocessing库包括一些没有在threading模块中出现的API。例如,你可以使用Pool类在多个输入上并行执行一个函数。我们将在后面的章节提到Pool。我们先从multiprocessing中的Process类开始。

2 模块使用

2.1 开始使用Multiprocessing

Process类与threading中的Thread类非常相似。让我们尝试着创建多个进程,这些进程都会调用同一个函数,让我们看看它们是如何工作的,

import os

from multiprocessing import Process

def doubler(number):
result = number * 2
proc = os.getpid()
print("{0} double to {1} by process id:{2}\n".format(number,result,proc)) if __name__ == "__main__":
numbers = [5,10,15,20,25]
procs = []
for index,number in enumerate(numbers):
proc = Process(target = doubler,args = (number,))
procs.append(proc)
proc.start()
for proc in procs:
proc.join()

这个例子中,我们引入Process,然后创建一个doubler函数。在doubler函数中,我们将传入的数乘以2。我们也使用Python的os模块用于获取当前进程的ID(或者为pid)。这将会告诉我们哪个进程正在调用函数。在代码的底部,我们创建了多个线程,并且启动它们。最后一个循环就是在每个进程上调用join()方法,这个将会告诉Python需要等待进程终止。如果你需要终止终止一个进程,你可以调用terminate()方法。

当你运行这段代码时,你将会看到与以下结果相似的信息,

5 double to 10 by process id:6725

10 double to 20 by process id:6726
20 double to 40 by process id:6728
15 double to 30 by process id:6727 25 double to 50 by process id:6729

有时候,拥有人类可读的名字的进程会更加方便。幸运的是,Process类允许你获取进程的名字,实例如下,

import os

from multiprocessing import Process,current_process

def doubler(number):
result = number * 2
proc_name = current_process().name
print("{0} double to {1} by process id:{2}\n".format(number,result,proc_name)) if __name__ == "__main__":
numbers = [5,10,15,20,25]
procs = []
proc = Process(target = doubler, args = (5,))
for index,number in enumerate(numbers):
proc = Process(target = doubler,args = (number,))
procs.append(proc)
proc.start()
proc = Process(target = doubler,name = "Test",args = (2,))
proc.start()
procs.append(proc) proc = Process(target = doubler,args = (3,))
proc.start()
procs.append(proc) for proc in procs:
proc.join()

在这个例子中,我们另外引入了current_process。current_process与threading模块中的current_thread很相似。我们用它获取当前正在调用函数的进程的名字。你将会注意到,前面5个进程,我们没有设置名字。对于第6个进程,我们设置该进程名字为"Test",让我们看一下输出,

5 double to 10 by process id:Process-2
10 double to 20 by process id:Process-3 15 double to 30 by process id:Process-4 25 double to 50 by process id:Process-6 2 double to 4 by process id:Test 20 double to 40 by process id:Process-5 3 double to 6 by process id:Process-8

输出显示了multiprocessing模块给每个进程赋予一个编号作为它的名字的一部分。当我们指定一个线程的名字时,数字就不会再加入到名字中。由于第6个进程本来的编号是7,但是由于它已经指定进程名字,因此对于最后一个线程,跳过数字7,编号就为8。

2.2 进程锁

multiprocessing模块支持进程锁的方式与threading模块支持线程锁的方式相同。你所需要做的就是引入Lock,获取它,处理任务,然后释放。实例如下,

from multiprocessing import Process,Lock

def printer(item,lock):
lock.acquire()
try:
print(item)
finally:
lock.release() if __name__ == "__main__":
lock = Lock()
items = ['tango','foxtrot',10]
for item in items:
p = Process(target = printer,args = (item,lock))
p.start()

在这里,我们首先创建一个简单的将输入打印出来的函数。为了阻止进程之间的互相干扰,我们使用了一个Lock对象。这段代码遍历列表中的三个元素,给每个元素都创建一个进程。每个进程在调用函数时,传入一个列表中的元素。由于我们使用了进程锁,下一个进程将会等待线程锁释放后才能执行。

2.3 日志

进程中输出日志与线程中输出日志有所不同。原因就是Python的logging库没有使用进程共享锁,所以你可能会得到多个进程混合的日志信息。让我们尝试在前面的例子中加入日志模块,如下所示,

import logging
import multiprocessing
from multiprocessing import Process,Lock def printer(item,lock):
lock.acquire()
try:
print(item)
finally:
lock.release() if __name__ == "__main__":
lock = Lock()
items = ['tango','foxtrot',10]
multiprocessing.log_to_stderr()
logger = multiprocessing.get_logger()
logger.setLevel(logging.INFO)
for item in items:
p = Process(target = printer,args = (item,lock))
p.start()

最简单的方式就是将日志输出到标准错误流上。我们调用log_to_stderr()函数来完成。然后我们调用get_logger方法获取一个logger对象,并且设置日志等级为INFO。剩余的代码和上面的例子是一样的。这里,我并没有调用join()方法。父线程会默认调用join()方法。

当你运行这段代码时,你将会看到与以下结果相似的信息,

tango
[INFO/Process-1] child process calling self.run()
foxtrot
[INFO/Process-1] process shutting down
[INFO/Process-1] process exiting with exitcode 0
[INFO/Process-2] child process calling self.run()
[INFO/Process-2] process shutting down
[INFO/MainProcess] process shutting down
[INFO/Process-2] process exiting with exitcode 0
[INFO/MainProcess] calling join() for process Process-2
[INFO/MainProcess] calling join() for process Process-1
[INFO/MainProcess] calling join() for process Process-3
[INFO/Process-3] child process calling self.run()
10
[INFO/Process-3] process shutting down
[INFO/Process-3] process exiting with exitcode 0

2.4 Pool

Pool类用于表示一个工作进程池。它允许你卸载工作进程中的任务。让我们看一个简单的实例,

from multiprocessing import Pool

def doubler(number):
return number * 2 if __name__ == "__main__":
numbers = [5,10,20]
pool = Pool(processes = 3)
print(pool.map(doubler,numbers))

这里,我们首先创建一个Pool实例,并且告诉它创建三个工作进程。然后我们使用map方法,将函数和可迭代对象与每个进程一一建立对映。最后,我们将结果打印出来,也就是 [10,20,40]

你也可以通过使用apply_async方法来获取进程池中进程的结果。

from multiprocessing import Pool

def doubler(number):
return number * 2 if __name__ == "__main__":
numbers = [5,10,20]
pool = Pool(processes = 3)
result = pool.apply_async(doubler,(25,))
print(result.get(timeout = 1))

get函数允许我们直接访问进程的结果。你将会注意到我们设置了超时,以防当我们在调用函数时出现意外。我们并不希望程序莫名奇妙地被阻塞了。

2.5 进程通信

multiprocessing模块主要有两种方法来实现进程间通信,分别是队列和管道。队列实现方式是线程和进程安全。让我们看一看基于队列实现的进程间通信的实例,

from multiprocessing import Process,Queue

sentine1 = -1

def creator(data,q):
print("Creating data putting it on the queue")
for item in data:
q.put(item) def my_consumer(q):
while True:
data = q.get()
print("data found to be processed:{}".format(data))
processed = data * 2
print(processed)
if data is sentine1:
break if __name__ == "__main__":
q = Queue()
data = [5,10,13,-1]
process_one = Process(target = creator,args = (data,q))
process_two = Process(target = my_consumer, args = (q,))
process_one.start()
process_two.start() q.close()
q.join_thread() process_one.join()
process_two.join()

这里,我们首先引入Queue和Process。然后我们创建两个函数,第一个函数生产数据,并将数据添加到队列;第二个函数消费数据并处理它。添加数据到队列通过队列的put()方法实现,从队列中获取数据是通过队列的get()方法实现。代码块中的最后一部分是创建队列对象,两个进程并且启动进程。你将会注意到我们实在进程上调用join()方法,而不是在队列上。

2.6 总结

我们在本文中讲解了很多技术点。你已经学习了如何在常规函数上使用multiprocessing模块,使用队列进行进程间通信,对进程命名等等。在本文中,Python文档中仍然还有很多知识没有涉及到,一定要继续钻研。在此期间,你已经了解到如何通过Python利用你手中计算机的处理能力。

3 Reference

Python 201

Python标准模块--multiprocessing的更多相关文章

  1. Python标准模块--threading

    1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...

  2. Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures

    参考博客: https://www.cnblogs.com/xiao987334176/p/9046028.html 线程简述 什么是线程?线程是cpu调度的最小单位进程是资源分配的最小单位 进程和线 ...

  3. python 全栈开发,Day42(Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures)

    昨日内容回顾 线程什么是线程?线程是cpu调度的最小单位进程是资源分配的最小单位 进程和线程是什么关系? 线程是在进程中的 一个执行单位 多进程 本质上开启的这个进程里就有一个线程 多线程 单纯的在当 ...

  4. python全栈开发,Day42(Thread类的其他方法,同步锁,死锁与递归锁,信号量,事件,条件,定时器,队列,Python标准模块--concurrent.futures)

    昨日内容回顾 线程 什么是线程? 线程是cpu调度的最小单位 进程是资源分配的最小单位 进程和线程是什么关系? 线程是在进程中的一个执行单位 多进程 本质上开启的这个进程里就有一个线程 多线程 单纯的 ...

  5. Python标准模块--logging

    1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...

  6. Python标准模块--importlib

    作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介 Python提供了importlib包作为标准库的一 ...

  7. 【转】Python标准模块--importlib

    [转]Python标准模块--importlib 作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 模块简介 P ...

  8. Python标准模块--logging(转载)

    转载地址:http://www.cnblogs.com/zhbzz2007/p/5943685.html#undefined Python标准模块--logging 1 logging模块简介 log ...

  9. Python标准模块--concurrent.futures(进程池,线程池)

    python为我们提供的标准模块concurrent.futures里面有ThreadPoolExecutor(线程池)和ProcessPoolExecutor(进程池)两个模块. 在这个模块里他们俩 ...

随机推荐

  1. C#给PDF文档添加文本和图片页眉

    页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...

  2. 一个粗心的Bug,JSON格式不规范导致AJAX错误

    一.事件回放  今天工作时碰到了一个奇怪的问题,这个问题很早很早以前也碰到过,不过没想到过这么久了竟然又栽在这里. 当时正在联调一个项目,由于后端没有提供数据接口,于是我直接本地建立了一个 json ...

  3. LeetCode: 3Sum

    Given an array S of n integers, are there elements a, b, c in S such that a + b + c = 0? Find all un ...

  4. mysql 学习总结

    MYSQL的增.删.查.改   注册.授权 #创建一个对数据库中的表有一些操作权限的用户,其中OPERATION可以用all privileges替换,DBNAME.TABLENAME可以用*替换,表 ...

  5. 在centos7上安装ClamAV杀毒,并杀毒(centos随机英文10字母)成功

    前言 上传文件的时候发现总是失败,查看top发现有个进程一直cpu占用80%以上,而且名称还是随机数.kill之后,一会儿又重新生成了.突然发现居然没有在服务端杀毒的经历.在此处补齐. 安装clama ...

  6. RabbitMQ + PHP (三)案例演示

    今天用一个简单的案例来实现 RabbitMQ + PHP 这个消息队列的运行机制. 主要分为两个部分: 第一:发送者(publisher) 第二:消费者(consumer) (一)生产者 (创建一个r ...

  7. 微信小程序教程汇总

    目前市面上在内测期间出来的一些实战类教程还是很不错的,主要还是去快速学习小程序开发的整体流程,一个组件一个组件的讲的很可能微信小程序一升级,这个组件就变了,事实本就如此,谁让现在是内测呢.我们不怕,下 ...

  8. javascript排序

    利用array中的sort()排序 w3cfunction sortNumber(a,b) { return a - b } var arr = new Array(6) arr[0] = " ...

  9. Eclipse出现"Running Android Lint has encountered a problem"解决方案

    安装eclipse for android 时候的错误记录,转载自:http://blog.csdn.net/chenyufeng1991/article/details/47442555 (1)打开 ...

  10. 如何获取url中的参数并传递给iframe中的报表

    在使用报表软件时,用户系统左边一般有目录树,点击报表节点就会在右侧网页的iframe中显示出报表,同时点击的时候也会传递一些参数给网页,比如时间和用户信息等.如何使网页中的报表能够获取到传递过来的参数 ...