多线程实践—Python多线程编程

多线程实践

前面的一些文章和脚本都是只能做学习多线程的原理使用，实际上什么有用的事情也没有做。接下来进行多线程的实践，看一看在实际项目中是怎么使用多线程的。

图书排名示例

Bookrank.py：

该脚本通过单线程进行下载图书排名信息的调用

 from atexit import register

 from re import compile

 from threading import Thread

 from time import sleep, ctime

 import requests

 

 REGEX = compile('#([\d,]+) in Books')

 AMZN = 'https://www.amazon.com/dp/'

 ISBNS = {

     '': 'Core Python Programming',

     '': 'Python Web Development with Django',

     '': 'Python Fundamentals',

 }

 

 def getRanking(isbn):

     url = '%s%s' % (AMZN, isbn)

     page = requests.get(url)

     data = page.text

     return REGEX.findall(data)[0]

 

 def _showRanking(isbn):

     print '- %r ranked %s' % (

         ISBNS[isbn], getRanking(isbn))

 

 def _main():

     print 'At', ctime(), 'on Amazon'

     for isbn in ISBNS:

         _showRanking(isbn)

 

 @register

 def _atexit():

     print 'all DONE at:', ctime()

 

 if __name__ == '__main__':

     _main()

输出结果为：

 /usr/bin/python ~/Test_Temporary/bookrank.py

 At Sat Jul 28 17:16:51 2018 on Amazon

 - 'Core Python Programming' ranked 322,656

 - 'Python Fundamentals' ranked 4,739,537

 - 'Python Web Development with Django' ranked 1,430,855

 all DONE at: Sat Jul 28 17:17:08 2018

引入线程

上面的例子只是一个单线程程序，下面引入线程，并使用多线程再执行程序对比各自所需的时间。

将上面脚本中 _main() 函数的 _showRanking(isbn) 修改以下代码：

Thread(target=_showRanking, args=(isbn,)).start()

再次执行查看返回结果：

 /usr/bin/python ~/Test_Temporary/bookrank.py

 At Sat Jul 28 17:39:16 2018 on Amazon

 - 'Python Fundamentals' ranked 4,739,537

 - 'Python Web Development with Django' ranked 1,430,855

 - 'Core Python Programming' ranked 322,656

 all DONE at: Sat Jul 28 17:39:19 2018

从两个的输出结果中可以看出，使用单线程时总体完成的时间为 7s ，而使用多线程时，总体完成时间为 3s 。另外一个需要注意的是，单线程版本是按照变量的顺序输出，而多线程版本按照完成的顺序输出。

同步原语

一般在多线程代码中，总会有一些特定的函数或代码块不希望（或不应该）被多个线程同时执行，通常包括修改数据库、更新文件或其它会产生竟态条件的类似情况。这就是需要使用同步的情况。

当任意数量的线程可以访问临界区的代码，但给定的时刻只有一个线程可以通过时，就是使用同步的时候了；
程序员选择适合的同步原语，或者线程控制机制来执行同步；
进程同步有不同的类型【参见：https://en.wikipedia.org/wiki/Synchronization_(computer_science) 】
同步原语有：锁/互斥、信号量。锁是最简单、最低级的机制，而信号量用于多线程竞争有限资源的情况。

锁示例

锁有两种状态：锁定和未锁定。而且它也只支持两个函数：获得锁和释放锁。

当多线程争夺锁时，允许第一个获得锁的线程进入临界区，并执行代码；
所有之后到达的线程将被阻塞，直到第一个线程结束退出临界区并释放锁；
锁被释放后，其它等待的线程可以继续争夺锁，并进入临界区；
被阻塞的线程没有顺序，不会先到先得，胜出的线程是不确定的。

代码示例（mtsleepF.py）：

*注：该脚本派生了随机数量的线程，每个线程执行结束时会进行输出

 # -*- coding=utf-8 -*-

 from atexit import register

 from random import randrange

 from threading import Thread, currentThread

 from time import sleep, ctime

 

 class CleanOutputSet(set):

     def __str__(self):

         return ', '.join(x for x in self)

 

 loops = (randrange(2, 5) for x in range(randrange(3, 7)))

 remaining = CleanOutputSet()

 

 def loop(nsec):

     myname = currentThread().name

     remaining.add(myname)

     print('这个是目前线程池中的线程：', remaining)

     print('[%s] Started %s' % (ctime(), myname))

     sleep(nsec)

     remaining.remove(myname)

     print('[%s] Completed %s (%d secs)' % (ctime(), myname, nsec))

     print(' (remaining: %s)' % (remaining or 'None'))

 

 def _main():

     for pause in loops:

         Thread(target=loop, args=(pause,)).start()

 

 @register

 def _atexit():

     print('all DONE at:%s' % ctime())

 

 if __name__ == '__main__':

     _main()

执行后的输出结果：

 /usr/local/bin/python3.6 /Users/zhenggougou/Project/Test_Temporary/mtsleepF.py

 这个是目前线程池中的线程： Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-1

 这个是目前线程池中的线程： Thread-2, Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-2

 这个是目前线程池中的线程： Thread-3, Thread-2, Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-3

 这个是目前线程池中的线程： Thread-3, Thread-2, Thread-4, Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-4

 这个是目前线程池中的线程： Thread-5, Thread-4, Thread-3, Thread-2, Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-5

 这个是目前线程池中的线程： Thread-5, Thread-6, Thread-4, Thread-3, Thread-2, Thread-1

 [Sat Jul 28 21:09:44 2018] Started Thread-6

 [Sat Jul 28 21:09:46 2018] Completed Thread-2 (2 secs)

 [Sat Jul 28 21:09:46 2018] Completed Thread-1 (2 secs)

 [Sat Jul 28 21:09:46 2018] Completed Thread-3 (2 secs)

  (remaining: Thread-5, Thread-6, Thread-4)

 [Sat Jul 28 21:09:46 2018] Completed Thread-6 (2 secs)

  (remaining: Thread-5, Thread-4)

 [Sat Jul 28 21:09:46 2018] Completed Thread-4 (2 secs)

  (remaining: Thread-5)

  (remaining: Thread-5)

 [Sat Jul 28 21:09:46 2018] Completed Thread-5 (2 secs)

  (remaining: None)

  (remaining: None)

 all DONE at:Sat Jul 28 21:09:46 2018

从执行结果中可以看出，有的时候可能会存在多个线程并行执行操作删除 remaining 集合中数据的情况。比如上面结果中，线程1、2、3 就是同时执行去删除集合中数据的。所以为了避免这种情况需要加锁，通过引入 Lock （或 RLock），然后创建一个锁对象来保证数据的修改每次只有一个线程能操作。

首先先导入锁类，然后创建锁对象

from threading import Thread, Lock, currentThread

lock = Lock()

然后使用创建的锁，将上面 mtsleepF.py 脚本中 loop() 函数做以下改变：

 def loop(nsec):

     myname = currentThread().name

     lock.acquire() # 获取锁

     remaining.add(myname)

     print('这个是目前线程池中的线程：', remaining)

     print('[%s] Started %s' % (ctime(), myname))

     lock.release() # 释放锁

     sleep(nsec)

     lock.acquire() # 获取锁

     remaining.remove(myname)

     print('[%s] Completed %s (%d secs)' % (ctime(), myname, nsec))

     print(' (remaining: %s)' % (remaining or 'None'))

     lock.release() # 释放锁

在操作变量的前后需要进行获取锁和释放锁的操作，以保证在修改变量时只有一个线程进行。上面的代码有两处修改变量，一是：remaining.add(myname) ，二是：remaining.remove(myname)。所以上面代码中有两次获取锁和释放锁的操作。其实还有一种方案可以不再调用锁的 acquire() 和 release() 方法，二是使用上下文管理，进一步简化代码。代码如下：

 def loop(nesc):

     myname = currentThread().name

     with lock:

         remaining.add(myname)

         print('[{0}] Started {1}'.format(ctime(), myname))

     sleep(nesc)

     with lock:

         remaining.remove(myname)

         print('[{0}] Completed {1} ({2} secs)'.format(ctime(), myname, nesc))

         print(' (remaining: {0})'.format(remaining or 'None'))

信号量示例

锁非常易于理解和实现，也很容易决定何时需要它们，然而，如果情况更加复杂，可能需要一个更强大的同步原语来代替锁。

信号量是最古老的同步原语之一。它是一个计数器，当资源消耗时递减，当资源释放时递增。可以认为信号量代表它们的资源可用或不可用。信号量比锁更加灵活，因为可以有多个线程，每个线程都拥有有限资源的一个实例。

消耗资源使计数器递减的操作习惯上称为 P() —— acquire ；
当一个线程对一个资源完成操作时，该资源需要返回资源池中，这个操作一般称为 V() —— release 。

示例，糖果机和信号量（candy.py）：

*注：该脚本使用了锁和信号量来模拟一个糖果机

 # -*- coding=utf-8 -*-

 from atexit import register

 from random import randrange

 from threading import BoundedSemaphore, Lock, Thread

 from time import sleep, ctime

 

 lock = Lock()

 MAX = 5

 candytray = BoundedSemaphore(MAX)

 

 def refill():

     lock.acquire()

     print('Refilling candy')

     try:

         candytray.release() # 释放资源

     except ValueError:

         print('full, skipping')

     else:

         print('OK')

     lock.release()

 

 def buy():

     lock.acquire()

     print('Buying candy...')

     if candytray.acquire(False): # 消耗资源

         print('OK')

     else:

         print('empty, skipping')

     lock.release()

 

 def producer(loops):

     for i in range(loops):

         refill()

         sleep(randrange(3))

 

 def consumer(loops):

     for i in range(loops):

         buy()

         sleep(randrange(3))

 

 def _main():

     print('starting at:{0}'.format(ctime()))

     nloops = randrange(2, 6)

     print('THE CANDY MACHINE (full with %d bars)!' % MAX)

     Thread(target=consumer, args=(randrange(nloops, nloops+MAX+2),)).start()

     Thread(target=producer, args=(nloops,)).start()

 

 @register

 def _atexit():

     print('all DONE at:{0}'.format(ctime()))

 

 if __name__ == '__main__':

     _main()

执行结果为：

 /usr/local/bin/python3.6 ~/Test_Temporary/candy.py

 starting at:Sun Jul 29 21:12:50 2018

 THE CANDY MACHINE (full with 5 bars)!

 Buying candy...

 OK

 Refilling candy

 OK

 Refilling candy

 full, skipping

 Buying candy...

 OK

 Buying candy...

 OK

 all DONE at:Sun Jul 29 21:12:52 2018