python多线程之Threading

什么是线程？

线程是操作系统内核调度的基本单位，一个进程中包含一个或多个线程，同一个进程内的多个线程资源共享，线程相比进程是“轻”量级的任务，内核进行调度时效率更高。

多线程有什么优势？

多线程可以实现多任务并发执行，简化代码的编写难度，每一个独立的模块都可以设计成一个独立的线程运行
线程间通信比进程间通信难度更小，效率更高，因为资源共享
线程的调度比进程的调度效率高
Python 语言内置了多线程功能支持，而不是单纯地作为底层操作系统的调度方式，从而简化了 Python 的多线程编程

Threading库

多线程的启动方式（函数式和类对象式）

import threading

import time

def runOne(info):

    while True:

        print(info)

        time.sleep(1)

    pass

def runTwo(info):

    while True:

        print(info)

        time.sleep(1)

    pass

if __name__ == '__main__':

    t1 = threading.Thread(target = runOne, args = ("task one run",))

    t2 = threading.Thread(target = runTwo, args = ("task two run",))

    t1.start() # 启动t1

    t2.start() # 启动t2

    t1.join()  # 主线程等待t1子线程结束(阻塞)

    t2.join()  # 主线程等待t2子线程结束(阻塞)

import threading

import time

class MyThread(threading.Thread):

    def __init__(self, info):

        super(MyThread, self).__init__()

        self.info = info

    def run(self):

        while True:

            print(self.info)

            time.sleep(1)

        pass

if __name__ == "__main__":

    t1 = MyThread("taskone")

    t2 = MyThread("tasktwo")

    t1.start()  # 启动t1

    t2.start()  # 启动t2

    t1.join()   # 主线程等待t1子线程结束(阻塞)

    t2.join()   # 主线程等待t2子线程结束(阻塞)

守护线程

如果将任务1设置为任务2的守护线程，当任务2结束时，任务1也自动结束。上述例子中如果将子线程设置主线程的守护线程，那么当主线程结束时，子线程也自动结束。

import threading

import time

class MyThread(threading.Thread):

    def __init__(self, info):

        super(MyThread, self).__init__()

        self.info = info

    def run(self):

        print(self.info)

        time.sleep(1)

        print(self.info)

        time.sleep(1)

        pass

if __name__ == "__main__":

    t1 = MyThread("taskone")

    t1.setDaemon(True)  # t1设置为主线程的守护线程

    t1.start()          # 启动t1

主线程等待子线程结束

为了实现子线程结束后，主线程再结束的目的，可以使用join方法，让主线程等待子线程执行。

import threading

import time

class MyThread(threading.Thread):

    def __init__(self, info):

        super(MyThread, self).__init__()

        self.info = info

    def run(self):

        print(self.info)

        time.sleep(1)

        print(self.info)

        time.sleep(1)

        print("Sub tash end")

        pass

if __name__ == "__main__":

    t1 = MyThread("taskone")

    t1.start()  # 启动t1

    t1.join()   # 主线程等待子线程结束

    print("main task end")

多线程之间的通信

互斥锁

由于同一个进程下多个任务可以共享数据，因此都可以访问同一个全局变量，速度很快，但是也有问题。因为线程的调度是内核实现，线程自己不知道自己什么时候被切换，有可能是访问全局变量操作了一半（访问全局变量，看着是一句话，实际上是多条操作）然后被切换了，当下次得到调度时，此时全局变量有可能已经被其他线程修改了，导致再次访问时获取的数据不对，从而引发异常。解决的办法是在访问全局变量的时候，将全局变量锁住，让其它线程访问不了。互斥锁就是用来实现这个功能，加了互斥锁的地方，同一时间永远只有一个线程可以访问这个全局变量，直到该线程访问完毕后，其他任务才能访问。

import threading

import time

num = 0

mutex = threading.Lock()

class MyThread(threading.Thread):

    def run(self):

        global num

        time.sleep(1)

        if mutex.acquire():

            num = num + 1

            msg = self.name + ' set num to ' + str(num)

            print(msg)

            mutex.release()

def test():

    for i in range(5):

        t = MyThread()

        t.start()

如果加了互斥锁，打印就是1 2 3 4 5；如果没加锁，打印就是乱序的。

消息队列

消息队列是一个线程将消息发送给另一个线程的方式，可以把消息列表理解成一个管道，一个线程在管道的一端放东西，一个线程在管道的另一端取东西，东西在管道内一个接一个的流动。通过发消息的方式就可以避免集中访问全局变量的问题，安全性更高。

import threading

import time

import queue

q = queue.Queue()

def runOne():

    while True:

        msg = q.get()

        print(msg)

    pass

def runTwo():

    while True:

        q.put("message")

        time.sleep(1)

    pass

if __name__ == '__main__':

    t1 = threading.Thread(target = runOne)

    t2 = threading.Thread(target = runTwo)

    t1.start() # 启动t1

    t2.start() # 启动t2

    t1.join()  # 主线程等待t1子线程结束(阻塞)

    t2.join()  # 主线程等待t2子线程结束(阻塞)

线程怎么结束？

由于threading模块没有提供停止线程的方法，也就是说线程start之后，就处于失控的状态，只能被动的等待它自己结束，这显然是问题。对于线程的结束，本文提供两种方法：第一种发下消息，让线程自己主动退出；第二种调动自定义接口直接结束线程。

import threading

import time

import queue

q = queue.Queue()

def runOne():

    while True:

        msg = q.get()

        if msg == 'exit':

            break

        print(">> %s" % msg)

    print("task one stop")

def runTwo():

    while True:

        info = input()

        q.put(info)

        if info == 'exit':

            break

    print("task two stop")

if __name__ == '__main__':

    t1 = threading.Thread(target = runOne)

    t2 = threading.Thread(target = runTwo)

    t1.start() # 启动t1

    t2.start() # 启动t2

    t1.join()  # 主线程等待t1子线程结束(阻塞)

    t2.join()  # 主线程等待t2子线程结束(阻塞)

import inspect

import ctypes

import threading

import time

def _async_raise(tid, exctype):

    tid = ctypes.c_long(tid)

    if not inspect.isclass(exctype):

        exctype = type(exctype)

    res = ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, ctypes.py_object(exctype))

    if res == 0:

        raise ValueError("invalid thread id")

    elif res != 1:

        ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, None)

        raise SystemError("PyThreadState_SetAsyncExc failed")

# 结束线程的函数

def stop_thread(thread):

    _async_raise(thread.ident, SystemExit)

def runOne(info):

    while True:

        print(info)

        time.sleep(1)

    pass

def runTwo(info):

    while True:

        print(info)

        time.sleep(1)

    pass

if __name__ == '__main__':

    t1 = threading.Thread(target = runOne, args = ("task one run",))

    t2 = threading.Thread(target = runTwo, args = ("task two run",))

    t1.start()

    t2.start()

    time.sleep(5)

    stop_thread(t1) # 停止t1任务

    print('------------------------')

    time.sleep(5)

    stop_thread(t2)  # 停止t1任务

    t1.join()

    t2.join()

GIL(Global Interpreter Lock)全局解释器锁

在非python环境中，单核情况下同时只能有一个任务执行；多核情况下可以支持多个线程同时执行。但是在python中，无论有多少核，同时只能执行一个线程。究其原因，是由于GIL的存在导致的。GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全而设计。某个线程想要执行，必须先拿到GIL，我们可以把GIL看作是“通行证”，并且在一个python进程中，GIL只有一个。拿不到通行证的线程，就不允许进入CPU执行。GIL只在cpython中才有，因为cpython调用的是c语言的原生线程，所以他不能直接操作cpu，只能利用GIL保证同一时间只能有一个线程拿到数据。使用建议：针对多核CPU场景，多进程的执行效率优于多线程，优先使用多进程。