python — 池

1. 池

池分为：进程池、线程池

池：预先的开启固定个数的进程数/线程数，当任务来临的时候，直接提交给已经开好的进程 / 线程，让这个进程 / 线程去执行就可以了。

池节省了进程、线程的开启、关闭、切换需要的时间，并且减轻了操作系统调度的负担。

concurrent.futures模块中：ProcessPoolExcutor类（进程池）、ThreadPoolExcutor类（线程池）

1.1 进程池

进程池缺点：

开销大
一个池中的任务个数限制了我们程序的并发个数

# 没有参数和返回值

import os

import time

import random

from concurrent.futures import ProcessPoolExecutor

# submit + shutdown

def func():

    print('start',os.getpid())

    time.sleep(random.randint(1,3))

    print('end', os.getpid())

if __name__ == '__main__':

    p = ProcessPoolExecutor(5)

    for i in range(10):

        p.submit(func)

    p.shutdown()   # 关闭池之后就不能继续提交任务，并且会阻塞，直到已经提交的任务完成

    print('main',os.getpid())

# 任务的参数 + 返回值

def func(i,name):

    print('start',os.getpid())

    time.sleep(random.randint(1,3))

    print('end', os.getpid())

    return '%s * %s'%(i,os.getpid())

if __name__ == '__main__':

    p = ProcessPoolExecutor(5)

    ret_l = []

    for i in range(10):

        ret = p.submit(func,i,'alex')

        ret_l.append(ret)

    for ret in ret_l:

        print('ret-->',ret.result())  # ret.result() 同步阻塞

    print('main',os.getpid())

1.2 线程池

# 示例

from concurrent.futures import ThreadPoolExecutor

def func(i):

    print('start', os.getpid())

    time.sleep(random.randint(1,3))

    print('end', os.getpid())

    return '%s * %s'%(i,os.getpid())

tp = ThreadPoolExecutor(20)

# 方法一：

ret = tp.map(func,range(20))  # a

for i in ret:  # b

    print(i)  # c

# a,b,c三行 相当于 下面1，2，3，4，5，6六行

# 方法二：

# ret_l = []  # 1

# for i in range(20):  # 2

#     ret = tp.submit(func,i)  # 3

#     ret_l.append(ret)  # 4

tp.shutdown()

print('main')

# for ret in ret_l:  # 5

#     print(ret.result())  # 6

1..3 回调函数

对象.add_done_callback（子线程执行完毕之后要执行的代码对应的函数名）

效率高

执行完子线程任务之后直接调用对应的回调函数

爬取网页：需要等待数据传输和网络上的响应高IO操作的 — 交子线程完成

分析网页：没有什么IO操作 — 这个操作没必要在子线程完成，交给回调函数完成

add_done_callback

# 示例：爬虫

import requests

from concurrent.futures import ThreadPoolExecutor

def get_page(url):

    res = requests.get(url)

    return {'url':url,'content':res.text}

def parserpage(ret):

    dic = ret.result()

    print(dic['url'])

tp = ThreadPoolExecutor(5)

url_lst = [

    'http://www.baidu.com',

    'http://www.cnblogs.com',

    'http://www.douban.com',

    'http://www.tencent.com',

    'http://www.xinhuanet.com/',

    'https://www.toutiao.com/',

]

ret_l = []

for url in url_lst:

    ret = tp.submit(get_page,url)

    ret_l.append(ret)

    ret.add_done_callback(parserpage)

1.4 总结

ThreadPoolExcutor类

ProcessPoolExcutor类

创建一个池子

tp = ThreadPoolExcutor(池中线程（CPU个数*5）/进程（CPU个数）的个数)

异步提交任务

ret = tp.submit(需要在子线程执行的函数名,参数1，参数2....)

获取返回值

ret.result() 是一个阻塞方法

在异步的执行完所有任务之后，主线程/主进程才开始执行的代码

tp.shutdown() 阻塞 直到所有的任务都执行完毕

map方法

ret = tp.map(需要在子线程执行的函数名（如：func）,iterable) 迭代获取iterable中的内容，作为func的参数，让子线程来执行对应的任务

for i in ret: 每一个都是任务的返回值

绑定回调函数

ret.add_done_callback(子线程执行完毕之后要执行的代码对应的函数名)

要在ret对应的任务执行完毕之后，直接继续执行add_done_callback绑定的函数中的内容，并且ret的结果会作为参数返回给绑定的函数

1.做一些操作时是单独开启线程、进程还是池？

1.如果只是开启一个子线程做一件事情，就可以单独开线程
2.有大量的任务等待程序去做，要达到一定的并发数，就开启线程池
3.根据你程序的io操作也可以判定是用池还是不用池？
- socket的server端：大量的阻塞io —recv、recvfrom、socketserver —— 不用池。
- 爬虫的时候 —— 用池

2.进程和线程都有锁：

所有在线程中能工作的基本都不能在进程中工作
在进程中能够使用的基本在线程中也可以使用

python — 池的更多相关文章

python进程池与线程池
为什么会进行池化? 一切都是为了效率,每次开启进程都会分配一个属于这个进程独立的内存空间,开启进程过多会占用大量内存,系统调度也会很慢,我们不能无限的开启进程. 进程池原来大概如下图假设有100个任 ...
python进程池：multiprocessing.pool
本文转至http://www.cnblogs.com/kaituorensheng/p/4465768.html,在其基础上进行了一些小小改动. 在利用Python进行系统管理的时候,特别是同时操作多 ...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来 ...
python线程池实现
python 的线程池主要有threadpool,不过它并不是内置的库,每次使用都需要安装,而且使用起来也不是那么好用,所以自己写了一个线程池实现,每次需要使用直接import即可.其中还可以根据传入 ...
python——有一种线程池叫做自己写的线程池
这周的作业是写一个线程池,python的线程一直被称为鸡肋,所以它也没有亲生的线程池,但是竟然被我发现了野生的线程池,简直不能更幸运~~~于是,我开始啃源码,实在是虐心,在啃源码的过程中,我简略的了解 ...
《转》python线程池
线程池的概念是什么? 在IBM文档库中这样的一段描写:“在面向对象编程中,创建和销毁对象是很费时间的,因为创建一个对象要获取内存资源或者其它更多资源.在Java中更是如此,虚拟机将试图跟踪每一个对象 ...
一个简单的python线程池框架
初学python,实现了一个简单的线程池框架,线程池中除Wokers(工作线程)外,还单独创建了一个日志线程,用于日志的输出.线程间采用Queue方式进行通信. 代码如下:(不足之处,还请高手指正) ...
一个python线程池的源码解析
python为了方便人们编程高度封装了很多东西,比如进程里的进程池,大大方便了人们编程的效率,但是默认却没有线程池,本人前段时间整理出一个线程池,并进行了简单的解析和注释,本人水平有限,如有错误希望高 ...
Python之路【第八篇】python实现线程池
线程池概念什么是线程池?诸如web服务器.数据库服务器.文件服务器和邮件服务器等许多服务器应用都面向处理来自某些远程来源的大量短小的任务.构建服务器应用程序的一个过于简单的模型是:每当一个请求到达就 ...

随机推荐

验证码的实现类ValidateCode
package com.yujie.util; import javax.imageio.ImageIO;import java.awt.*;import java.awt.image.Buffere ...
MySQL二进制包安装
mysql的安装有多种方法,这里就介绍一下二进制包安装. [root@node1 ~]# tar xvf mysql-5.7.27-linux-glibc2.12-x86_64.tar [root@n ...
hive 常用参数
hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partit ...
第11组 Alpha冲刺（6/6）
第11组 Alpha冲刺(6/6) 队名不知道叫什么团队组长博客 https://www.cnblogs.com/xxylac/p/11913626.html 作业博客 https://edu ...
Linux 操作memcache命令行
telnet 127.0.0.1 11211 连接 memcache stats 查看 memcache 状态状态说明: pid memcache服务器的进程ID uptime 服务器已经运行的秒数 ...
Node.js与VUE安装及环境配置之Windows篇
Node.js安装及环境配置之Windows篇 https://www.cnblogs.com/zhouyu2017/p/6485265.html Node.js安装及环境配置之Windows篇htt ...
SQL-W3School-高级：SQL BETWEEN 操作符
ylbtech-SQL-W3School-高级:SQL BETWEEN 操作符 1.返回顶部 1. BETWEEN 操作符在 WHERE 子句中使用,作用是选取介于两个值之间的数据范围. BETWEE ...
MySQL 临时表和复制表
MySQL 临时表在我们需要保存一些临时数据时是非常有用的.临时表只在当前连接可见,当关闭连接时,Mysql会自动删除表并释放所有空间. 临时表在MySQL 3.23版本中添加,如果你的MySQL版本 ...
Mask_RCNN
python 内置数据结构切片
切片通过索引区间访问线性结构的一段数据 sequence[start:stop] 表示返回[start,stop]区间的子序列支持负索引 start为0,可以省略 stop为末尾,可以省略超过上 ...