并发 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢 import requests def fetch_async(url): response = requests.get(url) return response url_list = ['http://www.github.com', 'http://www.bing.com'] for url in url_list: fetch_async(url) 1.同步执行(串行)…
实现功能:代理.限速.深度.反爬 import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import datetime   def download(url, user_agent="wsap", num=2):     print("Downloading:"+url)    …
SOCK_STREAM :TCPSOCK_Dgram :UDP family=AF_INET: 服务器之间的通信AF_INET6: 服务器之间的通信AF_UNIX: Unix不同进程间的通信 永远遵循一发一收的原则Day6server 下的方法 bind() 连结IP地址和端口listen() 每次最多几个等候accept() 接受client里面的数据 client 下的方法 connect() 共同的方法 recv(1024)send(string) 发送数据sendall() ------…
队列  第一个参数:C语言字符串,标签 第二个参数: DISPATCH_QUEUE_CONCURRENT:并发队列 DISPATCH_QUEUE_SERIAL:串行队列 dispatch_queue_t queue =  dispatch_queue_create("com.520it.download", DISPATCH_QUEUE_CONCURRENT);//并发队列 dispatch_queue_t queue =  dispatch_queue_create("co…
一 threading模块介绍 multiprocess模块的完全模仿了threading模块的接口,二者在使用层面,有很大的相似性,因而不再详细介绍 官网链接:https://docs.python.org/3/library/threading.html?highlight=threading# 二 开启线程的两种方式 #方式一 from threading import Thread import time def sayhi(name): time.sleep(2) print('%s…
进程:正在进行中的程序被称为进程,负责程序运行的内存分配;每一个进程都有自己独立的虚拟内存空间: 线程:线程是进程中一个独立的执行路径(控制单元);一个进程中至少包含一条线程,即主线程. 队列:dispatch_queue_t,一种先进先出的数据结构,线程的创建和回收不需要程序员操作,由队列负责. 串行队列:队列中的任务只会顺序执行(类似跑步) dispatch_queue_t q = dispatch_queue_create(“....”, dispatch_queue_serial); 并…
进程是正在运行的程序,程序是程序员编写的一对代码,也就是一堆字符,当这堆代码被系统加载到内存并执行,就有了进程. (需要注意的是:一个程序是可以产生多个程序,就像我们可以同时运行多个QQ程序一样,会形成多个进程) 并发指的是,多个事件同时发生了(单核状态下就是通过切换+保存状态 就是多道技术)                                                                                           并行:真正意义上的同时执…
目录 1.常见并发类型 2.同步版本 3.多线程 4.异步IO 5.多进程 6.总结 1.常见并发类型 I/ O密集型: 蓝色框表示程序执行工作的时间,红色框表示等待I/O操作完成的时间.此图没有按比例显示,因为internet上的请求可能比CPU指令要多花费几个数量级的时间,所以你的程序可能会花费大部分时间进行等待.  CPU密集型: IO密集型程序将时间花在cpu计算上. 常见并发类型以及区别: 2.同步版本 我们将使用requests访问100个网页,使用同步的方式,requests的请求…
Python的语法是简洁的,也是难理解的. 比如yield关键字: def fun(): for i in range(5): print('test') x = yield i print('good', x) if __name__ == '__main__': a = fun() # print(a.__next__()) # print(a.__next__()) # print(a.__next__()) y = a.send(None) y = a.send(-1) y = a.se…
本节内容 Gevent协程 Select\Poll\Epoll异步IO与事件驱动 RabbitMQ队列 Redis\Memcached缓存 Paramiko SSH Twsited网络框架 引子 到目前为止,我们已经学了网络并发编程的2个套路, 多进程,多线程,这哥俩的优势和劣势都非常的明显. 进程: 一个程序要运行时所需要资源的集合. 进程是资源的集合,相当于一个车间. 一个进程至少需要一个线程,这个线程称为主线程. 一个进程里可以有多个线程 cpu核数越多,代表着你可以真正并发的线程越多(这…