1.线程池

from concurrent.futures import ThreadPoolExecutor
import requests
from fake_useragent import UserAgent

def task(url):
    res = requests.get(url,
                       headers={"User-Agent": UserAgent().chrome})
    print(f"{url}--{res}")

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

executor = ThreadPoolExecutor(max_workers=3)

tasks = [executor.submit(task, url) for url in url_list]
executor.shutdown(wait=True)

  

2.asyncio+aiohttp

import asyncio
import aiohttp

async def task(url):
    async with aiohttp.request("GET", url) as response:
        res = await response.text()
        print(res)

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

tasks = [task(url) for url in url_list]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

  

3.gevent

from gevent import monkey
monkey.patch_all()
import gevent
from fake_useragent import UserAgent
import requests

def task(url):
    res = requests.get(url,
                       headers={"User-Agent": UserAgent().chrome})
    res.encoding = res.apparent_encoding
    print(f"{url}--{res.text}")

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

gevent.joinall([gevent.spawn(task, url) for url in url_list])

  

4.tornado

from tornado.httpclient import AsyncHTTPClient
from tornado.httpclient import HTTPRequest
from tornado import ioloop
from functools import partial
from fake_useragent import UserAgent

count = None
def handler_response(response):
    global count
    count -= 1
    if response.error:
        print("error")
    else:
        print(response.effective_url)
    if count == 0:
        ioloop.IOLoop.current().stop()

def func(url_list):
    global count
    count = len(url_list)
    for url in url_list:
        client = AsyncHTTPClient()
        client.fetch(HTTPRequest(url, headers={"User-Agent": UserAgent().chrome}), callback=handler_response)

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

ioloop.IOLoop.current().run_sync(partial(func, url_list))
ioloop.IOLoop.current().start()

  

5. twisted

from twisted.internet import reactor  # 事件循环(终止条件,所有的socket都已经移除)
from twisted.internet import defer  # defer.Deferred 特殊的socket对象(不发请求,手动移除)
from twisted.web.client import getPage  # 用于创建socket对象(下载完成,自动从事件循环中移除)
from fake_useragent import UserAgent

# 1. 利用getPage创建socket
# 2. 将socket添加到事件循环
# 3. 开始事件循环(内部发送请求,并接受相应。当所有的socket请求完成之后,终止事件循环)

@defer.inlineCallbacks  # 添加到事件循环
def task(url):
    # 创建socket,注意url要转换成字节。headers中的"User-Agent"也要是字节
    d = getPage(bytes(url, encoding="utf-8"), headers={b"User-Agent": UserAgent().chrome})
    # 获取到的html页面会自动传到response函数的第一个参数里面
    d.addCallback(response)
    yield d

def response(content):
    print(str(content, encoding="utf-8"))

def done(*args):
    reactor.stop()
url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]
defer_list = []
for url in url_list:
    t = task(url)
    defer_list.append(t)
# 监听defer_list里面的任务是否执行完毕
d = defer.DeferredList(defer_list)
#如果执行完毕,执行对应的回调函数
d.addBoth(done)
# 启动事件循环
reactor.run()

  

python实现并发获取html的几种方式的更多相关文章

  1. 获取Type的三种方式

    using System;using UnityEngine; public class Type_Test : MonoBehaviour{    private void Awake()    { ...

  2. java动态获取WebService的两种方式(复杂参数类型)

    java动态获取WebService的两种方式(复杂参数类型) 第一种: @Override public OrderSearchListRes searchOrderList(Order_Fligh ...

  3. AngularJS中获取数据源的几种方式

    在AngularJS中,可以从$rootScope中获取数据源,也可以把获取数据的逻辑封装在service中,然后注入到app.run函数中,或者注入到controller中.本篇就来整理获取数据的几 ...

  4. java 获取时间戳的三种方式

      java 获取时间戳的三种方式 CreationTime--2018年7月13日16点29分 Author:Marydon 1.实现方式 方式一:推荐使用 System.currentTimeMi ...

  5. 【Struts2】Struts2获取session的三种方式

    1.Map<String,Object> map =  ActionContext.getContext().getSession(); 2.HttpSession session = S ...

  6. js获取时间戳的三种方式

      js获取时间戳的三种方式 CreateTime--2018年5月23日08:44:10 Author:Marydon // 方式一:推荐使用 var timestamp=new Date().ge ...

  7. Struts2(四.注册时检查用户名是否存在及Action获取数据的三种方式)

    一.功能 1.用户注册页面 <%@ page language="java" contentType="text/html; charset=UTF-8" ...

  8. HTTP获取信息的四种方式

    HTTP 从网络获取信息的四种方式 GET GET指代你在浏览器中输入网址,浏览网站时做的事.例如,我们使用 http://www.baidu.com 的时候,可以将GET想象成他说:"hi ...

  9. SpringMVC获取参数的几种方式

    前言: 年末了,忙了一年了却发现系统的整理的东西很少,一些基础的东西都未做整理,这里就将它随便整理一下,增加一些印象,当然在网上看到一些好的资料也会整理下来以备后用.今天整理一下springMVC获取 ...

随机推荐

  1. laravel5.5用户认证源码分析

    目录 1. 生成相关文件和配置 2. 分析路由文件 3. 以登陆开始为例,分析auth到底是怎么工作的 3.1 分析登录文件 3.2 分析门面Auth. 1. 生成相关文件和配置 快速生成命令 php ...

  2. Java学习笔记23---内部类之局部内部类只能访问final的局部变量

    局部内部类是定义在方法体或代码块中的类,在笔记19中已有过简单介绍. 今天要讨论的是局部内部类为什么只能访问为常量的局部变量. 作者: 博客园--蝉蝉 请尊重作者劳动成果,转载请在标题注明“转载”字样 ...

  3. 剑指Offer - 九度1384 - 二维数组中的查找

    剑指Offer - 九度1384 - 二维数组中的查找2013-11-23 23:23 题目描述: 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个 ...

  4. 剑指Offer - 九度1362 - 左旋转字符串(Move!Move!!Move!!!)

    剑指Offer - 九度1362 - 左旋转字符串(Move!Move!!Move!!!)2013-11-23 03:05 题目描述: 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任 ...

  5. Windows Phone 图片扩展类

    using System.IO; using System.Text; using System.Net; using System.Threading.Tasks; using System.Win ...

  6. Java基础-4变量与数据类型

    变量:变量是Java程序中的一个基本存储单元.变量是一个标识符.类型及一个可选初始值的组合定义.所有的变量都有一个作用域,即变量在某一区域有效. 基本的变量声明方式如下: int a; float b ...

  7. python3知识点之---------列表的介绍

    1.列表是什么? 它是由一系列特定顺序排序的元素组成.元素可以表示一切任何的事物,元素之间可以没有任何关系.列表用方括号[ ] 表示,元素之间由逗号隔开.   例如表示一系列数字的列表:  numbe ...

  8. protobuf-net与FlatBuffers

    protobuf-net Protobuf是google开源的一个项目,用户数据序列化反序列化,google声称google的数据通信都是用该序列化方法.它比xml格式要少的多,甚至比二进制数据格式也 ...

  9. 1086 Tree Traversals Again (25 分)(二叉树的遍历)

    用栈来模拟一棵二叉树的先序遍历和中序遍历过程,求这棵二叉树的后序遍历 由题棵知道:push是先序遍历 pop是中序遍历 #include<bits/stdc++.h> using name ...

  10. python杂七杂八知识点

    1.中文编码问题解决办法:# _*_ coding:UTF8 _*_ 2.numpy.ndArray a = array([[1,2,3], [4, 5, 6]]) 3.numpy.argsort() ...