python爬虫如何提高效率

开启线程池:

线程池
- asyncio
  - 特殊的函数
  - 协程
  - 任务对象
    - 任务对象绑定
  - 事件循环
from multiprocessing.dummy import Pool
map(func,alist):
- 可以让func回调函数处理alist中的每一个列表元素，这个处理的过程是基于异步。

In [7]:

import requests

import time

from multiprocessing.dummy import Pool

start = time.time()

pool = Pool(3)

urls = [

    'http://127.0.0.1:5000/index',

    'http://127.0.0.1:5000/index',

    'http://127.0.0.1:5000/index'

]

#用作与网络请求（耗时）

def req(url):

    return requests.get(url).text

page_text_list = pool.map(req,urls)

print(page_text_list)

print('总耗时：',time.time()-start)

['hello bobo!!!', 'hello bobo!!!', 'hello bobo!!!']

总耗时： 2.1126856803894043

单线程+多任务异步协程asyncio

1.asyncio初始

import asyncio

from time import sleep

#特殊的函数

async def get_request(url):

    print('正在下载:',url)

    sleep(2)

    print('下载完毕：',url)

    return 'page_text'

#回调函数的定义（普通的函数）

def parse(task):

    #参数表示的就是任务对象

    print('i am callback!!!',task.result())

#特殊函数的调用

c = get_request('www.1.com')

#创建一个任务对象

task = asyncio.ensure_future(c)

#给任务对象绑定一个回调函数

task.add_done_callback(parse)

#创建一个事件循环对象

loop = asyncio.get_event_loop()

#将任务对象注册到该对象中并且开启该对象

loop.run_until_complete(task)#让loop执行了一个任务

解释：

- ##### 特殊函数：

  - 就是async关键字修饰的一个函数的定义

  - 特殊之处：

    - 特殊函数被调用后会返回一个协程对象

    - 特殊函数调用后内部的程序语句没有被立即执行

- ##### 协程

  - 对象，协程==特殊的函数。协程表示的就是一组特定的操作。

- ##### 任务对象

  - 高级的协程（对协程的进一步的封装）

    - 任务对象==协程==特殊的函数

      - 任务对象==特殊的函数

  - 绑定回调：

    - task.add_done_callback(task)

      - 参数task：当前回调函数对应的任务对象

      - task.result():返回的就是任务对象对应的特殊函数的返回值

- ##### 事件循环对象

  - 创建事件循环对象

  - 将任务对象注册到该对象中并且开启该对象

  - 作用：loop可以将其内部注册的所有的任务对象进行异步执行

- ##### 挂起：

  就是交出cpu的使用权。

多任务异步爬虫：

import asyncio

import requests

import time

from bs4 import BeautifulSoup

#将被请求的url全部整合到一个列表中

urls = ['http://127.0.0.1:5000/bobo','http://127.0.0.1:5000/jay','http://127.0.0.1:5000/tom']

start = time.time()

async def get_request(url):

    #requests模块不支持异步，中断了整个的异步效果

    page_text = requests.get(url).text

    return page_text

def parse(task):

    page_text = task.result()

    soup = BeautifulSoup(page_text,'lxml')

    data = soup.find('div',class_="tang").text

    print(data)

tasks = []

for url in urls:

    c = get_request(url)

    task = asyncio.ensure_future(c)

    task.add_done_callback(parse)

    tasks.append(task)

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时：',time.time()-start)

【重点】在特殊函数内部的实现中，不可以出现不支持异步的模块代码，如果出现了，

则会中断整个的异步效果！！！
requests一定是不支持异步

aiohttp是一个支持异步的网络请求模块

环境安装

编码流程：

大致的架构:

with aiohttp.ClientSession() as s:

   #s.get(url,headers,params,proxy="http://ip:port")

   with s.get(url) as response:

       #response.read()二进制（.content）

       page_text = response.text()

       return page_text

    - 补充细节

        - 在每一个with前加上async

        - 需要在每一个阻塞操作前加上await

        ```python

        async with aiohttp.ClientSession() as s:

            #s.get(url,headers,params,proxy="http://ip:port")

            async with await s.get(url) as response:

                #response.read()二进制（.content）

                page_text = await response.text()

                return page_text

代码的实现：

import asyncio

import aiohttp

import time

from bs4 import BeautifulSoup

#将被请求的url全部整合到一个列表中

urls = ['http://127.0.0.1:5000/bobo','http://127.0.0.1:5000/jay','http://127.0.0.1:5000/tom']

start = time.time()

async def get_request(url):

    async with aiohttp.ClientSession() as s:

        #s.get(url,headers,params,proxy="http://ip:port")

        async with await s.get(url) as response:

            #response.read()二进制（.content）

            page_text = await response.text()

            return page_text

def parse(task):

    page_text = task.result()

    soup = BeautifulSoup(page_text,'lxml')

    data = soup.find('div',class_="tang").text

    print(data)

tasks = []

for url in urls:

    c = get_request(url)

    task = asyncio.ensure_future(c)

    task.add_done_callback(parse)

    tasks.append(task)

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时：',time.time()-start)

python爬虫如何提高效率的更多相关文章

paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较
paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较 ##java ----------- 在JDK1.7中,摒弃了Java集合接口的实现类,如:Ar ...
(转)python爬虫----（scrapy框架提高（1），自定义Request爬取）
摘要之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url.但是一般使用的时候都是需要自己写具体的url抓取函数的. python 爬虫 scrapy scrapy提 ...
python爬虫13 | 秒爬，这多线程爬取速度也太猛了，这次就是要让你的爬虫效率杠杠的
快快了啊嘿小老弟想啥呢今天这篇爬虫教程的主题就是一个字快想要做到秒爬就需要知道什么是多进程什么是多线程什么是协程(微线程) 你先去沏杯茶坐下来小帅b这就好好给你说道说道关 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫：一些常用的爬虫技巧
python爬虫:一些常用的爬虫技巧 1.基本抓取网页 get方法: post方法: 2.使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有Pr ...
Python爬虫：一些常用的爬虫技巧总结
爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情. 1.基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com&qu ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
常用的 Python 爬虫技巧总结
用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本.写过收发邮件脚本.写过简单验证码识别脚本. 爬虫在开发过程中也有很多复用 ...
[转载]python 爬虫总结
1.基本抓取网页 get方法 import urllib2 url = "http://www.baidu.com" response = urllib2.urlopen(url) ...

随机推荐

记MSSQL和MYSQL
简单的说就是mssql是asp和asp.net是黄金搭档mysql是PHP是黄金搭档他们相互结合比较好用,速度也比较快!!!MSSQL就是SQLSERVER,MS是微软的缩写MYSQL是一套免费的数据 ...
CTF练习 ①
最近学校要打比赛,,,把我这个混子也给算上了,,不得不赶紧学习学习. 今天学习的是SQL注入的一道题,参考的文章是 https://blog.csdn.net/qq_42939527/article ...
VSCode---REST Client接口测试辅助工具
我们一般都会用 PostMan 来完成接口测试的工作,因为用起来十分简单快捷,但是一直以来我也在寻找更好的方案,一个不用切换窗口多开一个 app 的方案 -- 终于在使用 VSCode 一段时版本间, ...
Python 函数对象的本质
Python 函数对象本质上是 function 类的实例. 1 从示例说起 def factorial(n): '''return n!''' return 1 if n < 2 else n ...
python之列表操作的几个函数
Python中的列表是可变的,这是它却别于元组和字符串最重要的特点,元组和字符串的元素不可修改.列举一些常用的列表操作的函数和方法. 1,list.append(x),将x追加到列表list末尾: 1 ...
A child container failed during start
先贴一下bug详情严重: A child container failed during start java.util.concurrent.ExecutionException: org.apa ...
Windows权限维持
前言最近终于不是那么忙了,有时间静下心来学点知识,这篇文章自起稿到发布,用时近三周,其中有近一周的时间在迷茫在焦躁,甚至怀疑.否定自己.网上的表哥们个顶个儿的优秀,于是就给自己很大的压力,所以那一个 ...
采购订单写入sap失败后，抛出自定义异常，回滚数据库
@Transactional(rollbackFor = Exception.class) @Override public Map<String,Object> getOderInfo( ...
list转long[]数组
//list转long数组List<Long> list = new ArrayList<>(); Long[] skuIds = list.toArray(new Long[ ...
salesforce零基础学习（九十九）Salesforce Data Skew(数据倾斜)
本篇参考: https://developer.salesforce.com/blogs/engineering/2013/04/managing-lookup-skew-to-avoid-recor ...

python爬虫如何提高效率

开启线程池:

单线程+多任务异步协程asyncio

1.asyncio初始

解释：

多任务异步爬虫：

python爬虫如何提高效率的更多相关文章

随机推荐

热门专题