Python爬虫之使用celery加速爬虫

celery是一个基于分布式消息传输的异步任务队列，它专注于实时处理，同时也支持任务调度。关于celery的更多介绍及例子，笔者可以参考文章Python之celery的简介与使用。

本文将介绍如何使用celery来加速爬虫。

本文爬虫的例子来自文章：Python爬虫的N种姿势。这里不再过多介绍，我们的项目结构如下：

其中，app_test.py为主程序，其代码如下：

from celery import Celery

app = Celery('proj', include=['proj.tasks'])

app.config_from_object('proj.celeryconfig')

if __name__ == '__main__':

    app.start()

tasks.py为任务函数，代码如下：

import re

import requests

from celery import group

from proj.app_test import app

@app.task(trail=True)

# 并行调用任务

def get_content(urls):

    return group(C.s(url) for url in urls)()

@app.task(trail=True)

def C(url):

    return parser.delay(url)

@app.task(trail=True)

# 获取每个网页的name和description

def parser(url):

    req = requests.get(url)

    html = req.text

    try:

        name = re.findall(r'<span class="wikibase-title-label">(.+?)</span>', html)[0]

        desc = re.findall(r'<span class="wikibase-descriptionview-text">(.+?)</span>', html)[0]

        if name is not None and desc is not None:

            return name, desc

    except Exception as  err:

        return '', ''

celeryconfig.py为celery的配置文件，代码如下：

BROKER_URL = 'redis://localhost' # 使用Redis作为消息代理

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis

CELERY_TASK_SERIALIZER = 'msgpack' # 任务序列化和反序列化使用msgpack方案

CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高，所以使用了可读性更好的JSON

CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间

CELERY_ACCEPT_CONTENT = ['json', 'msgpack'] # 指定接受的内容类型

最后是我们的爬虫文件，scrapy.py，代码如下：

import time

import requests

from bs4 import BeautifulSoup

from proj.tasks import get_content

t1 = time.time()

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"

# 请求头部

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \

            like Gecko) Chrome/67.0.3396.87 Safari/537.36'}

# 发送HTTP请求

req = requests.get(url, headers=headers)

# 解析网页

soup = BeautifulSoup(req.text, "lxml")

# 找到name和Description所在的记录

human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []

# 获取网址

for human in human_list:

    url = human.find('a')['href']

    urls.append('https://www.wikidata.org'+url)

#print(urls)

# 调用get_content函数，并获取爬虫结果

result = get_content.delay(urls)

res = [v for v in result.collect()]

for r in res:

    if isinstance(r[1], list) and isinstance(r[1][0], str):

        print(r[1])

t2 = time.time() # 结束时间

print('耗时：%s' % (t2 - t1))

在后台启动redis，并切换至proj项目所在目录，运行命令：

celery -A proj.app_test worker -l info

输出结果如下(只显示最后几行的输出)：

......

['Antoine de Saint-Exupery', 'French writer and aviator']

['', '']

['Sir John Barrow, 1st Baronet', 'English statesman']

['Amy Johnson', 'pioneering English aviator']

['Mike Oldfield', 'English musician, multi-instrumentalist']

['Willoughby Newton', 'politician from Virginia, USA']

['Mack Wilberg', 'American conductor']

耗时：80.05160284042358

在rdm中查看数据，如下：

在文章Python爬虫的N种姿势中，我们已经知道，如果用一般的方法来实现这个爬虫，耗时大约为725秒，而我们使用celery，一共耗时约80秒，大概相当于一般方法的九分之一。虽然没有scrapy这个爬虫框架和异步框架aiohttp, asyncio来的快，但这也可以作为一种爬虫的思路。

本次分享到此结束，感谢阅读~

注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

Python爬虫之使用celery加速爬虫的更多相关文章

洗礼灵魂，修炼python（52）--爬虫篇—【转载】爬虫工具列表
与爬虫相关的常用模块列表. 原文出处:传送门链接网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络 ...
python爬虫：一些常用的爬虫技巧
python爬虫:一些常用的爬虫技巧 1.基本抓取网页 get方法: post方法: 2.使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP; 在urllib2包中有Pr ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
【python】一个简单的贪婪爬虫
这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取主要需要注意的地方: 1.lxml.html.iterlinks() 可以实现对页面所有url的查找 2.获取页面 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
【Python爬虫】01：网络爬虫--规则
Python网络爬虫与信息提取目标:掌握定向网络数据爬取和网页解析的基本能力. the website is the API 课程分为以下部分: 1.requsets库(自动爬取HTML页面.自动网 ...
python 全栈开发，Day134(爬虫系列之第1章-requests模块)
一.爬虫系列之第1章-requests模块爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的 ...

随机推荐

兼容IE8，滚动加载下一页
// 滚动加载下一页 var nowScrolledHeight = document.documentElement.scrollTop || document.body.scrol ...
c#—get,set访问器的作用
http://blog.sina.com.cn/s/blog_82526aa60100txtx.html 有字段为啥要有属性??? 属性作用: 1.控制读和写的权限 get:读出 set:写入 2.对 ...
前端基础之BOM和DOM
关于网页交互:BOM和DOM javaScript分为ECMAScript,DOM,BOM . BOM(Browser object Model)是指浏览器对象模型,它使JavaScript有能力 ...
SQLite异常 qAdmin: Cannot perform this operation on a closed dataset.【申明：来源于网络】
SQLite异常 qAdmin: Cannot perform this operation on a closed dataset. 当使用 SQLite administrator,打开SQLit ...
推荐 | Vue 入门&进阶路线
今儿跟大家聊聊 Vue . 不得不承认, Vue 越来越受欢迎了.对比 Angular 和 React,虽然三者都是非常优秀的前端框架,但从 GitHub 趋势看,Vue 已经排在第一位,达到了13万 ...
[Swift]LeetCode82. 删除排序链表中的重复元素 II | Remove Duplicates from Sorted List II
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numb ...
[Swift]LeetCode537. 复数乘法 | Complex Number Multiplication
Given two strings representing two complex numbers. You need to return a string representing their m ...
[Swift]LeetCode575. 分糖果 | Distribute Candies
Given an integer array with even length, where different numbers in this array represent different k ...
iOS学习——核心动画
iOS学习——核心动画 1.什么是核心动画 Core Animation(核心动画)是一组功能强大.效果华丽的动画API,无论在iOS系统或者在你开发的App中,都有大量应用.核心动画所在的位置如下图 ...
java多线程（7）---Condition
Condition 一.Condition概述在线程的同步时可以使一个线程阻塞而等待一个信号,同时放弃锁使其他线程可以能竞争到锁. 在synchronized中我们可以使用Object的wait() ...

Python爬虫之使用celery加速爬虫

Python爬虫之使用celery加速爬虫的更多相关文章

随机推荐

热门专题