使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据

 1 # 使用requests请求网页，爬取网页的内容

 2

 3 # 模拟使用进程池模拟多进程爬取网页获取数据，使用进程绑定的回调函数去处理数据

 4

 5 import requests

 6 from multiprocessing import Pool

 7

 8 # response = requests.get('http://www.baidu.com') # 访问网页获取网页内容，得到一个网页内容的结果对象<Response [200]>这个200是一个状态码，200表示网页正常的返回，404表示网页找不到

 9 #

10 # print(response)

11 # print(response.status_code) # 获取访问网页返回的状态码，200表示网页正常返回，404表示网页找不到。这里是200

12 # print(response.__dict__)

13 # print(response.content) # 获取网页源码

14

15 def get_url(url):

16     '''

17     爬取url、将url和url的源码返回

18     :param url:

19     :return:

20     '''

21     response = requests.get(url)

22     if response.status_code == 200:     # 200表示网页成功返回了，成功访问了网页

23         return url, response.content.decode('utf-8')     # 将网页的源码获取到，因为源码是bytes类型的，所以这里解码成了str

24

25 def call_back(args):

26     '''

27     回调函数，接收获取get_url的返回值，处理获取到的网页数据

28     :param args: 参数不能是多个，所以想获取到多个参数，这里可以是元组的形式.接收的是get_url的返回值

29     :return:

30     '''

31     url, content = args

32     print(url, len(content))

33

34 if __name__ == '__main__':

35     url_lst = [

36         'https://www.cnblogs.com',

37         'http://www.baidu.com',

38         'https://www.sogou.com',

39         'http://www.sohu.com'

40     ]

41     pool = Pool(4)

42     for url in url_lst:

43         pool.apply_async(get_url, args=(url, ), callback=call_back)

44     pool.close()

45     pool.join()

　　回调函数：一般应用在进程的任务有延时，而要处理的数据时间的很短时，将进程的任务和回调函数绑定起来，将任务获取到的数据返回给回调函数，由回调函数处理数据，回调函数是在主进程中得以执行的

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据的更多相关文章

代理ip的使用以及多进程爬取
一.代理皮的简单使用简单的看一二例子即可 import requests #代理ip 高频的ip容易被封,所以使用ip代理 #免费代理 ip:www.goubanjia.com 快代理西祠代理 h ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
使用Post方法模拟登陆爬取网页
最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStre ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
使用Post方法模拟登陆爬取网页(转)
使用Post方法模拟登陆爬取网页最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; impor ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...

随机推荐

RHEL8和CentOS8怎么重启网络
本文主要讲解如何重启RHEL 8或者CentOS 8网络以及如何解决RHEL8和CentOS8系统的网络管理服务报错,当我们安装好RHEL 8或者 CentOS 8,重启启动网络时,会出现以下报错 ...
Gitlab 11.9.1 高可用教程
Gitlab 11.9.1 高可用教程一. PostgreSQL数据迁移由于默认Gitlab的安装会内置Postgres数据库,并且没有对外,所以我们需要通过设置对应的Gitlab的配置将其中的数 ...
链接WPA2-企业WIFI时出现无法链接到该网络，可以链接个人WIFI时的问题和解决方案
因在一个问题上掉两次坑所以还是决定记录下来,方便以后查阅. 第一次因为要部署.net 应用程序要求使用TLS1.2,所以修改了操作系统的默认启用的安全协议类型,导致好多应用程序出问题. 第二次因为vs ...
使用PL/SQL Developer 学习pl/sql
1.创建表并且插入一些数据 (这里表名为test): 2. New 一个SQL Window敲下如下代码(--为注释部分): declare --declare:用于plsql中的声明变量,和be ...
ssm整合之web.xml文件
<!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application 2.3//EN" " ...
配置通过Console口登录交换机
组网图形图1 通过Console口登录交换机组网图通过Console口登录交换机简介通过Console口登录交换机是指使用专门的Console通信线缆将用户PC的串口与交换机的Console口相 ...
ASP.NET CORE 开发微信公众号（一、测试号管理）
一.注册账号百度微信公众平台,点击进入. 二.公众平台测试账号点击进入平台后居然是小程序,我也很费解.以前是找到开发->开发者工具->公众平台测试账号,现在毛都没有了. 不过可以点击这 ...
一些常见JAVA问题
原文:https://blog.csdn.net/weiyongxuan/article/details/45920765 一.Java的异常的基类是java.lang.Throwable 二.守护线 ...
Mybatis---00Mybatis入门
一.什么是Mybatis Mybatis框架是一个半ORM框架.Mybatis是一个优秀的基于 java 的持久层框架,它内部封装了 jdbc,使开发者只需要关注 sql 语句本身,而不需要花费精力去 ...
使用 Filebeat 对多行日志进行处理（multiline）
Filebeat 收集日志的过程中,默认是按行收取的,也就是每一行都会默认是一个单独的事件并添加时间戳.但是在收集一些特殊日志的时候,往往一个事件包含有多行,例如 Java 的堆栈跟踪日志: 20-0 ...

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据

使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据的更多相关文章

随机推荐

热门专题