Python网络爬虫笔记（二）：链接爬虫和下载限速

（一）代码1（link_crawler()和get_links()实现链接爬虫）

 import urllib.request as ure

 import re

 import urllib.parse

 from delayed import WaitFor

 #下载网页并返回HTML(动态加载的部分下载不了)

 def download(url,user_agent='Socrates',num=2):

     print('下载:'+url)

     #设置用户代理

     headers = {'user_agent':user_agent}

     request = ure.Request(url,headers=headers)

     try:

         #下载网页

         html = ure.urlopen(request).read()

     except ure.URLError as e:

         print('下载失败'+e.reason)

         html=None

         if num>0:

             #遇到5XX错误时，递归调用自身重试下载，最多重复2次

             if hasattr(e,'code') and 500<=e.code<600:

                 return download(url,num-1)

     return html

 #seed_url传入一个url

 #link_regex传入一个正则表达式

 #函数功能：提取和link_regex匹配的所有网页链接并下载

 def link_crawler(seed_url, link_regex):

     html = download(seed_url)

     crawl_queue = []

     #迭代get_links（）返回的列表，将匹配正则表达式link_regex的链接添加到列表中

     for link in get_links(html):

         if re.match(link_regex, link):

             #拼接https://www.cnblogs.com/ 和 /cate/...

             link = urllib.parse.urljoin(seed_url, link)

             #不在列表中才添加

             if link not in crawl_queue:

                 crawl_queue.append(link)

     #调用WaitFor的wait（）函数，下载限速，间隔小于2秒则等待，直到时间等于2秒才继续下载（大于则直接继续下载）

     waitFor = WaitFor(2)

     #下载crawl_queue中的所有网页

     while crawl_queue:

         #删除列表末尾的数据

         url = crawl_queue.pop()

         waitFor.wait(url)

         download(url)

 #传入html对象，以列表形式返回所有链接

 def get_links(html):

     #使用正则表达式提取html中所有网页链接

     webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)

     html = html.decode('utf-8')

     # 以列表形式返回所有网页链接

     return webpage_regex.findall(html)

 link_crawler('https://www.cnblogs.com/','/cate/.*')

（二）delayed.py（实现下载限速的类）

 import urllib.parse

 import datetime

 import time

 class WaitFor():

     def __init__(self,delay):

         #delay：希望延迟多长时间（wait（）中的处理是以秒为单位）

         self.delay = delay

         #用来存放上次下载时间

         self.domains = dict()

     def wait(self,url):

         #获取url netloc属性的值（即www.cnblogs.com，// 和第一个 /之间的内容）

         domain = urllib.parse.urlparse(url).netloc

         #存在键值为domain的数据返回value值，否则返回None

         last_down = self.domains.get(domain)

         if self.delay >0 and last_down is not None:

             #  希望延迟时间 - （当前时间-上次下载时间），seconds时间间隔以秒为单位显示

             sleep_sec = self.delay-(datetime.datetime.now()-last_down).seconds

             if sleep_sec > 0:

                 time.sleep(sleep_sec)

         #将当前时间添加到domains中

         self.domains[domain] = datetime.datetime.now()

Python网络爬虫笔记（二）：链接爬虫和下载限速的更多相关文章

Python网络编程笔记二
使用select模块实现IO多路复用服务端 import socket import select #windows上只支持select.select,不支持poll epoll HOST = &qu ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...
Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载提取码:1vc5 内容简介本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
Python网络爬虫笔记（五）：下载、分析京东P20销售数据
(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面 ...
nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...
python之爬虫（二）爬虫的原理
在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序.其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Req ...
Python 网络编程（二）
Python 网络编程上一篇博客介绍了socket的基本概念以及实现了简单的TCP和UDP的客户端.服务器程序,本篇博客主要对socket编程进行更深入的讲解一.简化版ssh实现这是一个极其简单 ...
Python网络编程基础|百度网盘免费下载|零基础入门学习资料
百度网盘免费下载:Python网络编程基础|零基础学习资料提取码:k7a1 目录: 第1部分底层网络第1章客户/服务器网络介绍第2章网络客户端第3章网络服务器第4章域名系统第5章 ...

随机推荐

setContentView()与LayoutInflater.inflate()作用
@Override protected void onCreate(Bundle savedInstanceState) { try{ super.onCreate(savedInstanceS ...
SSH相关知识
SSH(Secure Shell, 安全Shell协议)是一种加密的网络传输协议,经常用于安全的远程登录. SSH只是一种协议,可以有多种实现. OPENSSH是一种应用广泛的实现. sshd是dae ...
wpf研究之道-datagrid控件（1）
"想要说些什么又不知从何说起",每当想要写一些关于wpf的文章,总是沉思良久,怕自己写不好.今天我想要说的是wpf中datagrid控件.我们先来看看它在整个类的层次结构: ...
JavaScript(第二十四天)【事件对象】
JavaScript事件的一个重要方面是它们拥有一些相对一致的特点,可以给你的开发提供更多的强大功能.最方便和强大的就是事件对象,他们可以帮你处理鼠标事件和键盘敲击方面的情况,此外还可以修改一般事件的 ...
第1次作业：我与我的IT梦
第一部分:结缘计算机 1.1最美的风景,一直在路上说实话以前没有想过自己将学习计算机这个专业,在大二之前,我还是教师教育学院的一名师范生,机缘巧合,赶上了学校允许师范专业的同学转到非师范专业,于是, ...
C语言--第四周作业
一.题目7-1 计算分段函数[1] 1.代码 #include <stdio.h> int main () { float x,result; scanf("%f",& ...
《Language Implementation Patterns》之符号表
前面的章节我们学会了如何解析语言.构建AST,如何访问重写AST,有了这些基础,我们可以开始进行"语义分析"了. 在分析语义的一个基本方面是要追踪"符号",符号 ...
调用WCF时，调用已超过传入消息(65536)的最大消息大小配额。若要增加配额,请使用相应绑定。
解决方案: 其实只要在客户端配置文件中加上如下紫色粗体属性( maxReceivedMessageSize): <?xml version="1.0" encoding=&q ...
关于APIcloud对应C#的 wcf框架作为后台,实现多库功能
首先,我是使用ajax原来的请求方式,并没有使用apicloud中封装的请求方式. 前端代码: function makeRequest() { //alert("inside makeRe ...
N阶台阶问题(详解)
原创问题描述: 有N阶台阶,每一步可以走1步台阶或者2步台阶,求出走到第N阶台阶的方法数. 解题思路: 类似于建立树的过程 1 2 1 2 1 2 1 2 1 2 ...

Python网络爬虫笔记（二）：链接爬虫和下载限速

Python网络爬虫笔记（二）：链接爬虫和下载限速的更多相关文章

随机推荐

热门专题