【Download error：TOO MANY REQUESTS】&【TypeError：excepted string or buffer】

《用python写网络爬虫》，1.4.4链接爬虫，运行时，遇到错误：

Download error：TOO MANY REQUESTS

Traceback（most recent call last）:

　　File "1.py"，line 52，in(module)

　　　　link_crawler('http://example.webscraping.com'，'/index')

　　File "1.py"，line 34，in link_crawler

　　　　for link in get_links(html):

　　File "1.py"，line 50,in get_links

　　　　return webpage_regex.findall(html)

TypeError：excepted string or buffer

分析：首先定位到异常位置，再设置每次请求发送后的等待时间，可解决一次性向服务器发太多请求！

下图是原代码（即出错的代码）

 # encoding: UTF-8

 import re

 import urlparse

 import urllib2

 def download(url,user_agent='wswp',num_retries=2):

     print 'Downloading:',url

     headers = {'User-agent':user_agent}

     request = urllib2.Request(url,headers=headers)

     try:

         html = urllib2.urlopen(url).read()

     except urllib2.URLError as e:

         print 'Download error:',e.reason    # 输出错误原因

         html = None

         if num_retries > 0:

             if hasattr(e,'code')and 500 <= e.code <600:

             # 当错误提示中包含错误代码而且代码是500~600之间的数字时，执行下列代码

                 return download(url,num_retries-1)

     return html

 def link_crawler(seed_url,link_regex):

     crawl_queue = [seed_url]

     # set函数用于输出不带重复内容的列表（列表中的重复内容会被删掉）

     seen = set(crawl_queue)                             # 访问过得链接

     while crawl_queue:

             url = crawl_queue.pop()

             html = download(url)

             for link in get_links(html):

                 if re.search(link_regex,link):                # 判断link是否符合给定的正则表达式

                     link = urlparse.urljoin(seed_url,link)

                                         if link not in seen:                    # 判断此链接是否在已访问链接列表中

                         seen.add(link)

                         crawl_queue.append(link)

 def get_links(html):

     webpage_regex = re.compile(r'<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)     #匹配<a href="xxx"> 这样的字符串

     return webpage_regex.findall(html)

 link_crawler('http://example.webscraping.com','/index')

在出错位置加上等待时间（红色标明），如下：

def link_crawler(seed_url,link_regex):

    crawl_queue = [seed_url]

    # set函数用于输出不带重复内容的列表（列表中的重复内容会被删掉）

    seen = set(crawl_queue)                             # 访问过得链接

    while crawl_queue:

        url = crawl_queue.pop()

        html = download(url)

        for link in get_links(html):

            time.sleep(0.01)　　　　　　　　　　　　　　　　　　　　#防止同时请求过多，造成服务器报错if re.search(link_regex,link):                # 判断link是否符合给定的正则表达式

                    link = urlparse.urljoin(seed_url,link)    # 将相对url地址改为绝对url地址

                    if link not in seen:                    # 判断此链接是否在已访问链接列表中

                        seen.add(link)

                        crawl_queue.append(link)

测试：

可正常下载

若提示报错中断，则加入try…exception抛出异常进行调试。

【Download error：TOO MANY REQUESTS】&【TypeError：excepted string or buffer】的更多相关文章

a=re.findall('b',c)报错提示：TypeError:expected string or buffer
目的:想通过findall选取某个unicode编码的字符串列表(列表里面有元组) 问题:报错[TypeError:expected string or buffer] 现在测试下: 定义一个有元组的 ...
【Mac系统】之Mysql数据库遇到修改数字密码的问题（SQL语法错误：ERROR 1064 (42000)，密码策略等问题：ERROR 1819 (HY000)）
安装完Mysql也进行了第一次初始化密码以及修改密码规则(请参考文章),但是我想后续再改密码,出现了下面几个问题: #SQL语句错误问题 ERROR 1064 (42000): You have an ...
【译】微型ORM：PetaPoco【不完整的翻译】
PetaPoco是一款适用于.Net 和Mono的微小.快速.单文件的微型ORM. PetaPoco有以下特色: 微小,没有依赖项……单个的C#文件可以方便的添加到任何项目中. 工作于严格的没有装饰的 ...
【OpenCV入门教程之一】安装OpenCV：OpenCV 3.0 +VS 2013 开发环境配置
图片太多,具体过程参照: [OpenCV入门教程之一] 安装OpenCV:OpenCV 3.0.OpenCV 2.4.8.OpenCV 2.4.9 +VS 开发环境配置说下我这边的设置: 选择deb ...
python_day7【模块configparser、XML、requests、shutil、系统命令-面向对象】之篇
python内置模块补充一.configparser configparser:用户处理特定格式的文件,其本质是利用open打开文件 # 节点 [section1] #键值对k1 = v1 k2:v ...
【OpenCV入门教程之一】安装OpenCV：OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置
本系列文章由@浅墨_毛星云出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/19809337 作者:毛星云(浅墨 ...
Python开发【第二十二篇】：Web框架之Django【进阶】
Python开发[第二十二篇]:Web框架之Django[进阶] 猛击这里:http://www.cnblogs.com/wupeiqi/articles/5246483.html 博客园首页 ...
Python开发【第二十一篇】：Web框架之Django【基础】
Python开发[第二十一篇]:Web框架之Django[基础] 猛击这里:http://www.cnblogs.com/wupeiqi/articles/5237704.html Python之 ...
Scrapy爬虫框架第五讲（linux环境)【download middleware用法】
DOWNLOAD MIDDLEWRE用法详解通过上面的Scrapy工作架构我们对其功能进行下总结: (1).在Scheduler调度出队列时的Request送给downloader下载前对其进行修改 ...

随机推荐

CPU和GPU双低效，摩尔定律之后一万倍 ——写于TPU版AlphaGo重出江湖之际
本文来自计算机体系结构专家王逵.他认为,“摩尔定律结束之后,性能提升一万倍”不会是科幻,而是发生在我们眼前的事实. 2008年,<三体2:黑暗森林>里写到: 真的很难,你冬眠后不久 ...
CLSRSC-400: A system reboot is required to continue installing.
I try to install oracle database 12c RAC on the RedHat 7.3,when I execute the script '/u01/app/12.2. ...
wsl相关总结
启用WSL VirtualMachinePlatform是WSL2依赖功能,需要系统支持(build 18917+),硬件支持VM功能并开启,安装完成后要重启计算机. Enable-WindowsOp ...
Windows+Idea安装Hadoop开发环境
前言:这种问题,本来不应该写篇博客的,但是实在是折磨我太久了,现在终于修好了,必须记一下,否则对不起自己的时间,对自己的博客道歉 *** 简介环境:Windows 10+JDK1.8+Intelli ...
MSB3268 .Net 4.0工程引用BCL错误
Severity Code Description Project File Line Suppression StateWarning MSB3268 The primary reference & ...
减少Qt编译时间暨简单Qt裁剪
本站所有文章由本站和原作者保留一切权力,仅在保留本版权信息.原文链接.原文作者的情况下允许转载,转载请勿删改原文内容, 并不得用于商业用途. 谢谢合作.原文链接:减少Qt编译时间暨简单Qt裁剪编译一 ...
Qt信号量QSemaphore（在线程里使用，结合生产者消费者的问题）
Qt中的信号量是由QSemaphore类提供的,信号量可以理解为对互斥量功能的扩展,互斥量只能锁定一次而信号量可以获取多次,它可以用来保护一定数量的同种资源.acquire()函数用于获取n个资源,当 ...
client,offset,scroll系列
client(客户端),offset(偏移),scroll(滚动)1.client系列 clientTop 内容区域到边框顶部的距离 ,说白了,就是边框的高度 clientLeft 内容区域到边框左部 ...
hgoi#20190519
更好的阅读体验来我的博客观看 T1-求余问题 Abu Tahun很喜欢回文. 一个数组若是回文的,那么它从前往后读和从后往前读都是一样的,比如数组{1},{1,1,1},{1,2,1},{1,3,2 ...
《linux内核设计与实现》阅读笔记-进程与调度
一.进程 process: executing program code(text section) data section containing global variables open f ...

【Download error：TOO MANY REQUESTS】&【TypeError：excepted string or buffer】

【Download error：TOO MANY REQUESTS】&【TypeError：excepted string or buffer】的更多相关文章

随机推荐

热门专题