Scrapy URLError

错误信息如下：

2015-12-03 16:05:08 [scrapy] INFO: Scrapy 1.0.3 started (bot: LabelCrawler)

2015-12-03 16:05:08 [scrapy] INFO: Optional features available: ssl, http11, boto

2015-12-03 16:05:08 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'LabelCrawler.spiders', 'SPIDER_MODULES': ['LabelCrawler.spiders'], 'BOT_NAME': 'LabelCrawler'}

2015-12-03 16:05:08 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState

2015-12-03 16:05:09 [boto] DEBUG: Retrieving credentials from metadata server.

2015-12-03 16:05:09 [boto] ERROR: Caught exception reading instance data

Traceback (most recent call last):

  File "D:\Anaconda\lib\site-packages\boto\utils.py", line 210, in retry_url

    r = opener.open(req, timeout=timeout)

  File "D:\Anaconda\lib\urllib2.py", line 431, in open

    response = self._open(req, data)

  File "D:\Anaconda\lib\urllib2.py", line 449, in _open

    '_open', req)

  File "D:\Anaconda\lib\urllib2.py", line 409, in _call_chain

    result = func(*args)

  File "D:\Anaconda\lib\urllib2.py", line 1227, in http_open

    return self.do_open(httplib.HTTPConnection, req)

  File "D:\Anaconda\lib\urllib2.py", line 1197, in do_open

    raise URLError(err)

URLError: <urlopen error [Errno 10051] >

2015-12-03 16:05:09 [boto] ERROR: Unable to read instance data, giving up

2015-12-03 16:05:09 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats

2015-12-03 16:05:09 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware

2015-12-03 16:05:09 [scrapy] INFO: Enabled item pipelines:

2015-12-03 16:05:09 [scrapy] INFO: Spider opened

2015-12-03 16:05:09 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2015-12-03 16:05:09 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023

2015-12-03 16:05:09 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)

2015-12-03 16:05:09 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)

　原因如下：

　　That particular error message is being generated by boto (boto 2.38.0 py27_0), which is used to connect to Amazon S3. Scrapy doesn't have this enabled by default.

解决办法：

1.在settings.py文件中，加上

DOWNLOAD_HANDLERS = {'S3': None,}

但是我按照这个方法做并没有用，所以在spider.py文件中加入

from scrapy import optional_features

optional_features.remove('boto')

　　问题解决

说实话，即使报错，也不影响爬虫，但是我有强迫症。。。。

Scrapy URLError的更多相关文章

scrapy下载图片到自己的目录，创建缩略图，存储入库
环境和工具:python2.7,scrapy 实验网站:http://www.27270.com/tag/333.html 爬去所有兔女郎图片,下面的推荐需要过滤逻辑:分析网站信息,下载图片和入库 ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
ubuntu 下安装scrapy
1.把Scrapy签名的GPG密钥添加到APT的钥匙环中: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 6272 ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
scrapy cookies：将cookies保存到文件以及从文件加载cookies
我在使用scrapy模拟登录新浪微博时,想将登录成功后的cookies保存到本地,下次加载它实现直接登录,省去中间一系列的请求和POST等.关于如何从本次请求中获取并在下次请求中附带上cookies的 ...

随机推荐

PL/SQL --> 动态SQL调用包中函数或过程
动态SQL主要是用于针对不同的条件或查询任务来生成不同的SQL语句.最常用的方法是直接使用EXECUTE IMMEDIATE来执行动态SQL语句字符串或字符串变量.但是对于系统自定义的包或用户自定的包 ...
[一步一步MVC]第二回：还是ActionFilter，实现对业务逻辑的统一Authorize处理 OnActionExecuting内如何获取参数
如何获取参数:http://www.cnblogs.com/anytao/archive/2009/04/23/anytao-mvc-02-actionauthorize.html 由问题引出在AS ...
ubuntu 硬件系统信息
查看ubuntu硬件信息 1, 主板信息 .查看主板的序列号 -------------------------------------------------- #使用命令 dmidecode | ...
WebBot - Build Web Apps as Easily as Native Ones - Home
Python-based Template Packages Python-based Template Packages WebBot - Build Web Apps as Easily as N ...
javax.Swing 使用GridBagLayout的程序栗子
摘自https://zhidao.baidu.com/question/110748776.html javax.Swing 使用GridBagLayout的程序栗子总共两个文件,第一个是启动文件, ...
myeclipse修改tomcat端口
myeclipse自带的tomcat可以直接在myeclipse下面进行配置,但是如果是配置的tomcat 只能自己手动修改了
serialVersionUID作用
serialVersionUID适用于Java的序列化机制.简单来说,Java的序列化机制是通过判断类的serialVersionUID来验证版本一致性的.在进行反序列化时,JVM会把传来的字节流中的 ...
struct2-json
一.JSON是什么? :JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.易于人阅读和编写,同时也易于机器解析和生成.它基于JavaScript(Stan ...
如何统一删除word中的超链接
[摘要] 我们从别处拷贝文字,或从网上复制的文字,里面有很多超级链接,如何可以批量删除这些链接呢?这里介绍两种批量删除链接的方法. [正文] 方法一:使用快捷键删除超链接有个神奇的快捷键,可以帮我们 ...
nginx日志格式
日志格式 log_format main '$remote_addr - $remote_user [$time_local] $request ' '" ...

Scrapy URLError

Scrapy URLError的更多相关文章

随机推荐

热门专题