调试Scrapy过程中的心得体会

1.大量抓取网页时出现“Memory Error”解决办法：设置一个队列，每当爬虫空闲时才向队列中放入请求，例如：

from scrapy import signals, Spider

from scrapy.xlib.pydispatch import dispatcher

class ExampleSpider(Spider):

    name = "example"

    start_urls = ['http://www.example.com/']

    def __init__(self, *args, **kwargs):

        super(ExampleSpider, self).__init__(*args, **kwargs)

        # connect the function to the spider_idle signal

        dispatcher.connect(self.queue_more_requests, signals.spider_idle)

    def queue_more_requests(self, spider):

        # this function will run everytime the spider is done processing

        # all requests/items (i.e. idle)

        # get the next urls from your database/file

        urls = self.get_urls_from_somewhere()

        # if there are no longer urls to be processed, do nothing and the

        # the spider will now finally close

        if not urls:

            return

        # iterate through the urls, create a request, then send them back to

        # the crawler, this will get the spider out of its idle state

        for url in urls:

            req = self.make_requests_from_url(url)

            self.crawler.engine.crawl(req, spider)

    def parse(self, response):

        pass

More info on the spider_idle signal: http://doc.scrapy.org/en/latest/topics/signals.html#spider-idle

More info on debugging memory leaks: http://doc.scrapy.org/en/latest/topics/leaks.html

P.S.还有一种限定爬取深度的方法（貌似在settings.py中？）待研究

2.如果请求的url不存在（404），则不会有response对象返回，爬虫什么也没做

3.编码问题

pubmed_spider.py中

import sys

reload(sys)

#python默认环境编码时ascii

sys.setdefaultencoding("utf-8")

保证抓取到的数据是utf8格式的

pipeline.py中file = codecs.open('/%s.txt' % (item['name']), mode = 'w',encoding='utf-8')将数据以utf8格式存储

调试Scrapy过程中的心得体会的更多相关文章

xp硬盘安装Fedora14 过程记录及心得体会（fedora14 live版本680M 和fedora14 DVD版本3.2G的选择）
这次电脑奔溃了,奇怪的是直接ghost覆盖c盘竟然不中.之前电脑上硬盘安装的fedora14操作系统,也是双系统.不知道是不是这个问题,记得同学说过,在硬盘装fedora之后,要手动修改c盘隐藏的那个 ...
疑问：VS在调试的过程中，总是会提示正在加载picface.dll的符号，然后卡死在那
环境: 硬件环境: PC 软件环境: Windows7 VS2012 MFC程序调试现象: 调试的过程中,提示“正在从以下目录加载picface.dll的符号:C:\windows\dll”,然后就 ...
使用Android Studio调试UiAutomator过程中遇到的问题
声明: 这里纪录了个人学习和使用Android Studio调试UiAutomator过程中遇到遇到的问题,不定时进行更新,欢迎一起交流学习 1.Excution faild for task ‘:a ...
Python安装scrapy过程中出现“Failed building wheel for xxx”
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml Python安装scrapy库过程中出现“ Failed building wheel for xxx ...
安装Scrapy过程中遇到的几个问题总结
安装Scrapy 1.https://www.lfd.uci.edu/~gohlke/pythonlibs/下载 Twisted 安装 Twisted-19.10.0-cp37-cp37m-win_a ...
获取图书isbn信息共享图书开发图书信息接口开发过程中的心得体会
最近做一个图书共享的项目,需要用户扫一扫书籍后面的一维码,获取到书籍的isbn号码,然后通过这个isbn号码能够直接获取到这本书的名字.简介.价格.图片等信息. 于是百度搜了下,之前很多的豆瓣的接口, ...
vs2012 在调试或运行的过程中不能加断点
在使用VS2012 的过程中,突然发现在调试的过程中,不能加断点,显示断点未能绑定.在搜寻了很多解决方案后未能解决,3.23这一天,重装了VS也没有用. 便想着把网上所有的方法都试个遍也要解决这个问题 ...
Android APP 调试过程中遇到的问题。
调试过过程中APP安装完启动后有的时候会异常退出,报这个错误.有的时候可以直接启动.查找不到原因.网上说把commit方法替换成commitAllowingStateLoss() 也无效. Andro ...
百度自动发贴，登录很顺利的模拟实现，但发贴攻关失败，能力有限，追JS过程中颇为痛苦
攻关失败,且短期内看不到希望,看不到方向,且越来越焦急,目前已知的是,用根据用户的鼠标事件以一定的规则结合其他数据,服务器以这些数据验证是否为真正的手动发贴. 不过闲暇时实现了百度贴吧的自动签到. 较 ...

随机推荐

1月24日考试(ftp密码)
错因分析 ♦对文件的保存不够恰当,例如第一题和第三题的题目,我是真的很愤怒,第一题在我写了一个多小时,终于样例成功.可是当我再一次打开文件时,里面只有我最开始的代码,谁可以告诉我这是为什么(我绝对保存 ...
無法使用 system/bin/r 讀取 pmic pm8937 hardware regitster 的原因
Platform Qualcomm MSM8917 + PM8937 + PMI8940 起因同事問我 PM8937 的 VREG_L17 如何設定成 3.3V, 從 PM8937 hardware ...
SHELL判断服务是不是正在运行
使用SHELL脚本进行检查服务开启情况 #!/bin/bash #需要首先安装 yum install nmap -y #检查指定端口是否开启 function checkPortStatus() { ...
如何证明一个数的数根(digital root)就是它对9的余数？
数根就是不断地求这个数的各位数之和,直到求到个位数为止.所以数根一定和该数模9同余,但是数根又是大于零小于10的,所以数根模9的余数就是它本身,也就是说该数模9之后余数就是数根. 证明: 假设有一个n ...
Network | 协议栈
因特网协议栈Internet protocol stack: 应用层Application layer.运输层Transport layer.网络层Network layer.链路层Data link ...
python+tesseract验证码识别的一点小心得
由于公司需要,最近开始学习验证码的识别我选用的是tesseract-ocr进行识别,据说以前是惠普公司开发的排名前三的,现在开源了.到目前为止已经出到3.0.2了当然了,前期我们还是需要对验证码进 ...
OSG(OpenSceneGraphic) 渲染引擎架构--整体认识 [转]
原文:http://blog.csdn.net/zangle260/article/details/41123067?utm_source=tuicool 本文参考<<osg最长一帧> ...
转: IO设计模式：Reactor和Proactor对比
转: https://segmentfault.com/a/1190000002715832 平时接触的开源产品如Redis.ACE,事件模型都使用的Reactor模式:而同样做事件处理的Proact ...
DevExpress控件之TreeList
基于v18.1 使用AppendNode方法手动赋值时,首先要添加treeListColumn 默认样式修改后的样式 1 ...
VC++动态链接库(DLL)编程深入浅出(三)
前面我们对非MFC DLL进行了介绍,这一节将详细地讲述MFC规则DLL的创建与使用技巧. 另外,自从本文开始连载后,收到了一些读者的e-mail.有的读者提出了一些问题,笔者将在本文的最后一次连载中 ...

调试Scrapy过程中的心得体会

调试Scrapy过程中的心得体会的更多相关文章

随机推荐

热门专题