关于Scrapy爬虫项目运行和调试的小技巧（上篇）

扫除运行Scrapy爬虫程序的bug之后，现在便可以开始进行编写爬虫逻辑了。在正式开始爬虫编写之前，在这里介绍四种小技巧，可以方便我们操纵和调试爬虫。

一、建立main.py文件，直接在Pycharm下进行调试

很多时候我们在使用Scrapy爬虫框架的时候，如果想运行Scrapy爬虫项目的话，一般都会想着去命令行中直接执行命令“scrapy crawl crawler_name”，其中crawler_name指的是爬虫的名字，在一开始创建Scrapy爬虫模板的时候就指定了的，而且在该爬虫项目中具有唯一性。但是每次跑到命令行下去执行，看交互的结果，有时候并不是很清晰，所以这里介绍一种方法，可以帮助大家提高开发效率，尤其是调试的时候更是显得方便。

在与爬虫项目的scrapy.cfg文件同级目录下建立一个main.py文件，用于控制整个爬虫项目的执行。

在该文件夹中写入的代码见下图。其中execute函数是内嵌在scrapy中的，调用这个函数可以直接调用该Scrapy工程项目的爬虫脚本，这个函数的执行需要在爬虫项目的父目录下进行。而第7行代码的意思就是获取当前py文件的父目录，省去我们直接复制路径的精力和时间，同时也方便我们将该项目放到其他的平台上去运行，不会报路径的错误。execute函数里边的参数其实就是将Scrapy爬虫执行命令拆分，然后分别以一个字符的方式放到了一个数组中。

之后我们直接运行这个main.py文件便可以调用Scrapy爬虫程序了。

二、多用Debug进行调试，提高开发速度

相信用过Pycharm的小伙伴都看到过Debug这个东东，它的英文意思就是“小虫子”，在Pycharm中的logo也是个小虫子，像是七星瓢虫一样，不过很多小伙伴可能还没有怎么用过，这里简单的介绍给大家，希望大家日后可以多多用到，对于项目的调试十分有帮助。

在进行Debug调试之前，我们需要在我们想要调试的代码左侧进行打断点，断点一般是红色的，打断点的方式很简单，只需要在代码的左侧点击一下左键即可，如下图所示。

断点设置完成之后，便可以去main.py文件进行调试了。在main.py文件点击右键，然后选择“Debug ‘main’”，如下图所示。

之后爬虫程序便开始进行调试，并且会返回一系列结果，如下图所示，可以方便的进行拖拽查看。同时也会在爬虫文件中以绿色的字体进行显示爬虫的结果，很漂亮。

如果想退出或者停止该调试，则点击Pycharm上方选项卡的Run，然后点击“Stop ‘main’”即可，如下图所示。

之后该爬虫程序就会退出调试，恢复正常的Pycharm界面，如下图所示。

关于Scrapy爬虫项目运行和调试两个小技巧先分享到这里，下次将分享Scrapy爬虫项目中更为实用的两种调试方法，敬请期待~~

关于Scrapy爬虫项目运行和调试的小技巧（上篇）的更多相关文章

关于Scrapy爬虫项目运行和调试的小技巧（下篇）
前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇,没来得及上车的小伙伴可以戳超链接看一下.今天小编继续沿着上篇的思路往下延伸,给大家分享更为实用的Scrapy项目调试技巧. 三.设置网 ...
在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
Scrapy(爬虫)基本运行机制
Scrapy(爬虫)基本运行机制
gdb调试运行时的程序小技巧
使用gdb调试运行时的程序小技巧标签: 未分类 gdb pstack | 发表时间:2012-10-15 04:32 | 作者:士豪分享到: 出处:http://rdc.taobao.com/bl ...
【Scrapy(四)】scrapy 分页爬取以及xapth使用小技巧
scrapy 分页爬取以及xapth使用小技巧这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签 2.使用scrapy的 ...
python3 scrapy爬虫项目的诞生
前提安装好scrapy模块最好 requests和bs4模块都安装好可以概括为五个步骤步骤一:新建一个项目无论你用windows也好,linux也罢,在cmd或者终端切换到目标文件夹,然后输入 ...
Scrapy 爬虫项目框架
1. Scrapy 简介 2. Scrapy 项目开发介绍 3. Scrapy 项目代码示例 3.1 setting.py:爬虫基本配置 3.2 items.py:定义您想抓取的数据 3.3 spid ...
Python+Selenium进行UI自动化测试项目中，常用的小技巧4：日志打印，longging模块（控制台和文件同时输出）
在前段时间,为了给项目中加入日志功能,就想到了 logging 模块,百度logging一大推,都是各种复制的,并没有找到自己想要的结果:我的目的很简单,就是:在把日志写入文件的同时在控制台输出,更加 ...
谷歌(Chrome)浏览器调试JavaScript小技巧
谷歌浏览器不仅仅可以用来上网,对于开发人员来说,它更像是一款强大的开发辅助工具. 工欲善其事必先利其器,接下来笔者给大家分享一些Chrome的使用方法. 假如读者了解如何在Chrome中添加JavaS ...

随机推荐

编码介绍(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)
转载:http://blog.jobbole.com/30526/(前面内容)和http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf ...
SQL like查询条件中的通配符处理
1. SQL like对时间查询的处理方法 SQL数据表中有savetime(smalldatetime类型)字段,表中有两条记录,savetime值为:2005-3-8 12:12:00和2005- ...
HDU 2199 Can you solve this equation?【二分查找】
解题思路:给出一个方程 8*x^4 + 7*x^3 + 2*x^2 + 3*x + 6 == Y,求方程的解. 首先判断方程是否有解,因为该函数在实数范围内是连续的,所以只需使y的值满足f(0)< ...
CorelDRAW 2017通过智能笔触调整自然地绘制草图
LiveSketch 工具是CorelDRAW 2017版本中的新增功能,LiveSketch 工具适合快速草图和绘图,可以帮助您加快工作流并使您能够专注于创建流程.该工具并不预填充节点和图柄,而且无 ...
EL表达式的作用与限制条件
限制条件只能访问域对象的数据用法访问基本数据类型首先把数据保存在域对象中 pagecontext.setAttribute("name","eric") ...
sklearn学习8-----GridSearchCV(自动调参）
一.GridSearchCV介绍: 自动调参,适合小数据集.相当于写一堆循环,自己设定参数列表,一个一个试,找到最合适的参数.数据量大可以使用快速调优的方法-----坐标下降[贪心,拿当前对模型影响最 ...
【Jim】I am back (ง •_•)ง
其实上周就来考过一次试了,真是啥都忘了 (´ｰ∀ｰ`) 下午在写[树网的核],写了一半去吃饭,回来时发现高二机房的门被锁上了,于是他们都被堵在门口. 我就回到我的地方接着写码. 听到外面有个高二的妹子 ...
命令行导入导出Mysql数据库
MySQL命令行导出数据库:1,进入MySQL目录下的bin文件夹:cd MySQL中到bin文件夹的目录,如我输入的命令行:cd C:\Program Files\MySQL\MySQL Serve ...
前端实现input[type='file']上传图片预览效果
众所周知JavaScript在设计上处于安全角度考虑,是不允许读写本地文件的(原因请自行百度): 但是在实际项目应用中,经常会使用到上传图片,并且可以让用户直接预览图片.对于此种做法有两种方法可以实现 ...
Mybatis之MySql批量insert后返回主键
需求:使用批量插入后,需要insert之后的每一条记录的ID 注意:Mybatis3.3.1的版本以后支持批量插入后返回主键ID 示例: domin.java: public class User { ...

关于Scrapy爬虫项目运行和调试的小技巧（上篇）

关于Scrapy爬虫项目运行和调试的小技巧（上篇）的更多相关文章

随机推荐

热门专题