scrapy框架--新建调试的main.py文件

一.原因：

　　由于pycharm中没有scrapy的一个模板，所有没办法直接在scrapy文件中调试，所有我们需要写一个自己的main.py文件，在文件里面调用命令行，来实现scrapy的一个调试。（在scrapy中可以调试，可以让我们的开发效率高）

二.注意点：

　　字爬虫文件中设置断点，但是需要在自己写的main.py文件中用debug进行调试，然后返回到爬虫文件观看调试结果即可。

三.编写main.py文件:

from scrapy.cmdline import execute   #调用此函数可以执行scrapy的脚本

import sys

import os

# 用来设置工程目录，有了它才可以让命令行生效

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

#os.path.abspath(__file__)  用来获取当前py文件的路径

#os.path.dirname()    用来获取文件的父亲的路径

#调用execute()函数执行scarpy的命令 scary crawl 爬虫文件名字

execute(['scarpy','crawl','jobbole'])

　　我们可以看一下scarpy命令行：scarpy crawl 爬虫文件名字（下图截取了部分运行之后的代码）

四.修改setting,py问价中的一个参数：因为scrapy默认会读取每个网站的root协议，会把不符合root协议的url过滤掉，所有我们需要设置scrapy不需要遵守root协议。

scrapy框架--新建调试的main.py文件的更多相关文章

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
『德不孤』Pytest框架 — 14、Pytest中的conftest.py文件
目录 1.conftest.py文件介绍 2.conftest.py的注意事项 3.conftest.py的使用 4.不同位置conftest.py文件的优先级 5.conftest.py中Fixtu ...
scrapy框架在未登录模式下爬取文本，文件和图片的几点收获
1.什么是API接口? https://baijiahao.baidu.com/s?id=1597881116201407882&wfr=spider&for=pc 2.spider文 ...
Python项目--Scrapy框架(一)
环境 win8, python3.7, pycharm 正文 1.Scrapy框架的安装在cmd命令行窗口执行: pip install Scrapy 即可完成Scrapy框架的安装 2. 创建Sc ...
爬虫之Scrapy框架介绍及基础用法
今日内容概要爬虫框架之Scrapy 利用该框架爬取博客园并发编程今日内容详细爬虫框架Scrapy 1.什么是框架? 框架类似于房子的结构,框架会提前帮你创建好所有的文件和内部环境你只需要往对 ...
爬虫（9） - Scrapy框架(1) | Scrapy 异步网络爬虫框架
什么是Scrapy 基于Twisted的异步处理框架纯python实现的爬虫框架基本结构:5+2框架,5个组件,2个中间件 5个组件: Scrapy Engine:引擎,负责其他部件通信进行信号 ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...

随机推荐

php cookie session 深究一下
当一个用户用浏览器访问web(www.96net.com.cn)时候,若服务器开启session_start() 服务器tmp临时目录自动生成session_id 并放回给创建一个cookie 保存 ...
P4843 清理雪道（上下界网络流）
P4843 清理雪道上下界最小流我们先搞一遍上下界可行流(转) 回忆上下界最大流的写法:在可行流的残量网络$s\ -\ t$上跑最大流,答案为可行流$+$残量网络的最大流那么上下界最小流的写法呢 ...
Redis设计与实现 -- 动态字符串对象（SDS）
1. 动态字符串( simple dynamic string, SDS) 在 Redis 中,当需要可以被重复修改的字符串时,会使用 SDS 类型 ,而不是 C 语言中默认的 C 字符串类型 .举个 ...
shell判断/bin目录下date文件是否存在
Zabbix学习笔记（yum源安装）
Zabbix学习笔记(yum源安装) 链接:https://pan.baidu.com/s/19RXhumkB-ulpI4BGOa5b_A 提取码:115h 复制这段内容后打开百度网盘手机App,操作 ...
Sass:Opacity函数-alpha()、opacity()函数
alphpa() 和 opacity() 函数很简单,与前面介绍的 red(),green() 等函数很类似.这个函数的主要功能是用来获取一个颜色的透明度值.如果颜色没有特别指定透明度,那么这两个函数 ...
java 接口概念及使用
package java11; /* 在任何版本的java中,接口都能定义抽象方法格式: public abstrace 返回值类型方法名称(参数列表): 注意事项: 1.接口当中的抽象方法,修饰 ...
java 发红包案例
Codeforces Global Round 1 (CF1110) （未完结，只有 A-F）
Codeforces Global Round 1 (CF1110) 继续补题.因为看见同学打了这场,而且涨分还不错,所以觉得这套题目可能会比较有意思. 因为下午要开学了,所以恐怕暂时不能把这套题目补 ...
JSOI2018冬令营游记&总结（迁移自洛谷博客）
游记一开始在冬令营还没开始的时候,十分期待,殊不知每天都有一场浩劫在等着我. Day0 10:50出发,看见lbn同学发了一条说说,也随便发了一个. 然后在车上一直在睡觉,现在感觉挺后悔的,其实可以 ...

scrapy框架--新建调试的main.py文件

scrapy框架--新建调试的main.py文件的更多相关文章

随机推荐

热门专题