【Spider】使用命令行启动时，能正常抓取，但是在pycharm直接运行不能保存数据

通过cmd 运行命令scrapy crawl 【爬虫名称】可以正常运行，并把数据保存到json文件和下载爬取的图片

但是在项目的spiders目录下的 firstTestSpider.py文件里添加：

 if __name__=='__main__':
 #启动爬虫方法一
 process=CrawlerProcess({
     'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  })
  process.crawl(FirstTestSpider)
  # 如果有多个Spider，可以写多几个
  #process.crawl(SecondTestSpider)
  process.start()

    #启动爬虫方法二
    configure_logging()
    runner=CrawlerProcess()
    runner.crawl(FirstTestSpider)
    # 如果有多个Spider，可以写多几个
    #runner.crawl(name)
    d=runner.join()
    d.addBoth(lambda _:reactor.stop())
    reactor.run()

    #启动爬虫方法三
    configure_logging()
    runner=CrawlerRunner()
    @defer.inlineCallbacks
    def crawl():
     yield runner.crawl(FirstTestSpider)
     # 如果有多个Spider，可以写多几个
     #yield runner.crawl(SecondTestSpider)
     reactor.stop()
    crawl()
    reactor.run()

以上三种方式虽然运行后正常结束，不过没有保存json文件，也没有下载图片。（应该是没有跑进pipeline）

所以后来上网搜索之后转用另一种方式，直接在项目下新建run.py文件：#coding=utf-8

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

from spiders.firstTestSpider import FirstTestSpider

settings=get_project_settings()
process=CrawlerProcess({
   'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
})
process.settings=settings
process.crawl(FirstTestSpider)
process.start()

这里使用的的是前面的第一种启动方式
运行后，可以正常下载爬取的图片，在UseScrapyProject目录下（即run.py同级目录下可以生成paper.json）

然后通过对比run.py和spider.py中if __name__=='__main__'的启动方法一的代码，
发现其实这里漏了一步process.settings=settings所以其实是因为没有获取到settings里的设置，因而没有保存数据。（所以前面猜测是对的，确实没有跑进pipeline模块）
所以把前面代码中添加：

from scrapy.utils.project import get_project_settings

if __name__=='__main__':
   settings = get_project_settings()#获取设置

   #启动爬虫方法一
   process=CrawlerProcess({
      'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
   })
   process.settings = settings #赋值
   process.crawl(FirstTestSpider)
   # 如果有多个Spider，可以写多几个
   #process.crawl(SecondTestSpider)
   process.start()

就可以成功保存数据，json文件放在firstTestSpider.py同级目录下。图片也能正常下载

同理方法二改为：

from scrapy.utils.project import get_project_settings

　　settings = get_project_settings()

    #启动爬虫方法二
    configure_logging()
    runner=CrawlerProcess(settings=settings)

    runner.crawl(FirstTestSpider)
    # 如果有多个Spider，可以写多几个
    #runner.crawl(name)
    d=runner.join()
    d.addBoth(lambda _:reactor.stop())
    reactor.run()

方法三改为：

from scrapy.utils.project import get_project_settings

　　settings = get_project_settings()

　　#启动爬虫方法三
　　configure_logging()
　　runner=CrawlerRunner(settings=settings)
　　@defer.inlineCallbacks
　　def crawl():
   　　yield runner.crawl(FirstTestSpider)
   　　# 如果有多个Spider，可以写多几个
   　　#yield runner.crawl(SecondTestSpider)
   　　reactor.stop()
　　crawl()
　　reactor.run()


所以说，其实在spider中启动和新建run.py效果都是一样的，就是注意获取一下settings

以上方法都亲测可行，如有不足之处欢迎指正~

【Spider】使用命令行启动时，能正常抓取，但是在pycharm直接运行不能保存数据的更多相关文章

Java 命令行启动时指定配置文件目录
java -jar -Xbootclasspath/a:/home/tms/conf /home/tms/bin/S17-tms.jar 先指定配置文件目录: 再指定jar包路径: 运行clas ...
Appium命令行启动，提示找不到命令，本地没有appium.cmd文件
安装appium时,直接从github上下载的appium-desktop-windows版本,安装后,从打开桌面端Server,能启动服务,appium-doctor也能正常运行. 但奇怪的地方来了 ...
Apache Commons CLI官方文档翻译 —— 快速构建命令行启动模式
昨天通过几个小程序以及Hangout源码学习了CLI的基本使用,今天就来尝试翻译一下CLI的官方使用手册. 下面将会通过几个部分简单的介绍CLI在应用中的使用场景. 昨天已经联系过几个基本的命令行参数 ...
UWP: 通过命令行启动 UWP 应用
最近在开发应用的过程中,我遇到了如标题所述的需求,其实主要是为了能够快捷启动应用,正像我们可以在"运行"对话框中可以输入一些可执行程序的名称后,就能够直接启动它:这样做,可以增加 ...
mysql在windows下命令行启动与关闭服务
一.命令行关闭与启动服务的命令: 二.运行cmd的命令行程序时,必须以管理员身份运行.否则会出现如下提示: 三.mysql5.7版本的服务名一般默认为mysql57,因此如果使用服务名mysql,那么 ...
Appium客户端，命令行启动server
目标:通过命令行启动Appium的server 1.通过命令行安装的Appium 直接命令行输入appium即可启动服务 2.安装的Appium客户端可以查看客户端中打印的启动日志: ...
Oracle安装完成后,如何用命令行启动和关闭数据库?
Oracle安装完成后,如何用命令行启动和关闭数据库? 解答: 打开:STARTUP [FORCE] [RESTRICT] [PFILE= filename] [OPEN [RECOVER][ dat ...
[七月挑选]Tomcat使用命令行启动之指定jdk版本
title: Tomcat使用命令行启动之指定jdk版本准备好环境,jdk和tomcat. 主要步骤 1.找到Tomcat/bin/catalina.bat文件. 2.在文件前端添加如下. set ...
scrapy 源码解析（一）：启动流程源码分析(一)命令行启动
前言虽然爬虫的入门级编写并不难,但要让爬虫真正稳定可靠的运行起来,真不是一件容易的事.首先,要用到scrapy,就必须要读懂scrapy这个爬虫框架,如果连这个框架的执行逻辑都搞不懂,那么爬虫也很难 ...

随机推荐

mysql中表里的数据重新设置自增的id的方法
如果删除表数据用这个 TRUNCATE TABLE tablename 如果不删除表 alter table table_name AUTO_INCREMENT=;
IBeacon协议分析
IBeacon协议分析跳转至: 导航. 搜索对于一个UUID是E2C56DB5-DFFB-48D2-B060-D0F5A71096E0, major是0, minjor是0的iBeacon,此时的 ...
socket-tcp
server import socketip_port=('127.0.0.1',8080);back_log=5buffer_size=1024 serv=socket.socket(socket. ...
<转载>C#与JAVA的区别 http://www.cnblogs.com/Asa-Zhu/archive/2012/11/08/2761114.html
C#(C-Sharp)是Microsoft的新编程语言,被誉为“C/C++家族中第一种面向组件的语言”.然而,不管它自己宣称的是什么,许多人认为C#更像是Java的一种克隆,或者是Microsoft用 ...
2. springboot启动报错：Field userMapper in com.service.UserService required a bean of type 'com.dao.UserMapper' that could not be found.
报错信息: 2018-06-25 14:26:17.103 WARN 49752 --- [ restartedMain] ationConfigEmbeddedWebApplicationCon ...
php多图片上传。
1. <form method="post" enctype="multipart/form-data" action='请求地址' > <i ...
JVM老年代和新生代的比例
在 Java 中,堆被划分成两个不同的区域:新生代 ( Young ).老年代 ( Old ).新生代 ( Young ) 又被划分为三个区域:Eden.From Survivor.To Surviv ...
Xshell 公钥登入服务器
1:生成公钥此时有test.pub文件 2:linux CentOS 7 配置 2.1 test.pub 存入/root/test.pub目录下面 2.2 确保authorized_keys文件内容 ...
我要重新开始学习C++了！
C++实在是博大精深!之前总不想读厚厚的C++ Primer. 然而,现在的水平真的只是初学者!只是因为写的代码太简单,所以没有用到一些特性.可以说还是门外汉! 写笔记!
Bash 翻译
Bash参考手册目录 1简介 1.1什么是Bash? 1.2什么是shell? 2定义 3基本外壳功能 3.1 Shell语法 3.1.1外壳操作 3.1.2报价 3.1.2.1逃逸角色 3.1.2 ...

【Spider】使用命令行启动时，能正常抓取，但是在pycharm直接运行不能保存数据

【Spider】使用命令行启动时，能正常抓取，但是在pycharm直接运行不能保存数据的更多相关文章

随机推荐

热门专题