scrapy实战之scrapyrt的使用

　　scrapyrt为scrapy提供了一个http接口，有了它，我们不用再执行命令，而是直接请求一个http接口来启动项目，如果项目是部署在远程的，会比较方便。

　　1、安装： pip install scrapyrt

　　2、在任意一个项目中运行scrapyrt，再此我们在quotes爬虫项目中运行。默认会运行在9080端口上。

　　此时我们可以在浏览器中请求此项目：http://localhost:9080/crawl.json?spider_name=quotes&url=http://quotes.toscrape.com/

　　返回数据如下：解析此json数据即可。

　　scrapyrt可以有Get和Post两种请求方式

　　Get：目前Get请求支持如下参数

　　　　1、spider_name:Spider名称，字符串类型，必传参数，如果传递的spider不存在，则返回404错误。

　　　　2、url：爬取链接，字符串类型，如果起始链接没有定义就必须传递这个参数，如果传递了该参数，Scrapy会直接使用此URL生成Request，而直接忽略start_requests()方法和starts_urls属性的定义。

　　　　3、callback：回调函数名称，字符串类型，可选参数，如果传递了就会使用此回调函数处理，否则使用Spider默认的回调函数

　　　　4、max_requests:最大请求数量，数值类型，可选参数，定义了scrapy执行请求的Request的最大次数限制，如果定义为5，则表示最多执行5此Request请求，其余的会被忽略。

　　　　5、start_requests:代表是否要执行start_requests方法，布尔类型，可选参数。scrapy项目中，如果定义了start_requests()方法，默认会被调用；但是在scrapyrt中，此方法默认不会被调用，如果要调用，需要传递参数为true。

　　Post：

　　　　也可以通过Post请求来请求scrapyrt，但是此处的Request Body必须是一个合法的Json配置，在json中可以配置更多的参数，更加灵活。

　　　　目前Json配置支持以下参数

　　　　1、spider_name:Spider名称，字符串类型，必传参数，如果传递的spider不存在，则返回404错误。

　　　　2、max_requests:最大请求数量，数值类型，可选参数，定义了scrapy执行请求的Request的最大次数限制，如果定义为5，则表示最多执行5此Request请求，其余的会被忽略。

　　　　3、request:Request配置，Json对象，必传参数，通过该参数可以定义Request的各个参数，必须指定url字段来执行爬取链接，其他字段可选。

scrapy实战之scrapyrt的使用的更多相关文章

简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Python分布式爬虫开发搜索引擎 Scrapy实战视频教程
点击了解更多Python课程>>> Python分布式爬虫开发搜索引擎 Scrapy实战视频教程课程目录 |--第01集教程推介 98.23MB |--第02集 windows下 ...
Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）
在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷. 我们在京东搜索页面输入关键字进行搜索的时候,页面的返 ...
Scrapy实战-新浪网分类资讯爬虫
项目要求: 爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 什么是Scrapy框架: Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应 ...
Scrapy实战篇（八）之爬取教育部高校名单抓取和分析
本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单. 思路: 1.首先以上面的地址开始链接,抓取到下面省份对应的链接. 2.在解 ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
Scrapy实战篇（六）之爬取360图片数据和图片
本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载. 目标网站:http://images.so.com/z?ch=photography 思路:分析目标网站为ajax加载方式 ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
Scrapy实战篇（四）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...

随机推荐

看到Console.WriteLine($"string")写法，一时间不理解$的用途
参了网上资料,原来它是C# 6.0的语法糖. C# 6.0 新加上的功能: Null-Conditional Operator 大概就是,简洁代码量,缩短一些关于为null的判断~ 旧写法: pu ...
【转载】第四范式涂威威：AutoML技术现状与未来展望
原文地址: https://www.jiqizhixin.com/articles/2018-07-12-17 -------------------------------------------- ...
TNS-12560,TNS-00583: Valid node checking: unable to parse configuration parameters
测试环境11.2.0.4.0, os系统linux 5.6 单实例,监听文件,启动报错: [oracle@adg1 admin]$ lsnrctl start LSNRCTL for Linux: V ...
《Java编程思想》读书笔记-基本规范、注释、static关键字、import关键字
扫一扫加我的微信公众号,和我一起打好Java的基础本文作为构建第一个Java程序的番外篇二,主要跟大家伙儿从浅层次的探讨下Java中的关键字import和static,此外为了让我们的代码可读性更强 ...
JavaScript中易混淆的DOM属性及方法对比
JavaScript中易混淆的DOM属性及方法对比 ParentNode.children VS Node.prototype.childNodes ParentNode.children:该属性继承 ...
CSS Sprites ——雪碧图的使用方法
首先解释下CSS Sprites是什么:有称CSS精灵,有称CSS雪碧的,无论叫什么,他的作用就是把网页上很多小图标放到一张图片里面,然后通过CSS里面的background-position来控制每 ...
20155219 付颖卓《基于ARM试验箱的接口应用于测试》课程设计个人报告
一.个人贡献参与课设题目讨论及完成全过程: 资料收集: 负责代码调试: 修改小组结题报告: 负责试验箱的管理: 二.设计中遇到的问题及解决方法 1.makefile无法完成编译.如下图: 答:重新下 ...
liunx问题集
在CentOS中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB 1.wget -i -c http://dev ...
[工作积累] UE4 并行渲染的同步 - Sync between FParallelCommandListSet & FRHICommandListImmediate calls
UE4 的渲染分为两个模式1.编辑器是同步绘制的 2.游戏里是FParallelCommandListSet并行派发的. mesh渲染也分两类,static mesh 使用TStaticMeshDra ...
Jmeter 传 PUT 请求方式
最近用 Jmeter 发送 PUT 请求,踩了个坑,现记录如下: 难点在在于 body 内有一大串 json 形式的内容 1.PUT 请求的 body 内,直接将 json串传 form-data 形 ...

scrapy实战之scrapyrt的使用

scrapy实战之scrapyrt的使用的更多相关文章

随机推荐

热门专题