自定义 scrapy 爬虫的 requests

之前使用 scrapy 抓取数据的时候，默认是在逻辑中判断是否执行下一次请求

def parse(self):

    # 获取所有的url，例如获取到urls中

    for url in urls:

        yield Request(url)

比如：

def parse(self,response):

    item = MovieItem()

    selector = Selector(response)

    Movies = selector.xpath('//div[@class="info"]')

    for eachMoive in Movies:

        title = eachMoive.xpath('div[@class="hd"]/a/span/text()').extract()

        star = eachMoive.xpath('div[@class="bd"]/div[@class="star"]/span/em/text()').extract()[0]

        quote = eachMoive.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()

        nextLink = selector.xpath('//span[@class="next"]/link/@href').extract()

    #下一页

    if nextLink:

        nextLink = nextLink[0]

        yield Request(self.url + nextLink,callback=self.parse)

今天无意查看了 scrapy 的官方文档，可以使用 start_requests() 这个方法循环生成要爬取的网址

  def start_requests(self):

        urls=[]

        for i in range(1,10):

            url='http://www.test.com/?page=%s'%i

            page=scrapy.Request(url)

            urls.append(page)

        return urls

使用 python 一定要简单粗暴，于是把我把之前代码换了如下方式

    # 开始URL

    start_urls = [

      "http://q.stock.sohu.com"

    ]

    #定义爬取的URL

    def start_requests(self):

        # 按日

        return [Request(("http://q.stock.sohu.com/hisHq?code=cn_{0}"+"&start=" + self.begin_date + "&end=" + self.end_date + "&stat=1&order=D&period=d&rt=json&r=0.6618998353094041&0.8423532517054869").format(x['code'])) for x in self.stock_basics]

注意：要注意的是重写 start_requests 这个方法，则不需要设置 start_urls 了 ，并且写了 start_urls 也没有用

This method must return an iterable with the first Requests to crawl for this spider.

This is the method called by Scrapy when the spider is opened for scraping when no particular URLs are specified. If particular URLs are specified, the make_requests_from_url() is used instead to create the Requests. This method is also called only once from Scrapy, so it’s safe to implement it as a generator.

The default implementation uses make_requests_from_url() to generate Requests for each url in start_urls.

REFER:
http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests
python爬虫----（scrapy框架提高（1），自定义Request爬取）
https://my.oschina.net/lpe234/blog/342741

自定义 scrapy 爬虫的 requests的更多相关文章

自定义 Scrapy 爬虫请求的 URL
之前使用 scrapy 抓取数据的时候 ,默认是在逻辑中判断是否执行下一次请求 def parse(self): # 获取所有的url,例如获取到urls中 for url in urls: yiel ...
第三百四十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍
第三百四十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍 Requests请求 Requests请求就是我们在爬虫文件写的Requests() ...
同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）
试想一下,前面做的实验和例子都只有一个spider.然而,现实的开发的爬虫肯定不止一个.既然这样,那么就会有如下几个问题:1.在同一个项目中怎么创建多个爬虫的呢?2.多个爬虫的时候是怎么将他们运行起来 ...
如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置use ...
scrapy爬虫框架setting模块解析
平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下. 模块相关说明信息 # -*- coding: ut ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
python3 scrapy爬虫项目的诞生
前提安装好scrapy模块最好 requests和bs4模块都安装好可以概括为五个步骤步骤一:新建一个项目无论你用windows也好,linux也罢,在cmd或者终端切换到目标文件夹,然后输入 ...
Scrapy 爬虫
Scrapy 爬虫使用指南完全教程 scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...

随机推荐

H3C ipsec ike 协商配置
1. 分几步设置 (1)定义ACL (2)创建 ipsec 安全建议 1.选择认证方式 ah 选择 ah头认证方式不配置 ipsec不能建立成功 (3)创建IKE keychain 可以写多条key ...
Big Event in HDU（HDU1171）可用背包和母函数求解
Big Event in HDU HDU1171 就是求一个简单的背包: 题意:就是给出一系列数,求把他们尽可能分成均匀的两堆如:2 10 1 20 1 结果是:20 10.才最均匀! 三 ...
配置本地IIS和VS自带IIS
以前调试网站一直用的vs自带的IIS,做为学习没啥大碍,但要是用于团队项目开发就会带来诸多不便.团队开发项目有统一的网站端口号.文件目录什么的,端口号可以在配置文件中修改倒也没啥,但是要在自己的项目中 ...
[Xamarin] 用Service 來製作一個Notification的時鐘（转帖）
這篇利用來製作一個會出現在Notification的時鐘,來敘述一下 Service,在你製作的App被關閉時,可以透過Service繼續運行你想處理的部分,當然Service 也有其生命周期接下來 ...
深入理解java虚拟机【内存溢出实例】
通过简单的小例子程序,演示java虚拟机各部分内存溢出情况: (1).java堆溢出: Java堆用于存储实例对象,只要不断创建对象,并且保证GC Roots到对象之间有引用的可达,避免垃圾收集器回收 ...
用jstl截取字符串
用jstl截取字符串 2011-08-01 08:55 5485人阅读评论(0) 收藏举报 stringfunctionjavahtmljspencoding jstl以前在jsp页面截取字符串时 ...
[ACM_图论] Domino Effect (POJ1135 Dijkstra算法 SSSP 单源最短路算法中等模板)
Description Did you know that you can use domino bones for other things besides playing Dominoes? Ta ...
JavaScript this 总结（含 ES6）
本文主要总结自<JavaScript 语言精粹>.部分总结自<JavaScript 高级程序设计>以及自己的经验四种调用模式在 JavaScript 中,this 的值取决 ...
duilib进阶教程 -- 设置资源路径 (15)
在前面的教程里,虽然图片都放到了skin文件夹里,但是XML却都在外面,当XML比较多时,就不太好看啦,如下图: 所以需要整理一下,将XML也放入skin文件夹,这样exe的目录就简洁多了: 将XML ...
将外卖O2O广告一棍子打成竞价排名，秤把平了吗？
近日,诸多媒体报道称美团外卖.饿了么等外卖O2O将竞价排名引入外卖平台当中进行广告运营一事闹得沸沸扬扬.那么,美团外卖.饿了么真的都是竞价排名吗? 其实,美团外卖的付费推广仅仅只是针对列表的固定位置, ...

自定义 scrapy 爬虫的 requests

自定义 scrapy 爬虫的 requests的更多相关文章

随机推荐

热门专题