Scrapy中的POST请求发送和递归爬取

POST请求发送

重写爬虫应用文件中继承Spider类的类的里面的start_requests（self）这个方法

def start_requests(self):

    #请求的url

    post_url = 'http://fanyi.baidu.com/sug'

    # post请求参数

    formdata = {

        'kw': 'wolf',

    }

    # 发送post请求

    yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)

递归爬取

- 递归爬取解析多页页面数据

　　- 需求：将糗事百科所有页码的作者和段子内容数据进行爬取且持久化存储

　　- 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。

　　- 实现方案：

　　 1.将每一个页码对应的url存放到爬虫文件的起始url列表（start_urls）中。（不推荐）

　　 2.使用Request方法手动发起请求。（推荐）

代码:

# -*- coding: utf-8 -*-

import scrapy

from qiushibaike.items import QiushibaikeItem

# scrapy.http import Request

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    allowed_domains = ['www.qiushibaike.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    #爬取多页

    pageNum = 1 #起始页码

    url = 'https://www.qiushibaike.com/text/page/%s/' #每页的url

    def parse(self, response):

        div_list=response.xpath('//*[@id="content-left"]/div')

        for div in div_list:

            #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2

            author=div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first()

            author=author.strip('\n')

            content=div.xpath('.//div[@class="content"]/span/text()').extract_first()

            content=content.strip('\n')

            item=QiushibaikeItem()

            item['author']=author

            item['content']=content

            yield item #提交item到管道进行持久化

         #爬取所有页码数据

        if self.pageNum <= 13: #一共爬取13页（共13页）

            self.pageNum += 1

            url = format(self.url % self.pageNum)

            #递归爬取数据：callback参数的值为回调函数（将url请求后，得到的相应数据继续进行parse解析），递归调用parse函数

            yield scrapy.Request(url=url,callback=self.parse)

Scrapy中的POST请求发送和递归爬取的更多相关文章

小爬爬6.scrapy回顾和手动请求发送
1.数据结构回顾 #栈def push(self,item) def pop(self) #队列 def enqueue(self,item) def dequeue(self) #列表 def ad ...
提取日志中的json请求发送到另外一台机器
将日志中的json请求提取,并且发送到另外一个机器上: for i in ` cat impression.log.2016-04-08-10 |awk -F"\t" ' {pri ...
(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
Scrapy教程——搭建环境、创建项目、爬取内容、保存文件
1.创建项目在开始爬取之前,您必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行新建命令. 例如,我需要在D:\00Coding\Python\scrapy目录下存放该项目,打开命令 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
Python Scrapy的QQ音乐爬虫音乐下载、爬取歌曲信息、歌词、精彩评论
QQ音乐爬虫(with scrapy)/QQ Music Spider UPDATE 2019.12.23 已实现对QQ音乐文件的下载,出于版权考虑,不对此部分代码进行公开.此项目仅作为学习交流使用, ...
Scrapy研究探索（六）——自己主动爬取网页之II（CrawlSpider）
原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315 一.目的. 在教程(二)(http://blog.csdn.net/u ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...

随机推荐

安装OpenCV：OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置（转）
安装根据这个配置的,但是opencv3.0安装不成功,后来改安2.48就可以了. http://blog.csdn.net/poem_qianmo/article/details/19809337/ ...
print(dir(...)) 打印对象或者类中的方法和函数
NTRIP协议学习（一）
这篇博客讲得很清晰. https://blog.csdn.net/sinat_19447667/article/details/67637167 可以参考的文献包括:<多系统GNSS实时数据质 ...
以太坊系列之一: 以太坊RLP用法-以太坊源码学习
RLP (递归长度前缀)提供了一种适用于任意二进制数据数组的编码,RLP已经成为以太坊中对对象进行序列化的主要编码方式.RLP的唯一目标就是解决结构体的编码问题:对原子数据类型(比如,字符串,整数型, ...
JSF标签之f:facet 的用法
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zkn_CS_DN_2013/article/details/33717091 f:facet标签用来 ...
P4197 Peaks
题目描述在Bytemountains有N座山峰,每座山峰有他的高度\(h_i\).有些山峰之间有双向道路相连,共M条路径,每条路径有一个困难值,这个值越大表示越难走,现在有Q组询问,每组询问询问从点 ...
[SDOI2009]HH的项链（莫队）
嘟嘟嘟这题原本莫队能过,自从某谷加强数据后好像就只能80了. 但这并不重要. (其实写这篇博客只是想记录一下莫队板子) 莫队,总而言之,离线,排序,暴力. #include<cstdio> ...
解决Visual Studio 2015启动慢的问题
总发现vs2015经常把cpu给占满了,导致电脑卡的不要不要的.这是CodeLens引起的,因为装了VAssistX后,感觉CodeLens还没VAssistX好使.所以,关了CodeLens就可以了 ...
Docker存储方式选型建议
转自:https://segmentfault.com/a/1190000007168476 第一部分问题诊断事情从一次实施项目说起,我们需要帮助客户将他们的应用容器化并在数人云平台上发布此应用. ...
预备作业二——有关CCCCC语言(・᷄ᵌ・᷅)
有关CCCCC语言(・᷄ᵌ・᷅) 下面又到了回答老师问题的时候啦-(・᷄ᵌ・᷅) 有些问题正在深思熟虑中!敬请期待近期的不间断更新! 你有什么技能比大多人(超过90%以上)更好? 针对这个技能的获取你 ...

Scrapy中的POST请求发送和递归爬取

POST请求发送

递归爬取

Scrapy中的POST请求发送和递归爬取的更多相关文章

随机推荐

热门专题