scrapy-实现下一页请求， scrapy.Request

# -*- coding: utf-8 -*-

import scrapy

class HrSpider(scrapy.Spider):

    name = 'hr'

    allowed_domains = ['tencent.com']

    start_urls = ['https://hr.tencent.com/position.php']

    def parse(self, response):

        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]

        for tr in tr_list:

            item = {}

            item['title'] = tr.xpath("./td[1]/a/text()").extract_first()

            item['position'] = tr.xpath("./td[2]/text()").extract_first()

            item['pub_date'] = tr.xpath("./td[5]/text()").extract_first()

            yield item

        # 请求下一页  需要settings USER_AGENT

        next_url = response.xpath("//a[@id='next']/@href").extract_first()

        if next_url != "javascript:;":

            next_url = 'https://hr.tencent.com/' + next_url

            yield scrapy.Request(

                next_url,

                callback=self.parse # 调用处理方法

            )

scrapy.Request(url, [callback, method='GET', headers, body, cookies, meta, dont_filter=False]

)

callback:指定传入的url交给那个函数去解析

meta:实现在不同的解析函数中传递数据，meta默认携带部分数据，如下载延迟，请求深度等

dont_filter:让scarpy的去重不会过滤当前url，scarpy有默认的url去重功能，对需要重复请求的url需要设置为True

scrapy-实现下一页请求， scrapy.Request的更多相关文章

浅析列表页请求优化（history API）
最近搞了下列表页请求的功能,并做了一下调研整理,记此文备忘. 列表页请求的功能到处可见,比如在博客园. 点击相应的页码,页面返回相应的内容,看上去似乎大同小异,但是一些小的细节还是可以区分优劣. fu ...
Scrapy（五）：Response与Request、数据提取、Selector、Pipeline
学习自Requests and Responses - Scrapy 2.5.0 documentation Request在Spider中生成,被Downloader执行,之后会得到网页的Respo ...
在Python3.5下安装和测试Scrapy爬网站
1. 引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础.本文将讲解如何快速安装此框架并使用起来. 2. 安装Twisted 2.1 同安装Lxm ...
[整理]Ajax Post请求下的Form Data和Request Payload
Ajax Post请求下的Form Data和Request Payload 通常情况下,我们通过Post提交表单,以键值对的形式存储在请求体中.此时的reqeuest headers会有Conten ...
windows下安装和使用scrapy
首先,要确保已经正确安装了python环境,并安装了pip包接着,打开cmd或者powershell ,输入命令 pip install scrapy .安装完之后运行scrapy性能测试命令: ...
scrapy windows下出现importError:No module named 'win32api'
scrapy windows下出现importError:No module named 'win32api'需安装 pip install pypiwin32
DRF框架（一）——restful接口规范、基于规范下使用原生django接口查询和增加、原生Django CBV请求生命周期源码分析、drf请求生命周期源码分析、请求模块request、渲染模块render
DRF框架全称:django-rest framework 知识点 1.接口:什么是接口.restful接口规范 2.CBV生命周期源码 - 基于restful规范下的CBV接口 3.请求组件 ...
Scrapy Learning笔记（四）- Scrapy双向爬取
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法. 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面, ...
Scrapy 1.4 文档 03 Scrapy 教程
在本教程中,我们假设您已经安装了Scrapy.如果没有,请参阅安装指南. 我们将要抓取 quotes.toscrape.com,一个列出著名作家的名言(quote)的网站. 本教程将引导您完成以下任务 ...

随机推荐

Beta 冲刺（4/7）
Beta 冲刺 (4/7) 队名:第三视角组长博客链接本次作业链接团队部分团队燃尽图工作情况汇报张扬(组长) 过去两天完成了哪些任务文字/口头描述准备四六级展示GitHub当日代码/ ...
express源码分析
参考:http://www.cnblogs.com/ginobilee/p/6906204.html https://www.cnblogs.com/zhusheng2008/p/5264096.ht ...
CSS图形——实现圆角
css实现圆角 css2.1给元素添加圆角是一件很麻烦的事,老办法是用背景图片实现,制作比较麻烦.css3,border-radius的属性,使圆角属性得到完美的解决. 语法 border-radiu ...
LoadLibrary和GetModuleHandle
0x01 区别 LoadLibrary是把一个模块映射进调用进程的地址空间,需要时增加引用计数,每调用一次,引用计数增加一,需要通过相同步骤地调用FreeLibrary来减少引用次数,当为0时,系统 ...
Java语法基础学习DayNineteen（反射机制）
一.Refection定义 1.概述 Reflection(反射)是被视为动态语言的关键,反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息,并能直接操作任意对象的内部属性 ...
入门项目 A5-2 interface-shop 第三方接口2
from db import db_handler # 从db数据包下面调用db处理模块,以使用其内部的名称空间与函数功能 # 添加购物车接口 def add_shopping_cart_interf ...
B-trees
B-trees are balanced search trees designed to work well on disks or other direct accesssecondary sto ...
shell脚本监测DNS链接状态给传给zabbix值
#!/bin/sh time_out=0 querygt3s=0 i=1 while [[ $i -le 15 ]] do i=`expr $i + 1` sleep 2 while read lin ...
Erlang-接口技术
系统的构建一定会设计到简历接口,让他与不同的语言的应用程序之间简历系统的联系.这就叫做erlang的接口技术. 接口技术的三种实现方法: 1.让程序以外部操作系统进行的形式在Erlang虚拟机以外运行 ...
算法笔记1 - 编辑距离及其动态规划算法（Java代码）
转载请标注原链接:http://www.cnblogs.com/xczyd/p/3808035.html 编辑距离概念描述编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个 ...

scrapy-实现下一页请求， scrapy.Request

scrapy-实现下一页请求， scrapy.Request的更多相关文章

随机推荐

热门专题