scrapy请求传参-BOSS反爬

思路总结

第一次请求就携带cookie，其实他之前有302重定向的如果网络卡的情况下你就会发现，cookie就是这个请求设置的，但是不知道为啥，最开始的请求隐藏掉了

首先boss加了反爬

是cookies的

爬取的内容为职位和职位描述

# -*- coding: utf-8 -*-

import scrapy

from boss.items import BossItem

class Boss01Spider(scrapy.Spider):

    name = 'boss_01'

    start_urls = ['https://www.zhipin.com/c101210100/?query=python&page=1']

    #修改第一次请求

    def start_requests(self):

        cookies = "自己填写自己的cookies"

        cookies = {i.split("=")[0]: i.split("=")[1] for i in cookies.split("; ")}

        yield scrapy.Request(

            self.start_urls[0],

            callback=self.parse,

            cookies=cookies

        )

    def parse_detail(self,response):

        data=response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div/text()').extract()

        all_data=''

        for i in data:

            all_data+="\n"+i

        item = response.meta['item']

        item['job_content']=all_data

        yield item

    def parse(self, response):

        job_list=response.xpath('//div[@class="job-list"]/ul/li')

        for i in job_list:

            item = BossItem()

            #爬取岗位名称和详情的url

            job_name=i.xpath('./div/div/h3/a/div[@class="job-title"]/text()').extract_first()

            job_url=i.xpath('./div/div/h3/a/@href').extract_first()

            job_all_url="https://www.zhipin.com"+job_url

            item['job_name']=job_name

            yield scrapy.Request(job_all_url, callback=self.parse_detail,meta={'item':item})

scrapy请求传参-BOSS反爬的更多相关文章

scrapy基于请求传参实现深度爬取
请求传参实现深度爬取请求传参: 实现深度爬取:爬取多个层级对应的页面数据使用场景:爬取的数据没有在同一张页面中在手动请求的时候传递item:yield scrapy.Request(url,ca ...
scrapy 请求传参
class MovieSpider(scrapy.Spider): name = 'movie' allowed_domains = ['www.id97.com'] start_urls = ['h ...
Scrapy请求传参
scrapy.Request(url=url, callback=self.parse_item, meta={'item': item}, headers=headers) url: 要请求的地址 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
scrapy (三) : 请求传参
scrapy 请求传参 1.定义数据结构item.py文件 ''' field: item.py ''' # -*- coding: utf-8 -*- # Define here the model ...
爬虫scrapy组件请求传参,post请求,中间件
post请求在scrapy组件使用post请求需要调用 def start_requests(self): 进行传参再回到 yield scrapy.FormRequest(url=url,form ...
scrapy模块之分页处理,post请求,cookies处理,请求传参
一.scrapy分页处理 1.分页处理如上篇博客,初步使用了scrapy框架了,但是只能爬取一页,或者手动的把要爬取的网址手动添加到start_url中,太麻烦接下来介绍该如何去处理分页,手动发起分 ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...

随机推荐

abp中将SqlServer切换为MySQL
一.移除默认SQL Server相关包在EntityFrameworkCore项目下移除包Microsoft.EntityFrameworkCore.SqlServer.Microsoft.Enti ...
学习c++11 ThreadPool【转】
#ifndef THREAD_POOL_H #define THREAD_POOL_H #include <vector> #include <queue> #include ...
Netty学习篇④-心跳机制及断线重连
心跳检测前言客户端和服务端的连接属于socket连接,也属于长连接,往往会存在客户端在连接了服务端之后就没有任何操作了,但还是占用了一个连接:当越来越多类似的客户端出现就会浪费很多连接,netty ...
Matplotlib 设置
# 导入相关模块 import matplotlib.pyplot as plt import numpy as np 设置 figure Matplotlib 绘制的图形都在一个默认的 figure ...
[考试反思]1015csp-s模拟测试75：混乱
赶上一套极其傻逼的题(是傻逼,不是简单) T1超级卡精 T2模拟(输出卡"0.0"与"-0.0"不开spj),而且数据诡异乱打就能A(貌似给这道题的时间越长分越 ...
[考试反思]0907NOIP模拟测试39：角落
题比较简单,但是做的非常烂. T1是个愚蠢的找规律组合数快速幂,数组开小了(看错数据范围) T2题目保证联通没看见,hack掉了正解. T3也挺蠢的,但是打乱了,思路不是很清晰导致丢了50分. 只能说 ...
Python基本数据结构之字典
定义: {key1:value1,key2:value2} 1.键与值用冒号“:”分开: 2.项与项用逗号“,”分开: 示例: dic4={ 'name': 'xiaohu', 'age': 20, ...
Mac下配置nacos开机启动
nacos能正常启动后,开始制作启动app. 1.打开自带的自动操作 2.点击选项 3.选择应用程序 4.搜索shell,点击运行Shell脚本,写入脚本,$NACOS 为nacos的绝对路径,保存 ...
Python面向对象 | 静态方法 staticmethod
静态方法是类中的函数,不需要实例.静态方法主要是用来存放逻辑性的代码,逻辑上属于类,但是和类本身没有关系,也就是说在静态方法中,不会涉及到类中的属性和方法的操作.可以理解为,静态方法是个独立的.单纯的 ...
MyBatis:统计数量（查询所有）
返回值的类型:resultType="java.lang.Integer". <select id="count" resultType="ja ...

scrapy请求传参-BOSS反爬

scrapy请求传参-BOSS反爬

思路总结

scrapy请求传参-BOSS反爬的更多相关文章

随机推荐

热门专题