Scrapy 框架手动发送请求 POST 请求的发送

手动发送请求

import scrapy

from choutiSpider.items import ChoutispiderItem

class ChoutiSpider(scrapy.Spider):

    name = 'chouti'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://dig.****.com/r/scoff/hot/1']

    # 通用模板 url

    url = 'https://dig.****.com/r/scoff/hot/%s'

    page_num = 1

    def parse(self, response):

        div_list = response.xpath('//div[@id="content-list"]/div')

        # print(div_list)

        print(self.page_num)

        for div in div_list:

            content = div.xpath('./div[@class="news-content"]/div[1]/a/text()').extract_first().strip()

            author = div.xpath('./div[@class="news-content"]/div[2]/a[4]/b/text()').extract_first()

            # print(content, author)

            item = ChoutispiderItem()

            item['author'] = author

            item['content'] = content

            # 提交数据 到管道中

            yield item

        # 手动发送请求  分页爬取

        if self.page_num < 120:

            self.page_num += 1

            new_url = self.url % self.page_num

            # 发送请求 提交

            yield scrapy.Request(url=new_url, callback=self.parse)

post 请求发送

# 在scrapy框架中默认情况下cookie会被自动处理，无需手动！

class PostdemoSpider(scrapy.Spider):

    name = 'postdemo'

    allowed_domains = ['www.xxx.com']

    start_urls = ['https://fanyi.****.com/sug']

	# 调用父类的 发送请求的 方法

    def start_requests(self):

        for url in self.start_urls:

            data = {

                'kw': 'cat'

            }

            yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

    def parse(self, response):

        print(response.text)

在scrapy框架中默认情况下cookie会被自动处理，无需手动！

settings 配置:

# Disable cookies (enabled by default)

# COOKIES_ENABLED = False

请求传参:

二级详情页面的 item 传递

import scrapy

from boosPro.items import BoosproItem

class BoosSpider(scrapy.Spider):

    name = 'boos'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=1']

    url = 'https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=%s'

    page_num = 1

    def parse(self, response):

        li_list = response.xpath('//div[@class="job-list"]/ul/li')

        for li in li_list:

            item = BoosproItem()

            title = li.xpath('.//div[@class="job-title"]/text()').extract_first()

            # 薪资 salary

            salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()').extract_first()

            # 公司 company

            company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()

            detail_url = 'https://www.zhipin.com' + li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()

            item['title'] = title

            item['salary'] = salary

            item['company'] = company

            # 对详情页的url进行手动请求的发送

            yield scrapy.Request(url=detail_url, callback=self.parsrDetail, meta={'item': item})

        if self.page_num <= 3:

            self.page_num += 1

            newUrl = self.url % self.page_num

            yield scrapy.Request(url=newUrl, callback=self.parse)

    # 用来解析详情页的相关的数据

    def parsrDetail(self, response):

        # 接收meta

        item = response.meta['item']

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()

        company_content = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[2]/div/text()').extract_first()

        job_desc = ' '.join(job_desc)

        item['job_desc'] = job_desc

        item['company_content'] = company_content

        # print(job_desc, 1111111)

        yield item

Scrapy 框架手动发送请求 POST 请求的发送的更多相关文章

scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级在使 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架的日志等级和请求参数
一 . Scrapy的日志等级 - 在使用 scrapy crawl xxx 允许程序时,在终端里打印输出的就是scrapy的日志信息 - 日志信息的种类 : ERROR : 错误信息 WARNING ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
13，scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...
12 Scrapy框架的日志等级和请求传参
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...

随机推荐

[PDOException] PDO::__construct(): php_network_getaddresses: getaddrinfo failed:
执行数据迁移 php artisan migrate 报错: 网上很多资料说开启allow_open_url等其实没卵用...貌似问题出在dns上....原来数据库的配置是这样的 DB_CONNECT ...
laravel5.5 Syntax error or access violation: 1071 Specified key was too long
在laravel5.5执行数据迁移时 php artisan migrate 先说下系统环境: ubutun Ubuntu 16.04.3 LTS mysql:5.6.35-log 经查自Larave ...
springbooot2 thymeleaf 配置以及加载资源文件。Cannot find template location: classpath:/templates/ (please add some templates or check your Thymeleaf configuration)
最近在学习springbooot2 和 thymeleaf 程序文件 application.properties文件配置: #thymeleaf spring.thymeleaf.prefix=cl ...
spring boot @ResponseBody转换JSON 时 Date 类型处理方法，Jackson和FastJson两种方式,springboot 2.0.9配置fastjson不生效官方解决办法
spring boot @ResponseBody转换JSON 时 Date 类型处理方法 ,这里一共有两种不同解析方式(Jackson和FastJson两种方式,springboot我用的1.x的版 ...
python进程间通信
Process之间有时需要通信,操作系统提供了很多机制来实现进程间的通信. 1. Queue的使用可以使用multiprocessing模块的Queue实现多进程之间的数据传递,Queue本身是一个 ...
js 做账单处理
<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding= ...
iOS----------开发中常用的宏有那些
OC对象判断是否为空? 字符串是否为空 #define kStringIsEmpty(str) ([str isKindOfClass:[NSNull class]] || str == nil || ...
Git 结合Git使用Bitbucket进行代码版本管理流程规范与实践
结合Git使用Bitbucket进行代码版本管理流程规范与实践 By:授客 QQ:1033553122 目录目录 1 一. 测试环境 2 二. 新建项目 2 三. 新建公有版本库 3 四. ...
关于ARM CM3的启动文件分析
下面以ARM Cortex_M3裸核的启动代码为例,做一下简单的分析.首先,在启动文件中完成了三项工作: 1. 堆栈以及堆的初始化 2. 定位中断向量表 3. 调用Reset Handler. ...
PE文件基础
① PE (Portable Executable):微软参考COFF(Common Object File Format)规范,在Windows NT系统上制定的一种标准, 用于exe可执行文件.o ...

Scrapy 框架 手动发送请求 POST 请求的发送

手动发送请求

post 请求发送

在scrapy框架中默认情况下cookie会被自动处理，无需手动！

请求传参:

Scrapy 框架 手动发送请求 POST 请求的发送的更多相关文章

随机推荐

热门专题

Scrapy 框架手动发送请求 POST 请求的发送

Scrapy 框架手动发送请求 POST 请求的发送的更多相关文章