Scrapy 框架 手动发送请求 POST 请求的发送
手动发送请求
import scrapy
from choutiSpider.items import ChoutispiderItem
class ChoutiSpider(scrapy.Spider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.****.com/r/scoff/hot/1']
# 通用模板 url
url = 'https://dig.****.com/r/scoff/hot/%s'
page_num = 1
def parse(self, response):
div_list = response.xpath('//div[@id="content-list"]/div')
# print(div_list)
print(self.page_num)
for div in div_list:
content = div.xpath('./div[@class="news-content"]/div[1]/a/text()').extract_first().strip()
author = div.xpath('./div[@class="news-content"]/div[2]/a[4]/b/text()').extract_first()
# print(content, author)
item = ChoutispiderItem()
item['author'] = author
item['content'] = content
# 提交数据 到管道中
yield item
# 手动发送请求 分页爬取
if self.page_num < 120:
self.page_num += 1
new_url = self.url % self.page_num
# 发送请求 提交
yield scrapy.Request(url=new_url, callback=self.parse)
post 请求发送
# 在scrapy框架中默认情况下cookie会被自动处理,无需手动!
class PostdemoSpider(scrapy.Spider):
name = 'postdemo'
allowed_domains = ['www.xxx.com']
start_urls = ['https://fanyi.****.com/sug']
# 调用父类的 发送请求的 方法
def start_requests(self):
for url in self.start_urls:
data = {
'kw': 'cat'
}
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)
def parse(self, response):
print(response.text)
在scrapy框架中默认情况下cookie会被自动处理,无需手动!
settings 配置:
# Disable cookies (enabled by default)
# COOKIES_ENABLED = False
请求传参:
- 二级详情页面 的 item 传递
import scrapy
from boosPro.items import BoosproItem
class BoosSpider(scrapy.Spider):
name = 'boos'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=1']
url = 'https://www.****.com/c101010100/?query=python%E7%88%AC%E8%99%AB&page=%s'
page_num = 1
def parse(self, response):
li_list = response.xpath('//div[@class="job-list"]/ul/li')
for li in li_list:
item = BoosproItem()
title = li.xpath('.//div[@class="job-title"]/text()').extract_first()
# 薪资 salary
salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()').extract_first()
# 公司 company
company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()
detail_url = 'https://www.zhipin.com' + li.xpath('.//div[@class="info-primary"]/h3/a/@href').extract_first()
item['title'] = title
item['salary'] = salary
item['company'] = company
# 对详情页的url进行手动请求的发送
yield scrapy.Request(url=detail_url, callback=self.parsrDetail, meta={'item': item})
if self.page_num <= 3:
self.page_num += 1
newUrl = self.url % self.page_num
yield scrapy.Request(url=newUrl, callback=self.parse)
# 用来解析详情页的相关的数据
def parsrDetail(self, response):
# 接收meta
item = response.meta['item']
job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()
company_content = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[2]/div/text()').extract_first()
job_desc = ' '.join(job_desc)
item['job_desc'] = job_desc
item['company_content'] = company_content
# print(job_desc, 1111111)
yield item
Scrapy 框架 手动发送请求 POST 请求的发送的更多相关文章
- scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 请求传参 如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 在使 ...
- scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
- Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
- 13.scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
- scrapy框架的日志等级和请求传参
日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
- scrapy框架的日志等级和请求参数
一 . Scrapy的日志等级 - 在使用 scrapy crawl xxx 允许程序时,在终端里打印输出的就是scrapy的日志信息 - 日志信息的种类 : ERROR : 错误信息 WARNING ...
- 爬虫开发10.scrapy框架之日志等级和请求传参
今日概要 日志等级 请求传参 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
- 13,scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...
- 12 Scrapy框架的日志等级和请求传参
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
随机推荐
- SQL Server远程连接 provider: Named Pipes Provider, error: 40 解决方法
置SQLServer,允许远程连接 按照上面的文章一步步配置后,远程连接出现下面所示的报错(Navicat 和 SQL Server Management Studio) SQL Server Man ...
- 细说flush、ob_flush的区别
ob_flush/flush在手册中的描述, 都是刷新输出缓冲区, 并且还需要配套使用, 所以会导致很多人迷惑… 其实, 他们俩的操作对象不同, 有些情况下, flush根本不做什么事情.. ob_* ...
- Eclipse中SVN插件的安装和配置(在线安装)
公司项目中用到了svn来管理项目,然后需要在Eclipse中进行配置.网上参考了很多资料,离线安装的方式装上了,但是导入项目后报错,可能是离线安装包的问题.然后又采用了Eclipse在线安装的方式,总 ...
- RPC调用与GC垃圾回收
RPC调用 多个服务协同完成一次业务时,由于业务约束(如红包不符合使用条件.账户余额不足等).系统故障(如网络或系统超时或中断.数据库约束不满足等),都可能造成服务处理过程在任何一步无法继续,使数据处 ...
- C# dev SearchLookUpEdit 和 RepositoryItemSearchLookUpEdit 测试
一.searchLookUpEdit 绑定数据源 DataTable DtCompany = new DataTable();//数据源表,自己写数据. searchLookUpEditCus_no. ...
- Html中的img标签 加载失败
在Http请求时,有时会遇到img图片标签加载失败,不显示的情况: 解决方法,在重新给src属性赋值时,先将onerror事件清除掉,再赋值,这样就不会存在循环调用问题了,代码如下; <img ...
- BZOJ 2463: [中山市选2009]谁能赢呢?(智商)
Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 3110 Solved: 2250[Submit][Status][Discuss] Descript ...
- 照葫芦画瓢系列之Java --- Maven的配置
一.Maven仓库分类 Maven中,仓库只分为两类:本地仓库和远程仓库.当Maven根据坐标寻找构件的时候,它首先去查看本地仓库,如果本地仓库有此构件,则直接使用,如果本地仓库不存在此构件,或者需要 ...
- eNSP 常用操作
1.eNSP关闭保存文件的提示信息 总是提示如下信息: Oct 12 2017 23:49:24-08:00 Huawei DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4. ...
- Android加载图片的策略
实现图片缓存也不难,需要有相应的cache策略.这里我采用 内存-文件-网络 三层cache机制,其中内存缓存包括强引用缓存和软引用缓存(SoftReference),其实网络不算cache,这里姑且 ...