Scrapy框架之日志等级和请求传参
一、Scrapy的日志等级
在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。
1、日志等级(信息种类)
- ERROR:错误
- WARNING:警告
- INFO:一般信息
- DEBUG:调试信息(默认)
2、设置日志信息指定输出
在settings.py配置文件中任意位置加入:
# 设置终端输出指定种类的日志信息
LOG_LEVEL = 'ERROR' # 只打印ERROR级别的日志信息
将日志信息存储在指定文件中,而不再显示在终端里:
# 设置终端输出指定种类的日志信息
LOG_LEVEL = 'ERROR' # 只打印ERROR级别的日志信息
LOG_FILE = 'log.txt' # 指定日志存储到一个文件中
二、请求传参
请求传参针对场景:爬取的数据值不在同一个页面中。
需求:将id97电影网站中电影详情数据进行爬取(名称、类型、导演、语言、片长)
1、问题:如何将两个方法解析的电影详情数据存储到一个item对象中
meta参数可实现item对象的传递。scrapy.Request()方法中有一个参数meta.通过meta可以将items对象传递给回调函数。
注意:meta只能接收字典类型的数据值。因此需要将items封装到字典中,将字典赋值给meta参数,meta就可以将字典传递给回调函数。
def parse(self, response):
div_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div') # 获取/html/body/div[1]/div[1]/div[2]下所有子div
for div in div_list:
"""省略代码"""
# 创建items对象
item = MovieproItem()
item['name'] = name
item['kind'] = kind
# 手动发起请求
yield scrapy.Request(url=url, callback=self.parseBySecondPage, meta={'item': item})
随后可以在parseBySecondPage函数中取出Request方法的meta参数传递过来的字典。
取出方法是response.meta,如下所示:
def parseBySecondPage(self, response):
"""专门用于解析二级子页面中的数据值"""
# 取出Request方法的meta参数传递过来的字典:取出方法是response.meta
item = response.meta['item']
item['actor'] = actor
item['language'] = language
item['longTime'] = longTime
2、爬虫文件movie.py编写如下
import scrapy
from moviePro.items import MovieproItem
class MovieSpider(scrapy.Spider):
name = 'movie'
# allowed_domains = ['www.id97.com']
start_urls = ['https://www.55xia.com/movie'] # 网站地址更改。。
def parseBySecondPage(self, response):
"""专门用于解析二级子页面中的数据值"""
# 导演、语言、片长
actor = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[1]/td[2]/a/text()').extract_first()
language = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[6]/td[1]/text()').extract_first()
longTime = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[8]/td[2]/text()').extract_first()
# 取出Request方法的meta参数传递过来的字典:取出方法是response.meta
item = response.meta['item']
item['actor'] = actor
item['language'] = language
item['longTime'] = longTime
# 将item提交给管道
yield item
def parse(self, response):
# 名称、类型、导演、语言、片长
div_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div') # 获取/html/body/div[1]/div[1]/div[2]下所有子div
for div in div_list:
# 电影名称
name = div.xpath('.//div[@class="meta"]/h1/a/text()').extract_first()
# 电影种类: //text() 该div下所有文本数据均获取
# 如下xpath方法返回的是一个列表,且列表长度为4
kind = div.xpath('.//div[@class="otherinfo"]//text()').extract()
# 将kind列表转化为字符串
kind = "".join(kind)
# 影片详情url
url = div.xpath('.//div[@class="meta"]/h1/a/@href').extract_first()
# 创建items对象
item = MovieproItem()
item['name'] = name
item['kind'] = kind
# 问题:如何将两个方法解析的电影详情数据存储到一个item对象中——meta
# 下一步:对url发起请求,获取页面数据,进行指定数据解析
# 手动发起请求
yield scrapy.Request(url=url, callback=self.parseBySecondPage, meta={'item': item})
3、其他文件配置
(1)items.py文件封装所有属性
import scrapy
class MovieproItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 封装所有属性
name = scrapy.Field()
kind = scrapy.Field()
actor = scrapy.Field()
language = scrapy.Field()
longTime = scrapy.Field()
(2)管道文件pipeline.py
import json
class MovieproPipeline(object):
fp = None
def open_spider(self, spider):
self.fp = open('movie.txt', 'w', encoding='utf-8')
def process_item(self, item, spider):
# detail = item['name'] + ':' + item['kind'] + ':' + item['actor'] + ':' + item['language'] + ':' + item['longTile'] + '\n\n\n'
detail = dict(item)
json.dump(detail, self.fp, ensure_ascii=False)
return item
def close_spider(self, spider ):
self.fp.close()
(3)settings.py配置文件
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' # 伪装请求载体身份
# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 不遵从门户网站robots协议,避免某些信息爬取不到
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
'moviePro.pipelines.MovieproPipeline': 300,
}
3、特别处理
(1)kind(电影种类)特别处理:
kind = div.xpath('.//div[@class="otherinfo"]//text()').extract()
# 将kind列表转化为字符串
kind = "".join(kind)
解析它的xpath方法返回的是一个列表,且列表长度为4。因此不能再使用extract_first方法,要使用extract()方法获取列表。
获取列表后需要将列表转化为字符串。在这里使用"".join(list)实现。
(2)在管道文件中完成数据持久化
# 方法一:拼接字符串写入文件中
def process_item(self, item, spider):
detail = item['name'] + ':' + item['kind'] + ':' + item['actor'] + ':' + item['language'] + ':' + item['longTile'] + '\n\n\n'
self.fp.write(detail)
return item
# 方法二:json.dump()将dict类型的数据转成str,并写入到json文件中
def process_item(self, item, spider):
detail = dict(item)
json.dump(detail, self.fp, ensure_ascii=False)
return item
Scrapy框架之日志等级和请求传参的更多相关文章
- scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 请求传参 如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 在使 ...
- 13.scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
- scrapy框架的日志等级和请求传参
日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
- scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
- 爬虫开发10.scrapy框架之日志等级和请求传参
今日概要 日志等级 请求传参 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
- 13,scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...
- 12 Scrapy框架的日志等级和请求传参
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
- scrapy框架post请求发送,五大核心组件,日志等级,请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
- Scrapy的日志等级和请求传参
日志等级 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息: 日志信息的种类: ERROR:一般错误: WARNING:警告: INFO:一般的信息: ...
随机推荐
- CentOS7.4关闭防火墙
//临时关闭 systemctl stop firewalld //禁止开机启动 systemctl disable firewalld Removed symlink /etc/systemd/sy ...
- MySql数据库数据类型及约束介绍
1,MySql中数据类型介绍 整型及浮点型 数据类型 存储范围 字节 TINYINT 有符号值:-2^到2^7-1 无符号值:0到2^8-1 2 SMALLINT 有符号值:-2^15到2^15-1 ...
- 014 Android BottomNavigationView 底部导航组件使用
1.导入BottomNavigationView组件(点击下载按钮,安装组件) 2.新建菜单 (1)app--->src-->main--->res ,选中res目录右击new--- ...
- tornado 07 数据库—ORM—SQLAlchemy—查询
tornado 07 数据库—ORM—SQLAlchemy—查询 引言 #上节课使用query从数据库查询到了结果,但是query返回的对象是直接可用的吗 #在query.py内输入一下内容 from ...
- JAVA数据结构--ArrayList动态数组
在计算机科学中,动态数组,可扩展数组,可调整数组,动态表,可变数组或数组列表是一种随机存取可变大小列表数据结构,允许添加或删除元素.它提供许多现代主流编程语言的标准库.动态数组克服了静态数组的限制,静 ...
- HDU - 1403 后缀数组初步
题意:求两个串的最长公共子串 两个串连接起来然后求高度数组 注意两个sa值必须分别在不同一侧 本题是用来测试模板的,回想起青岛那次翻车感觉很糟糕 #include<iostream> #i ...
- SiteServer CMS简介
SiteServer CMS 是中国在.NET平台下.强大的企业站开源CMS内容管理系统和网站群系统. 能够最低的成本.最少的人力投入在最短的时间内架设好一个功能齐全.性能优异.规模庞大并易于维护的网 ...
- 什么是javascript的中间件?
第一次写博客,有点想在博客园试水的感觉,也分享下觉得有用的东西(源码自己写的) 什么是javascript中间件呢?函数middle就是用来构建中间件的,我用例子说明下 下面我定义了一个函数use,在 ...
- flask之--钩子,异常,上下文,flask-script,模板,过滤器,csrf_token
一.请求钩子 在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比如: - 在请求开始时,建立数据库连接: - 在请求开始时,根据需求进行权限校验: - 在请求结束时,指定数据的交互格式: ...
- 【研究】XML外部实体注入(XXE)
在正式发布的2017 OWAST Top10榜单中,出现了三种新威胁: A4:XML外部实体注入漏洞(XXE) A8:不安全的反序列化漏洞 A10:不足的记录和监控漏洞 验证XXE: 构造请求 < ...