爬虫--Scrapy-参数等级和请求传参
日志等级
日志等级(种类):
ERROR:错误
WARNING:警告
INFO:一般信息
DEBUG:调试信息(默认)
指定输入某一中日志信息:
settings:LOG_LEVEL = ‘ERROR’
将日志信息存储到制定文件中,而并非显示在终端里:
settings:LOG_FILE = ‘log.txt’ 请求传参:爬取的数据值不在同一个页面中。
需求:将id97电影网站中电影详情数据进行爬取(名称,类型,导演,语言,片长)
如何让终端显示错误信息
在settings.py中配置
# 指定终端输入指定种类日志信息
LOG_LEVEL = 'ERROR'
# 存储到文件
LOG_FILE = 'log.txt'
请求传参
请求传参:爬取的数据值不在同一个页面中。
(id97电影网站) 在电影网站中电影详情数据进行爬取(名称,类型,导演,语言,片长)
创建moviePro工程
scrapy startproject moviePro
cd moviePro
scrapy genspider movie www.id97.com
电影名称和类型在一页
电影的其他详情在另外一页
爬虫文件movie.py
import scrapy
from moviePro.items import MovieproItem class MovieSpider(scrapy.Spider):
name = 'movie'
#allowed_domains = ['www.id97.com']
start_urls = ['https://www.55xia.com/movie']
print(' start_urls') # 用于解析二级页面数据 def parseBySecondPage(self,response):
# 直接复制网页端的xpath
director = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[1]/td[1]/span/text()').extract_first()
language = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[6]/td[2]/text()').extract_first()
longTime = response.xpath('/html/body/div[1]/div/div/div[1]/div[1]/div[2]/table/tbody/tr[8]/td[2]/text()').extract_first()
# 取出Request方法的meta参数传递过来的字典(response.meta)
item = response.meta['item']
item['director'] = director
item['language'] = language
item['longTime'] = longTime
# 将item提交给管道
print('将item提交给管道')
yield item def parse(self, response):
# 需求:将id97电影网站中电影详情数据进行爬取(名称,类型,导演,语言,片长)
div_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div')
for div in div_list:
# extract_first()第一个
name = div.xpath(".//div[@class='meta']/h1/a/text()").extract_first()
kind = div.xpath('.//div[@class="otherinfo"]//text()').extract()
# 将kind列表转化成字符串
kind = " ".join(kind)
url = div.xpath('.//div[@class="meta"]/h1/a/@href').extract_first()
# href="//www.55xia.com/movie/638284.html
url = 'https:'+url
# 创建items对象
item = MovieproItem()
item['name'] = name
item['kind'] = kind
item['url'] = url
print('创建items对象') # 需要对url发起请求,获取页面数据,进行指定数据解析
# 问题:如何将剩下的电影详情数据存储到item对象(meta)
# 需要对url发起请求,获取页面数据,进行指定数据解析
# meta参数只可以赋值一个字典(将item对象先封装到字典)
yield scrapy.Request(url=url, callback=self.parseBySecondPage, meta={'item': item})
movie.py
items.py
import scrapy class MovieproItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
kind = scrapy.Field()
director = scrapy.Field()
language = scrapy.Field()
longTime = scrapy.Field()
url = scrapy.Field()
管道pipelines.py
class MovieproPipeline(object):
fp = None def open_spider(self, spider):
self.fp = open('movie.txt', 'w', encoding='utf-8') def process_item(self, item, spider):
print('------process_item-------')
detail = item['name'] + ':' + item['kind'] + ':' + item['director'] + ':' + item['language'] + ':' + item[
'longTime'] + '\n\n\n'
self.fp.write(detail)
return item def close_spider(self, spider):
self.fp.close()
爬虫--Scrapy-参数等级和请求传参的更多相关文章
- Scrapy日志等级以及请求传参
日志等级 请求传参 提高scrapy的爬取效率 日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息: - 日志信息的种类: - ERROR ...
- scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 请求传参 如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 在使 ...
- 爬虫开发10.scrapy框架之日志等级和请求传参
今日概要 日志等级 请求传参 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
- 13.scrapy框架的日志等级和请求传参
今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
- scrapy框架的日志等级和请求传参
日志等级 请求传参 如何提高scrapy的爬取效率 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
- scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
- Scrapy的日志等级和请求传参
日志等级 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息: 日志信息的种类: ERROR:一般错误: WARNING:警告: INFO:一般的信息: ...
- scrapy框架post请求发送,五大核心组件,日志等级,请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
- Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
随机推荐
- mysql查询优化之四:优化特定类型的查询
本文将介绍如何优化特定类型的查询. 1.优化count()查询count()聚合函数,以及如何优化使用了该函数的查询,很可能是mysql中最容易被误解的前10个话题之一 count() 是一个特殊的函 ...
- Java-Runoob-高级教程-实例-方法:06. Java 实例 – 方法覆盖
ylbtech-Java-Runoob-高级教程-实例-方法:06. Java 实例 – 方法覆盖 1.返回顶部 1. Java 实例 - 方法覆盖 Java 实例 前面章节中我们已经学习了 Jav ...
- openstack云主机硬盘复制查询
假定客户在自己的电脑上创建文件后 #宿主机查看客户使用的是哪个磁盘 [root@compute1 ~]# lvs LV VG Attr LSize Pool Origin Data% Meta ...
- 一次聊天引发的思考--java并发包
一次聊天,谈到了死锁的解决.可重入锁等等,突然发现这些离自己很远,只有一些读书时的概念涌入脑海,但各自的应用场景怎么都无法想出.痛定思痛,决定看看concurrent包里涉及并发的类及各自的应用场景. ...
- Mybatis 系列4-结合源码解析节点:typeAliases
[Mybatis 系列10-结合源码解析mybatis 执行流程] [Mybatis 系列9-强大的动态sql 语句] [Mybatis 系列8-结合源码解析select.resultMap的用法] ...
- 主机、Docker时间与时区设置总结
最近在使用Docker容器时,部署java程序发现时间输出不对,在修改问题时总结如下. #date [-R] #查看主机时间 #timedatectl #查看主机时区 #tzselect ...
- ODBC数据源管理器-》系统DSN-》没有....Microsoft Access Driver(*mdb,*,accdb)
问题如标题: 解决方法:打开目录:“C:\Windows\SysWOW64”,双击该目录下的“odbcad32.exe”文件,就进去ODBC数据源管理界面了,现在这个界面中就有access的驱动了!
- Flume+HBase+Kafka集成与开发
先把flume1.7的源码包下载 http://archive.apache.org/dist/flume/1.7.0/ 下载解压后 我们通过IDEA这个软件来打开这个工程 点击ok后我们选择打开一个 ...
- Android MVP案例;
就一个十分简单的获取列表数据并展示的Demo:分别使用MVC和MVP实现: 先来一个假的数据源: //假设这就是数据源 public class UserBean { public static Li ...
- 基于tcp的下载文件,以及struct模块的应用。
一 基于TCP的下载 客户端: from socket import * import os def main(): tcp_socket = socket(AF_INET, SOCK_STREAM) ...