爬虫框架Scrapy 之(四) --- scrapy运行原理(管道)
解析后返回可迭代对象
- 这个对象返回以后就会被爬虫重新接收,然后进行迭代
- 通过scrapy crawl budejie -o xx.josn/xx.xml/xx.csv 将迭代数据输出到json、xml或者csv格式的外部文件中
- 如果管道开启,则每迭代一次数据就会将其输入到管道中(在settings文件中可以开启管道)
1. budejie.py 文件
def parse(self, response):
# 这个函数是解析函数,它是通过下载来回调,下载器下载完成一个url数据以后就会回调这个函数并且把下载的响应对象通过response参数传递过来
print(response)
# 解析response
contents = response.xpath("//div[@class='j-r-list']/ul/li") # scrapy中自带xpath和css两种解析方法
# print(contents)
for content in contents:
item = {}
item["author"] = content.xpath(".//a[@class='u-user-name']/text()").extract()[0]
# scrapy的xpath和css方法中返回出来的是一个Selector对象列表,我们需要用extract函数将内容从这个对象中提取出来
item["authorImg"] = content.xpath(".//img[@class='u-logo lazy']/@data-original").extract()[0]
item["content"] = content.xpath(".//div[@class='j-r-list-c-desc']/a/text()").extract()[0]
item["imgSrc"] = content.xpath(".//img[@class='lazy']/@data-original").extract()[0]
# print(item)
yield item # 每一个解析函数最后都要返回出去一个可迭代的对象
# 这个对象返回以后就会被爬虫重新接收,然后进行迭代
# 通过scrapy crawl budejie -o xx.josn/xx.xml/xx.csv 将迭代数据输出到json、xml或者csv格式的外部文件中
# 如果管道开启,则每迭代一次数据就会将其输入到管道中(在settings文件中可以开启管道)
开启管道,将迭代的对象传入管道
- 在setting.py 文件中开启管道(67--69行)
ITEM_PIPELINES = {
'MyFirstScrapy.pipelines.MyfirstscrapyPipeline': 300,
# settings文件中可以配置相关的组件,其中ITEM_PIPELINES就是其中的一种组件(即管道组件),管道组件的值是一个字典,代表可以设置多个值
# 字典中的一个键值对就代表着一个管道组件,键代表当前管道组件的位置,值代表当前管道组件的优先级(数字越小优先级越大)
# 数据会按照管道优先级,从高向低传递
'MyFirstScrapy.pipelines.CSVPipeline': 200
}
MyfirstscrapyPipeline 管道类
- 在pipelines.py 文件中 声明、设置管道类
class MyfirstscrapyPipeline(object):
# 这个类集成自一个普通类,但是如果我们把它加入到管道组件中就变成了一个管道类
# 一个管道类有以下三个生命周期函数
def open_spider(self,spider):
print("爬虫开启")
print("当前开启的爬虫为:",spider)
# 创建一个redis链接
self.rds = redis.StrictRedis(host="www.fanjianbo.com",port=6379,db=8)
def process_item(self, item, spider):
# 当爬虫解析完数据以后,这个方法去迭代返回到管道中数据
print("爬虫正在迭代数据...")
print("当前正在%s爬虫迭代的数据是:%s"%(spider,item))
# 向redis数据库中存入数据
self.rds.lpush("budejie",item)
return item
# 每迭代一次以后,一定将迭代过的数据return出去
def close_spider(self,spider):
print("爬虫%s关闭!"%spider)
# 声明一个管道类,用于写csv数据
class CSVPipeline(object):
def open_spider(self,spider):
# 打开csv文件
self.csvfile = open("data.csv","a+",newline='',encoding="utf-8")
self.writer = csv.writer(self.csvfile)
self.writer.writerow(["author","authorImg","content","imgSrc"])
def process_item(self,item,spider):
vals = []
for k,v in item.items():
vals.append(v)
self.writer.writerow(vals)
return item
# 如果优先级高的管道跌打完数据以后不返回出去,
# 这个数据就会销毁,后面的管道就无法使用该数据
def close_spider(self,spider):
self.csvfile.close()
爬虫框架Scrapy 之(四) --- scrapy运行原理(管道)的更多相关文章
- Golang 网络爬虫框架gocolly/colly 四
Golang 网络爬虫框架gocolly/colly 四 爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟.回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫, ...
- Scrapy爬虫框架教程(四)-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
- Scrapy基础(四)————Scrapy的使用Pycharm进行Debuge设置
好比Django的Debuge 与前端进行交互时的方便,但是Scrapy 不自带,所以我们写一个main文件来debuge 作用:通过cmd 命令启动爬虫 #-*-coding:utf-8 -*- # ...
- python爬虫框架(3)--Scrapy框架安装配置
1.安装python并将scripts配置进环境变量中 2.安装pywin32 在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/p ...
- 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...
- 一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程
今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且 ...
- 四: scrapy爬虫框架
5.爬虫系列之scrapy框架 一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架 ...
- 小白学 Python 爬虫(36):爬虫框架 Scrapy 入门基础(四) Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 爬虫入门(四)——Scrapy框架入门:使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
随机推荐
- python-重载
重载概念 重载是对继承的父类方法进行重新定义.重载可以重新定义方法还可以重新定义运算符.因为通过继承的类不一定能满足当前类的需求.在当前类中只需要修改部分内容而达到自己的需求. 重载特点 减少代码量和 ...
- djangorestframework+vue-cli+axios,为axios添加token作为headers踩坑记
情况是这样的,项目用的restful规范,后端用的django+djangorestframework,前端用的vue-cli框架+webpack,前端与后端交互用的axios,然后再用户登录之后,a ...
- Postgres中文分词
环境 CentOS Linux release 7.2.1511 (Core) 安装Postgres 安装postgres很简单 yum安装 sudo yum install postgresql-s ...
- EntityFramework Code-First—领域类配置之DataAnnotations
本文出自:https://www.cnblogs.com/tang-tang/p/5510574.html 一.摘要 EF Code-First提供了一个可以用在领域类或其属性上的DataAnnota ...
- 周一04.2流程控制if……else
语法一: if 条件1: 代码1 代码2 例题:如果年龄>20岁,那么:叫阿姨 age=22if age>20: print('阿姨') 语法二: if 条件1: 代码1 代码2else ...
- VUE的一个数据绑定与页面刷新相关的bug
1.场景: N层嵌套的循环查询业务场景,框架是vue.其中在最后一层查完之后,还需要查其中每一项的两个属性,类型都是列表.查完之后将其赋值给一个变量用于页面展示.代码如下: (1)异常代码: getS ...
- c++11の顺序容器
容器是一种容纳特定类型对象的集合.C++的容器可以分为两类:顺序容器和关联容器.顺序容器的元素排列和元素值大小无关,而是由元素添加到容器中的次序决定的.标准库定义了三种顺序容器的类型:vector ...
- CSAPP:第十章 系统级I/O
CSAPP:第十章 系统级I/O 10.1 unix I/O10.2 文件10.3 读取文件元数据10.4 读取目录内容10.5 共享文件10.6 我们该使用哪些I/O函数? 10.1 unix I/ ...
- Win 7/10 安装Oracle 11g
两个系统安装oracle的过程基本一致,注意安装时选桌面类(没有试过server,只有server类的操作系统选择server类) 安装过程:https://jingyan.baidu.com/alb ...
- 开启ucosii的移植之旅
开启ucosii的移植之旅: 4.6.1.移植和硬件平台的关系 (1)只要是cortex-m3内核内核的soc移植差异都不大. 同内核同soc的不同开发板移植差异都不大. 不同内核的开发板移植难度大, ...