Python 爬虫从入门到进阶之路（十六）

之前的文章我们介绍了几种可以爬取网站信息的模块，并根据这些模块爬取了《糗事百科》的糗百内容，本章我们来看一下用于专门爬取网站信息的框架 Scrapy。

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy架构图

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

Scrapy框架官方网址：http://doc.scrapy.org/en/latest

Scrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

我们可以通过 pip install scrapy 进行 scrapy 框架的下载安装。

接下来我们就来创建一个简单的爬虫目录并对其中的目录结构进行说明。

首先我们进入我们的工作目录，然后在终端运行 scrapy startproject qiushi ，这样我们就创建了一个叫 qiushi 的基于 scrapy 框架构建的爬虫项目，目录结构如下：

下面来简单介绍一下各个主要文件的作用：

scrapy.cfg ：项目的配置文件

qiushi/ ：项目的Python模块，将会从这里引用代码

qiushi/items.py ：项目的目标文件

qiushi/middlewares/ ：项目的中间件

qiushi/pipelines.py ：项目的管道文件

qiushi/settings.py ：项目的设置文件

对于目录中的 __init__.py 文件，是一个空文件，我们可以不去管理，但是也不能删除，否则项目将无法运行。

items.py 使我们要写代码逻辑的文件，相关的爬取代码在这里面写。

middlewares.py 是一个中间件文件，可以将一些自写的中间件在这里面写。

pipelines.py 是一个管道文件，我们爬取信息的处理可以在这里面写。

settings.py 是一个设置文件，里面是我们爬取信息的一些相关信息，我们可以根据需要对其进行球盖，当然也可以按照里面给定的默认设置。

接下来我们就来爬取一下之前我们爬取过的糗百的内容。

我们要爬取的网站是 https://www.qiushibaike.com/text/page/1/ 。

我们通过 Xpath Helper 的谷歌插件经过分析获取到我们想要的内容为： //div[contains(@id,"qiushi_tag")]

我们要爬取的是发布糗百的作者，头像和糗事内容。

我们打开 items.py，然后将其改为如下代码：

 import scrapy

 class QiushiItem(scrapy.Item):

     # define the fields for your item here like:

     name = scrapy.Field()  # 作者

     imgUrl = scrapy.Field()  # 头像

     content = scrapy.Field()  # 内容

然后我们在 qiushi/qiushi/spiders 文件夹下创建一个 qiushiSpider.py 的文件，代码如下：

 import scrapy

 from ..items import QiushiItem

 class QiushiSpider(scrapy.Spider):

     # 爬虫名

     name = "qiubai1"

     # 允许爬虫作用的范围，不能越界

     allowd_domains = ["https://www.qiushibaike.com/"]

     # 爬虫起始url

     start_urls = ["https://www.qiushibaike.com/text/page/1/"]

     # 我们无需再像之前利用 urllib 库那样去请求地址返回数据，在 scrapy 框架中直接利用下面的 parse 方法进行数据处理即可。

     def parse(self, response):

         # 通过 scrayy 自带的 xpath 匹配想要的信息

         qiushi_list = response.xpath('//div[contains(@id,"qiushi_tag")]')

         for site in qiushi_list:

             # 实例化从 items.py 导入的 QiushiItem 类

             item = QiushiItem()

             # 根据查询发现匿名用户和非匿名用户的标签不一样

             try:

                 # 非匿名用户

                 username = site.xpath('./div/a/img/@alt')[0].extract()  # 作者

                 imgUrl = site.xpath('./div/a/img/@src')[0].extract()  # 头像

             except Exception:

                 # 匿名用户

                 username = site.xpath('./div/span/img/@alt')[0].extract()  # 作者

                 imgUrl = site.xpath('./div/span/img/@src')[0].extract()  # 头像

             content = site.xpath('.//div[@class="content"]/span[1]/text()').extract()

             item['username'] = username

             item['imgUrl'] = "https:" + imgUrl

             item['content'] = content

             # 将获取的数据交给 pipeline 管道文件

             yield item

接下来我们打开 settings.py，settings.py 内可以根据我们的需求自己去修改，由于内容过多，在后续的章节如果有需要用到的我们单独再说。

参考文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

在该案例中我们需要做的修改如下：

 # Crawl responsibly by identifying yourself (and your website) on the user-agent

 USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'

 # Configure item pipelines

 # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

 ITEM_PIPELINES = {

    'qiushi.pipelines.QiushiPipeline': 300,

 }

在上面的代码中，我们加入了请求报头，然后注入一个管道文件，接下来我们打开 oippelines.py 来完成这个管道文件，代码如下：

 import json

 class QiushiPipeline(object):

     def __init__(self):

         self.file = open('qiushi.json', 'a')

     def process_item(self, item, spider):

         content = json.dumps(dict(item), ensure_ascii=False) + ",\n"

         self.file.write(content)

         return item

     def close_spider(self, spider):

         self.file.close()

这个管道文件其实就是我们将爬取到的数据存储到本地一个叫 qiushi.json 的文件中，其中 def process_item 会接受我们的数据 item，我们就可以对其进行相关操作了。

至此我们就完成了一个简单的爬取糗百的爬虫，可以看出我们不需要再像之前那样考虑太多操作时的细节，scrapy 框架会自动为我们处理，我们只需要按照相应的流程对我们的数据做处理就行了。

在控制台输入 scrapy crawl qiubai 即可运行改程序，其中“qiubai” qiushiSpider.py 中为我们定义的 name 名，最终结果如下：

Python 爬虫从入门到进阶之路（十六）的更多相关文章

Python 爬虫从入门到进阶之路（六）
在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用. Cookie 是指某些网站服务器 ...
Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...
Python 爬虫从入门到进阶之路（九）
之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取<糗事百科>的糗事并存储到本地. 我们要爬取的 ...
Python 爬虫从入门到进阶之路（十二）
之前的文章我们介绍了 re 模块和 lxml 模块来做爬虫,本章我们再来看一个 bs4 模块来做爬虫. 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也 ...
Python 爬虫从入门到进阶之路（十五）
之前的文章我们介绍了一下 Python 的 json 模块,本章我们就介绍一下之前根据 Xpath 模块做的爬取<糗事百科>的糗事进行丰富和完善. 在 Xpath 模块的爬取糗百的案例中我 ...
Python 爬虫从入门到进阶之路（十七）
在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取<糗事百科>的糗事,本章我们继续说一下 scrapy 框架并对之前的糗百爬虫做一下优化和丰富. 在上 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...
Python 爬虫从入门到进阶之路（七）
在之前的文章中我们一直用到的库是 urllib.request,该库已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum ...

随机推荐

WPF Datagrid with some read-only rows - Stack Overflow
原文:WPF Datagrid with some read-only rows - Stack Overflow up vote 21 down vote accepted I had the sa ...
Xamarin简介
简介简单来说,Xamarin提供了使用C#完成iOS,Android和Windows Phone三个移动平台开发的可能性Xamarin包括Xamarin.Andriod.Xamarin.IOS.Xa ...
XF 标签页面
using System; using Xamarin.Forms; using Xamarin.Forms.Xaml; [assembly: XamlCompilation (XamlCompila ...
读BeautifulSoup官方文档之html树的搜索(2)
除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的 ...
Android Camera2拍照（一）——使用SurfaceView
原文:Android Camera2拍照(一)--使用SurfaceView Camera2 API简介 Android 从5.0(21)开始,引入了新的Camera API Camera2,原来的a ...
.gitignore 配置后无效
利用.gitignore过滤文件,如编译过程中的中间文件,等等,这些文件不需要被追踪管理. 现象: 在.gitignore添加file1文件,以过滤该文件,但是通过Git status查看仍显示fil ...
发布Qt Widgets桌面应用程序的方法（自定义进程步骤，用QT Creator直接生成）
发布Qt Widgets桌面应用程序的方法 Qt是一款优秀的跨平台开发框架,它可以在桌面.移动平台以及嵌入式平台上运行.目前Qt 5介绍程序发布的文章帖子比较少.大家又非常想要知道如何发布Qt应用程序 ...
层次关系表格，不用递归，快速检索。HierarchyId
最近这几天写了个T4自动实现EF code first和Ado的存储过程.使用过程中发现了一个Sql的类型为HierarchyId.看到时真是百思不得齐姐.算了查一下MSDN吧.从微软官网找到了Hie ...
如何设计firemonkey的style样式
您好,在窗体上添加一个 TStyleBook(StyleBook1), 可以载入.编辑.另存这些样式.编辑 StyleBook1 后, 可以把它直接赋给窗体的 StyleBook 属性: proced ...
Codility---CountFactors
Task description A positive integer D is a factor of a positive integer N if there exists an integer ...

Python 爬虫从入门到进阶之路（十六）

Scrapy架构图

Python 爬虫从入门到进阶之路（十六）的更多相关文章

随机推荐

热门专题