SCRAPY入门学习（待完善）

Scrapy介绍

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

Scrapy的运作流程

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

触发时段：

初始化阶段：当Scrapy启动时，引擎会初始化调度器。

请求入队：每当有新的请求生成（例如在start_requests方法或在parse方法中生成新的请求），这些请求都会被发送到调度器。

请求出队：当下载器空闲并准备处理新的请求时，调度器会将下一个请求出队并发送给下载器。

去重处理：调度器会检查新请求是否已经存在于队列中，以避免重复处理。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的URL，Scrapy也会重新下载。）

制作 Scrapy 爬虫一共需要4步：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

明确目标 （编写items.py）：明确你想要抓取的目标

制作爬虫 （spiders/xxspider.py）：制作爬虫开始爬取网页

存储内容 （pipelines.py）：设计管道存储爬取内容

安装教程略

练习

以爬取https://www.4399.com/flash/的游戏名、日期、分类为例：

查看html结构（只爬取最新小游戏信息）

创建好爬虫项目：scrapy startproject pj1

xiao.py

import scrapy

class XiaoSpider(scrapy.Spider):

    name = "xiao"

    allowed_domains = ["4399.com"]

    start_urls = ["https://www.4399.com/flash/"]#可以添加多个url

    def parse(self, response):

    # txt=response.xpath('/html/body/div[8]/ul/li/a/b/text()').extract()

        l=response.xpath('/html/body/div[8]/ul/li')

        lst=[]

        for i in l:

            name=i.xpath('./a/b/text()').extract_first()

            catagroy=i.xpath('./em/a/text()').extract_first()

            date=i.xpath('./em/text()').extract_first()

            dic={"name":name,"catagroy":catagroy,"date":date}

            yield dic # 传给管道的item变量

pipelines.py

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# useful for handling different item types with a single interface

from itemadapter import ItemAdapter

class Pj1Pipeline:

    def process_item(self, item, spider):

        print(item)#管道处理方式可以自定义，如写入文件，存入数据库等

        return item

class rPipeline: #除了初始管道，还可以自定义新管道

    def process_item(self, item, spider):

        item['love']='hyx'

        return item

设置管道优先级（先传入哪个管道处理数据，处理完再传入哪个管道）

请求头添加方法

1.setting.py里面添加

2.中间件添加

3.spider里面添加

在你创建的spider里面写个start_requests方法

SCRAPY入门学习（待完善）的更多相关文章

scrapy爬虫学习系列四：portia的学习入门
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy入门使用
scrapy入门创建一个scrapy项目 scrapy startporject mySpider 生产一个爬虫 scrapy genspider itcast "itcast.cn&qu ...
[转]Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider 作者:http://www.cnblogs.com/txw1958/ 出处:http://www.cnblogs.com/txw1958/archi ...
【python】入门学习（十）
#入门学习系列的内容均是在学习<Python编程入门(第3版)>时的学习笔记统计一个文本文档的信息,并输出出现频率最高的10个单词 #text.py #保留的字符 keep = {'a' ...
Aho-Corasick算法、多模正则匹配、Snort入门学习
希望解决的问题 . 在一些高流量.高IO的WAF中,是如何对规则库(POST.GET)中的字符串进行多正则匹配的,是单条轮询执行,还是多模式并发执行 . Snort是怎么组织.匹配高达上千条的正则规则 ...
Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫学习系列一：scrapy爬虫环境的准备
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫学习系列三：scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

IM跨平台技术学习(十二)：万字长文详解QQ Linux端实时音视频背后的跨平台实践
本文由QQ音视频团队贺坤分享原题"Linux QQ能打语音视频了!一文详解背后技术实现!",下文进行了排版和内容优化等. 1.引言 2024年6月6日,QQ For Linux 3 ...
Python中的zip/unzip：像拉拉链一样组合数据的艺术
今天让我们一起探讨Python中一个优雅而强大的内置功能: zip 和 unzip .听名字就知道,它就像我们衣服上的拉链一样,能把两边的数据完美地咬合在一起. 从一个有趣的例子开始想象你正在开发一 ...
《刚刚问世》系列初窥篇-Java+Playwright自动化测试-10- 标签页（tab）操作 - 上篇（详细教程）
1.简介本来按照计划这一系列的文章应该介绍Context和Page两个内容的,但是宏哥看了官方文档和查找资料发现其实和宏哥在Python+Playwright系列文章中的大同小异,差不了多少,再在这 ...
biancheng-MySQL教程
目录http://c.biancheng.net/mysql/ 1数据库入门2MySQL的安装和配置3MySQL数据库的基本操作4数据库设计5MySQL数据类型和存储引擎6MySQL数据表的基本操作7 ...
Kubernetes 知识梳理及集群搭建
Kubernetes介绍应用部署方式演变在部署应用程序的方式上,主要经历了三个时代: 传统部署:互联网早期,会直接将应用程序部署在物理机上优点:简单,不需要其它技术的参与缺点:不能为应用程序定 ...
系统提示msvcp120.dll丢失如何解决
最近有位win7系统用户反映,自己安装完游戏开始玩的时候,系统却提示:示msvcp120.dll丢失,这导致了游戏无法正常运行,这让用户很是苦恼,不知道电脑如何解决,为此非常苦恼,那么win7系统提示 ...
linux：rpm
rpm 对软件包进行管理:查询.卸载.安装查询 rpm -qa | grep 关键字 :查询指定的包卸载 rpm -e 关键字 :卸载指定的包若存在依赖关系: rpm -e 关键字 ...
【RocketMQ 消息中间件】RocketMQ篇之-消息存储为什么性能高 CommitLog ConsumeQueue IndexFile 刷盘机制同步异步
RocketMQ篇之-消息存储目录 RocketMQ篇之-消息存储 (前置)消息存储交互流程 (一)存储系统 1. 内存存储 2. 关系型数据库存储 3. 文件存储 (二)消息的存储和发送 1. 消 ...
Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
最近DeepSeek开源了对openai-o1的第一代开源推理大模型:deepseek-r1,因其极低的成本和与openai-o1相当的性能引发了国内外的激烈讨论.DD在做独立产品的时候也一直都有用D ...
如何在WPS和Word/Excel中直接使用DeepSeek功能
以下是将DeepSeek功能集成到WPS中的详细步骤,无需本地部署模型,直接通过官网连接使用:1. 下载并安装OfficeAI插件 (1)访问OfficeAI插件下载地址:https://www.of ...