爬虫---scrapy架构和原理

scrapy是一个为了爬取网站数据, 提取结构性数据而编写的应用框架, 它是基于Twisted框架开发而来, 而Twisted框架是事件驱动的, 比较适合异步代码. 对会阻塞线程的操作, 包括访问数据库、文件或者web, 或者产生新的进程并需要处理新进程的输出、执行系统层次操作的代码, Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法.

scrapy五大核心组件

引擎(ENGINE): 用来处理整个系统的数据流, 触发事务, 是框架的核心.
调度器(Scheduler): 用来接收引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回, 可以看成是一个url的优先队列, 由它来决定下一个要抓取的网址是什么, 同时也会去除重复的网址.
下载器(Downloader): 用于下载网页内容, 并将网页内容返回给引擎, 下载器是建立在高效异步的twisted模型上的.
爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 也可以从中提取链接, 让scrapy继续抓取下一个页面.
管道(Pipelines): 负责处理爬虫从网页中抽取到的实体item, 持久化实体, 验证实体的有效性, 清除不需要的信息, 当页面被爬虫解析后, 将被发送到项目管道, 并经过几个特定的次序处理数据.

scrapy的流程

爬虫SPIDERS将初始请求交给引擎ENGINE.
引擎ENGINE获取到初始请求, 并交给调度器SCHEDULER.
调度器SCHEDULER处理后返回一个请求给引擎ENGINE.
引擎ENGINE将请求经下载中间件MIDDLEWARES发送到下载器DOWNLOADER, 下载页面数据.
一旦下载器完成页面下载, 就会将下载结果通过下载中间件MIDDLEWARES返回给引擎ENGINE.
引擎ENGINE将获取到的响应通过爬虫中间件MIDDLEWARES返回给爬虫SPIDERS进行处理.
爬虫SPIDERS处理响应, 并通过中间件MIDDLEWARES返回处理后的items, 或新的请求给引擎.
引擎ENGINE发送处理后的items到项目管道PIPELINES, 进行持久化存储; 如果是新的请求则传给调度器SCHEDULER.
重复该过程, 直到爬取完所有的url请求.

scrapy命令

# 创建项目

scrapy startproject name

# 创建爬虫程序

scrapy genspider jd_search  search.jd.com

# 启动爬虫程序

scrapy crawl jd_search --nolog

# 存储数据结果到文件

scrapy crawl jd_search -o jd_search.xml

scrapy的常用配置

# 设置日志等级, 只记录error

LOG_LEVEL = 'ERROR'

# UA, 也可以在下载中间件中设置

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'

# robot协议

ROBOTSTXT_OBEY = False

# 开启管道

ITEM_PIPELINES = {

   'scrapy_demo.pipelines.ScrapyDemoPipeline': 300,      # 数字表示优先级, 数字越小, 优先级越高

}

# 开启下载中间件

DOWNLOADER_MIDDLEWARES = {

   'jdSpiderPro.middlewares.JdspiderproDownloaderMiddleware': 543,

}

# 设置下载延迟

DOWNLOAD_DELAY = 5

# 设置并发线程数

CONCURRENT_REQUESTS = 64

# 禁用cookie

COOKIES_ENABLED = False

爬虫---scrapy架构和原理的更多相关文章

python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
Scrapy的架构与原理的理解【转】
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
Python爬虫-Scrapy框架的工作原理
Scrapy框架工作原理 Scrapy框架架构图 Scrapy框架主要由六大组件组成,分别为: 调度器(Scheduler),下载器(Downler),爬虫(Spiders),中间件(Middwa ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
scrapy架构初探
scrapy架构初探引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库.单纯的开放源代码并不是开源的全部,开源的核心是"开放的思想",聚合最好的想法.技术.人员, ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...

随机推荐

tensorflow源码解析之framework-graph
目录什么是graph 图构建辅助函数 graph_transfer_info 关系图涉及的文件迭代记录 1. 什么是graph graph是TF计算设计的载体,如果拿TF代码的执行和Java代码 ...
SP1480题解
<四重计树法> 有标号无根 prufer 序列,\(n^{n-2}\). 有标号有根 prufer 序列,\(n^{n-1}\). 无标号有根设 \(f[n]\) 为 \(n\) 个节点 ...
NETPLIER : 一款基于概率的网络协议逆向工具（一）理论
本文系原创,转载请说明出处:信安科研人关注微信公众号信安科研人获取更多网络安全学术技术资讯今日介绍一篇发表在2021 NDSS会议上的一项有关协议逆向的工作: @ 目录 1 网络协议逆向工程简 ...
Centos7 环境下设置固定IP
1. 在/etc/sysconfig/network-scripts/下创建ifcfg-eth0配置文件, 并填入以下内容: DEVICE=eth0 TYPE=Ethernet IPADDR=192. ...
[Java编程思想] 第一章对象导论
第一章对象导论 "我们之所以将自然界分解,组织成各种概念,并按其含义分类,主要是因为我们是整个口语交流社会共同遵守的协定的参与者,这个协定以语言的形式固定下来--除非赞成这个协定中规定的有 ...
张高兴的 Entity Framework Core 即学即用：（一）创建第一个 EF Core 应用
写在前面 Entity Framework Core (EF Core) 是 .NET 平台流行的对象关系映射(ORM)框架.虽然 .NET 平台中 ORM 框架有很多,比如 Dapper.NHibe ...
CVE-2012-1823（PHP-CGI远程代码执行）
基于vulhub漏洞环境: 安装vulhub漏洞环境 https://blog.csdn.net/qq_36374896/article/details/84102101 CGI模式下的参数: -c ...
BZOJ3159: 决战（FHQ Treap）
传送门: 解题思路: 算是补坑了,这题除了Invert以外就可以树剖线段树解决了. 考虑Invert操作,延续先前树链剖分的做法,考虑先前算法的瓶颈. 最暴力的方法是暴力交换权值,然而这种方法忽略了当 ...
mmap代替通用IO读取文件数据（curious）
提供一份测试demo: #include <stdio.h> #include <string.h> #include <stdlib.h> #include &l ...
解决Flash CS6初始化字体就自动退出
系统win7 问题始于安装了同事的字体,启动Flash CS6时界面上显示开始初始化字体...然后就自动退出了尝试过进入pe系统删除字体,可是删除不了网上搜索找到了这一个删除字体的工具FontF ...

爬虫---scrapy架构和原理

scrapy五大核心组件

scrapy的流程

scrapy命令

scrapy的常用配置

爬虫---scrapy架构和原理的更多相关文章

随机推荐

热门专题