scrapy （一）

scrapy框架

scrapy 是一个爬虫框架,能够高效率,高层次的爬取页面的数据并进行处理。

在scrapy的英文文档中，有这样的一个流程图

scrapy 框架主要分为五大部分，spider， engine，scheduler，downloader，item pipelines

spider:是用户自己编写的爬虫主程序，爬取那些网站，获取网上的什么数据，等

engine：引擎，是scrapy爬虫框架的主体结构，负责整个框架的运转，就像电脑的cpu一样，控制着框架中数据流的流动，同时负责调动各个组件的调用。

scheduler：调度器，相当于一个牧羊人，主要是把从spider中得到的Requests 放进队列中，按照顺序排列听从引擎的指挥。

downloader：下载器，负责解析Requests 得到response

item pipelines ：item 是爬虫程序获取的数据，最后存入管道里有pipelline进行数据的处理比如写入数据库，保存本地json文件，excel文件等方式。

其大致流程为：

　　启动爬虫程序的时候，引擎（engine）根据spider中的start_urls列表中的url获取Request类交给调度器（scheduler），调度器将得到的Requests放进队列中，然后引擎从队列中取出Requests 再交给下载器（downloader），下载器得到respons响应，引擎在将得到的响应发送给spider 主程序，进行解析，会得到解析的的数据（item）和Requests 引擎将得到的数据，放入pipelines中进行数据处理（保存数据库，保存本地json文件等），得到的Requests 引擎再交给调度器，放入队列中，从这一步骤开始循环，直到spider得到数据都是item放进pipeline里面进行处理整个爬虫程序结束。

爬虫程序结构

|--------------------------------------------SpiderTest

|-----------------------------spiders

|---------__init__.py

|--------------test.py

|-------------------------__init__.py

|----------------------------items.py

|-------------------middlewares.py

|------------------------pipelines.py

|--------------------------settings.py

scrapy （一）的更多相关文章

Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
scrapy爬虫docker部署
spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...
scrapy 知乎用户信息爬虫
zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...
ubuntu 下安装scrapy
1.把Scrapy签名的GPG密钥添加到APT的钥匙环中: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 6272 ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
scrapy cookies：将cookies保存到文件以及从文件加载cookies
我在使用scrapy模拟登录新浪微博时,想将登录成功后的cookies保存到本地,下次加载它实现直接登录,省去中间一系列的请求和POST等.关于如何从本次请求中获取并在下次请求中附带上cookies的 ...
Scrapy开发指南
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. Scrapy基于事件驱动网络框架 Twis ...
利用scrapy和MongoDB来开发一个爬虫
今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装在进行今天的任务之前我们需要安装二个框架,分别 ...
python3 安装scrapy
twisted(网络异步框架) wget https://pypi.python.org/packages/dc/c0/a0114a6d7fa211c0904b0de931e8cafb5210ad82 ...

随机推荐

HTML5 FormData对象
利用FormData对象,你可以使用一系列的键值对来模拟一个完整的表单,然后使用XMLHttpRequest发送这个"表单". 创建一个FormData对象你可以先创建一个空的F ...
PAT——1070. 结绳
给定一段一段的绳子,你需要把它们串成一条绳.每次串连的时候,是把两段绳子对折,再如下图所示套接在一起.这样得到的绳子又被当成是另一段绳子,可以再次对折去跟另一段绳子串连.每次串连后,原来两段绳子的长度 ...
PPP interface for lwIP
//原文地址 :http://www.nongnu.org/lwip/2_0_x/group__ppp.html /* //协议说明,2017年6月29日14:19:18,suozhang PPP ...
winrar 弹窗处理
https://www.rarlab.com/ 1.下载英文版 2.把下面这段code文本复制到一个新建的记事本txt文档中,然后另存为rarreg.key文件,注意后缀名.txt改为.key才行. ...
接入Gobelieve IM开发平台的DEMO代码
接入Gobelieve IM开发平台的DEMO代码, 请求头部: Authorization: Basic $base64(appid:$hex_md5(appsecret))意思是 appsecre ...
yyy loves Easter_Egg I（恶心的字符串模拟）
题目背景 Soha的出题效率着实让人大吃一惊.OI,数学,化学的题目都出好了,物理的题还没有一道.于是,Huntfire,absi2011,redbag对soha进行轮番炸,准备炸到soha出来,不料 ...
【PTA 天梯赛】L3-002 特殊堆栈（二分）
堆栈是一种经典的后进先出的线性结构,相关的操作主要有“入栈”(在堆栈顶插入一个元素)和“出栈”(将栈顶元素返回并从堆栈中删除).本题要求你实现另一个附加的操作:“取中值”——即返回所有堆栈中元素键值的 ...
Redis之Redis主从复制
概念: 主从复制就是主机数据更新后,根据配置和策略,自动同步到备机的master/slaver机制,Master以写为主,Slave以读为主. 配置: (1)“一主二仆”策略准备三台redis服务器 ...
python七类之集合
集合一.关键字 : set 定义是 s = {} #当里面没有元素的时候表现为字典数据类型 s = {} #空的{}代表空的字典,而不是集合 print(type(s)) 集合是不可哈希的 ...
python 内置调试工具 pdb
除了 pycharm 可以调试python外,python自带的内置工具pdb 也可以调试 python.其命令方式类似于 gdb. pdb 常用的调试命令见下表. 命令解释 break 或 b 设 ...

scrapy （一）

scrapy （一）的更多相关文章

随机推荐

热门专题