Scrapy爬虫框架

发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据

Scarpy框架介绍

1、引擎(EGINE)
　　引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)
　　用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3、下载器(DOWLOADER)
　　用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的

4、爬虫(SPIDERS)
　　SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

5、项目管道(ITEM PIPLINES)
　　在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作
下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
你可用该中间件做以下几件事：
　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
　　(2) change received response before passing it to a spider;
　　(3) send a new Request instead of passing received response to a spider;
　　(4) pass response to a spider without fetching a web page;
　　(5) silently drop some requests.

6、爬虫中间件(Spider Middlewares)
　　位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

Scarpy使用

1、进入终端cmd
　　- scrapy
　　　　C:\Users\administortra>scrapy
　　　　Scrapy 1.6.0 - no active project

2、创建scrapy项目
　　1.创建一个文件夹，专门用于存放scrapy项目
　　　　- D:\Scrapy_prject
　　2.cmd终端输入命令
　　　　scrapy startproject Spider_Project（项目名）
　　　　- 会在 D:\Scrapy_prject文件夹下会生成一个文件
　　　　　　Spider_Project : Scrapy项目文件

3.创建爬虫程序
　　cd Spider_Project # 切换到scrapy项目目录下
　　# 爬虫程序名称目标网站域名
　　scrapy genspider baidu www.baidu.com # 创建爬虫程序

3、启动scrapy项目，执行爬虫程序

　　# 找到爬虫程序文件进行执行
　　scrapy runspider只能执行某个爬虫程序.py
　　# 切换到爬虫程序执行文件目录下
　　　　- cd D:\Scrapy_prject\Spider_Project\Spider_Project\spiders
　　　　- scrapy runspider baidu.py

　　# 根据爬虫名称找到相应的爬虫程序执行
　　scrapy crawl 爬虫程序名称
　　# 切换到项目目录下
　　　　- cd D:\Scrapy_prject\Spider_Project
　　　　- scrapy crawl baidu

Python Learning Day9的更多相关文章

python learning Exception & Debug.py
''' 在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错,以及出错的原因.在操作系统提供的调用中,返回错误码非常常见.比如打开文件的函数open(),成功时返 ...
Python Learning Paths
Python Learning Paths Python Expert Python in Action Syntax Python objects Scalar types Operators St ...
Python Learning
这是自己之前整理的学习Python的资料,分享出来,希望能给别人一点帮助. Learning Plan Python是什么?- 对Python有基本的认识版本区别下载安装 IDE 文件构造 Py ...
python学习day9
目录一.队列二.生产者消费者模型三.协程四.select\poll\epoll 五.paramiko 六.mysql API调用一.队列(queue) 队列分以下三种: class queu ...
python基础 Day9
python Day9 函数的初识 #代码的可读性较好 s=[1,2,3,4,5,5] def list_len(S): count=0 for i in s: count+=1 print(coun ...
How to begin Python learning?
如何开始Python语言学习? 1. 先了解它,Wiki百科:http://zh.wikipedia.org/zh-cn/Python 2. Python, Ruby等语言来自开源社区,社区的学法是V ...
Experience of Python Learning Week 1
1.The founder of python is Guido van Rossum ,he created it on Christmas in 1989, smriti of ABC langu ...
Python Learning: 03
An inch is worth a pound of gold, an inch of gold is hard to buy an inch of time. Slice When the sca ...
Python Learning: 02
OK, let's continue. Conditional Judgments and Loop if if-else if-elif-else while for break continue ...

随机推荐

django 自定义模版过滤器
自定义的模版过滤器必须要放在app中,并且该app必须在INSTALLED_APPS中进行安装.然后再在这个app下面创建一个python包叫做templatetags(这个名字是固定的,不能随意更改 ...
0. GC 前置知识
阅读<垃圾回收的算法与实现>时记录的一些笔记. 对象在GC的世界中,对象表示的是"通过应用程序利用的数据的集合" 头我们将对象中保存对象本身信息的部分称为头.头主要 ...
springboot常见注解 2020-01-19
1,@SpringBootApplication 是springboot的核心注解,用在启动类上,是由 @Configuration 加载spring,配置spring并启动spring容器; 启动容 ...
Maven是什么，如何使用Maven
一.简单的小问题? 1.1.假如你正在Eclipse下开发两个Java项目,姑且把它们称为A.B,其中A项目中的一些功能依赖于B项目中的某些类,那么如何维系这种依赖关系的呢? 很简单,这不就是跟我们之 ...
Activity的生命周期及协同作用
生命周期 onCreate:创建Activity的实例对象的方法 onStart:启动当前的activity实例的方法 onResume:如果该方法执行,页面的实例和用户即可以交互 onPause:如 ...
http协议请求报文与响应报文分析
什么是HTTP协议: HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系统.它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展.目前在WWW中使用 ...
040、Java中逻辑运算之短路与运算“&&”
01.代码如下: package TIANPAN; /** * 此处为文档注释 * * @author 田攀微信382477247 */ public class TestDemo { public ...
TCP/IP 三次握手，四次断开
TCP/IP 三次握手,四次断开一.TCP报文格式 TCP/IP协议的详细信息参看<TCP/IP协议详解>三卷本. 下面是TCP报文格式图: 图 ...
HttpClient测试
导入maven依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson&l ...
循环指令 LOOP
循环程序: 如果需要重复执行若干次同样任务.用循环执行循环指令: LOOP <跳转标号> 用累加器的低字做循环计数器每次执行LOOP 指令的时候,累加器的低字减去1 若减去后非零 , ...

Python Learning Day9

Scrapy爬虫框架

发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据

Scarpy框架介绍

Scarpy使用

Python Learning Day9的更多相关文章

随机推荐

热门专题

　　Scrapy爬虫框架