今日内容：

scrapy各组件

Components：

1、引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。

3、下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的。

4、爬虫(SPIDERS)
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求。

5、项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作。

6、下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
你可用该中间件做以下几件事：
　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
　　(2) change received response before passing it to a spider;
　　(3) send a new Request instead of passing received response to a spider;
　　(4) pass response to a spider without fetching a web page;
　　(5) silently drop some requests.

7、爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

1、进入终端cmd：

        -scrapy

2、创建scrapy项目

    1.创建文件夹存放scrapy项目

        -D:\Scrapy_project\

    2.cmd终端输入命令

    -scrapy starproject Spider_Project

    会在D:\Scrapy_project\下生成文件夹

        -Spider_Project ：Scrapy项目文件

    3.创建好后会提示

        -cd Spider_Project     #切换到scrapy项目目录下

                          #爬虫程序名称   #目标网站域名

        -scrapy genspider  baidu          www.baidu.com     #创建爬虫程序

3.启动scrapy项目，执行爬虫程序

    # 找到爬虫程序文件执行

    scrapy runspider 爬虫程序.py

    # 切换到爬虫程序执行目录下

        -cd D:\Scrapy_project\Spider_Project\Spider_Project\spiders

        -scrapy runspider baidu.py

from scrapy.cmdline import execute

# 写终端命令

# scrapy crawl baidu

# 执行baidu爬虫程序

# execute(['scrapy', 'crawl', 'baidu'])

# 创建爬取链家网程序

# execute(['scrapy', 'genspider', 'lianjia', 'lianjia.com'])

# --nolog     去除日志

execute('scrapy crawl --nolog lianjia'.split(' '))

'''

Scrapy在Pycharm中使用

1.创建scrapy项目

在settings.py文件中有

    -ROBOTSTXT_OBEY = True     #默认遵循robot协议

修改为：

    -ROBOTSTXT_OBEY = False

'''

python_09的更多相关文章

python_09 文件处理流程，文件操作方法
文件处理流程 1.打开文件,得到文件句柄并赋值给一个变量 2.通过句柄对文件进行操作 3.关闭文件 f=open('test.txt',encoding='gbk') data = f.read() ...

随机推荐

RabbitMQ通过DLX实现消息延迟接收
1. 创建队列WorkQueue,并把WorkQueue跟exchangeWork绑定:2. 创建队列DLXQueue,并把DLXQueue跟exchangeDLX绑定:a. 设置DLXQueue队列 ...
Java自动化测试框架-04 - 来给你的测试报告化个妆整个形 - （上）（详细教程）
简介前边通过宏哥的讲解和分享想必小伙伴们和童鞋们都已经见过testng框架生成的测试报告,是不是它的样子和长相实在是不敢让大家伙恭维.那么今天宏哥就当一回美容师,由宏哥来给它美美容:当一回外科医生, ...
史上最骚最全最详细的IO流教程，没有之一！
目录 1.告白IO流的四点明确 2.File类 1.1 File概述 1.2 构造方法 1.3 常用方法 1.3.1 获取功能的方法 1.3.2 绝对路径和相对路径 1.3.3判断功能的方法 1.3. ...
OptimalSolution(2)--二叉树问题（4）子树与拓扑结构
一.判断t1树是否包含t2树全部的拓扑结构 1 / \ 2 3 2 / \ / \ / \ 4 5 6 7 4 5 / \ / / 8 9 10 8 返回:true 解法(O(M×N)):如果t1中某 ...
Spark集群安装与配置
一.Scala安装 1.https://www.scala-lang.org/download/2.11.12.html下载并复制到/home/jun下解压 [jun@master ~]$ cd sc ...
R语言：绘制知识图谱
知识图谱主要是通过将应用数学,图形学,信息可视化技术,信息科学等学科的理论与方法与计量学引文分析.共现分析等方法结合,利用可视化的图谱形象地展示学科的核心结构.发展历史.前沿领域以及整体知识架构达到多 ...
PHP 输出XML字符串
<?php echo htmlentities( $xml_string);?>
Linux Cannot allocate memory问题
查找了一下相关文档,发现这个错误的含义其实就是像它自己说的,没法分配内存了. The problem is inherent with the way Java allocates memory wh ...
MySQL：数据库基本认识
1.什么是数据库通俗来讲,数据库就是用于存储数据的仓库.很多人可能会问,存储数据用文件不就行了吗?为什么还要弄数据库? 文件存储数据具有以下几个缺点: 文件的安全性问题文件不利于查询和数据库管理 ...
golang 包依赖管理 godep 使用
介绍: godep是解决包依赖的管理工具,目前最主流的一种,原理是扫描记录版本控制的信息,并在go命令前加壳来做到依赖管理. 1.安装: go get github.com/tools/godep 2 ...

python_09

今日内容：

scrapy各组件

python_09的更多相关文章

随机推荐

热门专题