今日内容：

scrapy各组件

Components：

1、引擎(EGINE)
引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。

3、下载器(DOWLOADER)
用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的。

4、爬虫(SPIDERS)
SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求。

5、项目管道(ITEM PIPLINES)
在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作。

6、下载器中间件(Downloader Middlewares)位于Scrapy引擎和下载器之间，主要用来处理从EGINE传到DOWLOADER的请求request，已经从DOWNLOADER传到EGINE的响应response，
你可用该中间件做以下几件事：
　　(1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website);
　　(2) change received response before passing it to a spider;
　　(3) send a new Request instead of passing received response to a spider;
　　(4) pass response to a spider without fetching a web page;
　　(5) silently drop some requests.

7、爬虫中间件(Spider Middlewares)
位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests）

1、进入终端cmd：

        -scrapy

2、创建scrapy项目

    1.创建文件夹存放scrapy项目

        -D:\Scrapy_project\

    2.cmd终端输入命令

    -scrapy starproject Spider_Project

    会在D:\Scrapy_project\下生成文件夹

        -Spider_Project ：Scrapy项目文件

    3.创建好后会提示

        -cd Spider_Project     #切换到scrapy项目目录下

                          #爬虫程序名称   #目标网站域名

        -scrapy genspider  baidu          www.baidu.com     #创建爬虫程序

3.启动scrapy项目，执行爬虫程序

    # 找到爬虫程序文件执行

    scrapy runspider 爬虫程序.py

    # 切换到爬虫程序执行目录下

        -cd D:\Scrapy_project\Spider_Project\Spider_Project\spiders

        -scrapy runspider baidu.py

from scrapy.cmdline import execute

# 写终端命令

# scrapy crawl baidu

# 执行baidu爬虫程序

# execute(['scrapy', 'crawl', 'baidu'])

# 创建爬取链家网程序

# execute(['scrapy', 'genspider', 'lianjia', 'lianjia.com'])

# --nolog     去除日志

execute('scrapy crawl --nolog lianjia'.split(' '))

'''

Scrapy在Pycharm中使用

1.创建scrapy项目

在settings.py文件中有

    -ROBOTSTXT_OBEY = True     #默认遵循robot协议

修改为：

    -ROBOTSTXT_OBEY = False

'''

python_09的更多相关文章

python_09 文件处理流程，文件操作方法
文件处理流程 1.打开文件,得到文件句柄并赋值给一个变量 2.通过句柄对文件进行操作 3.关闭文件 f=open('test.txt',encoding='gbk') data = f.read() ...

随机推荐

关于C#界面开发winform与SharpGL结合鼠标只在OpenGLControl绘图区域显示坐标移动消息响应（鼠标单独在某个控件上的消息响应）
原文作者:aircraft 原文链接:https://www.cnblogs.com/DOMLX/p/11773260.html 因为很多时候我们开发画图之类的工具时,鼠标移动之类的,都只想在绘图区域 ...
String s=new String("123") 创建了两个对象,及证明
这个问题百度上有很多答案有一次面试的时候,面试官也提到了这个问题.我回答了两个对象,并且解释了一个对象是 "123" 存在了字符串常量池,另一个是 s 所引用的堆中的对象. 但是 ...
springboot整合Shiro功能案例
Shiro 核心功能案例讲解基于SpringBoot 有源码从实战中学习Shiro的用法.本章使用SpringBoot快速搭建项目.整合SiteMesh框架布局页面.整合Shiro框架实现用身份认 ...
Java基础（二十三）集合（6）Map集合
Map接口作为Java集合框架中的第二类接口,其子接口为SortedMap接口,SortedMap接口的子接口为NavigableMap接口. 实现了Map接口具体类有:HashMap(子类Linke ...
nginx高可用集群
1.配置: (1)需要两台nginx服务器 (2)需要keepalived (3)需要虚拟ip 2.配置高可用的准备工作 (1)需要两台服务器192.168.180.113和192.168.180.1 ...
ios发送短信验证码计时器的swift实现
转载自:http://www.jianshu.com/p/024dd2d6e6e6# Update: Xcode 8.2.1 Swift 3 先介绍一下属性观测器(Property Observer ...
python str的一些操作及处理
一.str的定义:Python中凡是用引号引起来的数据可以称为字符串类型,组成字符串的每个元素称之为字符,将这些字符一个一个连接起来,然后在用引号起来就是字符串. 二.str的简单操作方法: conu ...
maven项目部署到tomcat方法
今天记录下,maven项目部署到服务器的过程 1.首先在ide中里将自己的maven项目打包 mvn clean install 2. 看是否需要修改war包的名字,如果要修改,就用命令 mv xxx ...
CSPS模拟 93
恰饭的时候lsc说我颓颓废废是要ak的前兆所以我rp掉光了=.= T1 思维一片混乱 T2 只会n^3 发现决策单调性,但没想全只知道$determin(l,r)>=determin(l,r ...
ITester软件测试小栈，快来点击领取你的能量值！
日供一卒,功不唐捐,这不是一个非正常更新的ITester软件测试小栈,不定期分享软件测试相关,包括功能.接口.自动化.性能.专项.测试开发,简历指点,面试助攻,群而不党,和而不同,如趋同,且同行.

python_09

今日内容：

scrapy各组件

python_09的更多相关文章

随机推荐

热门专题