Python Scrapy项目创建（基础普及篇）

在使用Scrapy开发爬虫时，通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目：

scrapy startproject ZhipinSpider

在上面命令中，scrapy 是Scrapy 框架提供的命令；startproject 是 scrapy 的子命令，专门用于创建项目；ZhipinSpider 就是要创建的项目名。

scrapy 除提供 startproject 子命令之外，它还提供了 fetch（从指定 URL 获取响应）、genspider（生成蜘蛛）、shell（启动交互式控制台）、version（查看 Scrapy 版本）等常用的子命令。可以直接输入 scrapy 来查看该命令所支持的全部子命令。

运行上面命令，将会看到如下输出结果：

New Scrapy project 'ZhipinSpider', using template directory 'd:\python3.6\lib\site-packages\scrapy\templates\project', created in:

    C:\Users\mengma\ZhipinSpider

You can start your first spider with:

    cd ZhipinSpider

    scrapy genspider example example.com

上面信息显示 Scrapy 在当前目录下创建了一个 ZhipinSpider 项目，此时在当前目录下就可以看到一个 ZhipinSpider 目录，该目录就代表 ZhipinSpider 项目。

查看 ZhipinSpider 项目，可以看到如下文件结构：

ZhipinSpider

  │  scrapy.cfg

  │

  └──ZhipinSpider

      │  item.py

      │  middlewares.py

      │  pipelines.py

      │  setting.py

      │

      ├─ spiders

      │    │  __init__.py

      │    │

      │    └─ __pycache__

      └─ __pycache__

下面大致介绍这些目录和文件的作用：

scrapy.cfg：项目的总配置文件，通常无须修改。
ZhipinSpider：项目的 Python 模块，程序将从此处导入 Python 代码。
ZhipinSpider/items.py：用于定义项目用到的 Item 类。Item 类就是一个 DTO（数据传输对象），通常就是定义 N 个属性，该类需要由开发者来定义。
ZhipinSpider/pipelines.py：项目的管道文件，它负责处理爬取到的信息。该文件需要由开发者编写。
ZhipinSpider/settings.py：项目的配置文件，在该文件中进行项目相关配置。
ZhipinSpider/spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息。

　　为了更好地理解 Scrapy 项目中各组件的作用，下面给出 Scrapy 概览图，如图 1 所示。

图 1 Scrapy 概览图

在图 1 中可以看到，Scrapy 包含如下核心组件：

调度器：该组件由 Scrapy 框架实现，它负责调用下载中间件从网络上下载资源。
下载器：该组件由 Scrapy 框架实现，它负责从网络上下载数据，下载得到的数据会由 Scrapy 引擎自动交给蜘蛛。
蜘蛛：该组件由开发者实现，蜘蛛负责从下载数据中提取有效信息。蜘蛛提取到的信息会由 Scrapy 引擎以 Item 对象的形式转交给 Pipeline。
Pipeline：该组件由开发者实现，该组件接收到 Item 对象（包含蜘蛛提取的信息）后，可以将这些信息写入文件或数据库中。

经过上面分析可知，使用 Scrapy 开发网络爬虫主要就是开发两个组件，蜘蛛和 Pipeline。

Python Scrapy项目创建（基础普及篇）的更多相关文章

Scrapy项目创建以及目录详情
Scrapy项目创建已经目录详情一.新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目.进入自定义的项目目录中,运行下列命令: PS C:\scra ...
python Django 项目创建
注:后续如不特色说明,使用python版本均为python3 创建项目 django-admin startproject projectName 启动服务 python manage.py runs ...
python django项目创建及前期准备（使用pycharm）
一.创建django项目 1.打开pycharm软件 2.点击菜单栏 File-->New Project,弹出如下对话框,如下图设置二.基本配置 1.静态文件目录配置(用于客户端访问后台服务 ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
Python -- Scrapy 框架简单介绍（Scrapy 安装及项目创建）
Python -- Scrapy 框架简单介绍最近在学习python 爬虫,先后了解学习urllib.urllib2.requests等,后来发现爬虫也有很多框架,而推荐学习最多就是Scrapy框架 ...
cocos2dx基础篇(1) Cocos2D-X项目创建
已经入行工作半年多时间了,以前都是把这些东西记录在有道云上面的,现在抽出些时间把以前的笔记腾过来. 具体的环境配置就不用说了,因为现在已经是2018年,只需要下载对应版本解压后就能使用,不用再像多年前 ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
（转）Python成长之路【第九篇】：Python基础之面向对象
一.三大编程范式正本清源一:有人说,函数式编程就是用函数编程-->错误1 编程范式即编程的方法论,标识一种编程风格大家学习了基本的Python语法后,大家就可以写Python代码了,然后每个 ...

随机推荐

推荐一款好用的任务定时器：Quartz
前言官网:https://www.quartz-scheduler.net/ 一款开源的任务定时器. 日常有很多地方需要定时刷新的,比如微信开发中的微信API token,或者定时清理一下缓存数据等 ...
Docker最全教程——MongoDB容器化（十二）
MongoDB容器化 MongoDB是一个免费的.开源的.跨平台分布式面向文档存储的数据库,由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和 ...
dotnet core 微服务教程
这个教程主要是对于第一次使用dotnet core开发的同学. 运行环境是在centos 7 , 使用了docker容器. 即这是一篇运行在linux的docker容器上的微服务的简单应用. 一. 安 ...
json格式处理及扩展
<script src="http://apps.bdimg.com/libs/jquery/2.1.4/jquery.js"></script> < ...
C#的Lock
有时候在编写线程并发的时候需要考虑异步和同步的问题.有些资源只能是一个线程访问,其他的线程在这个线程没有释放资源前不能访问.类似于操作系统中临界资源的访问.C#Lock包裹的代码块具有原子操作的特性( ...
Less与TypeScript的简单理解与应用，并使用WebPack打包静态页面
既然选择了远方,便只顾风雨兼程 __ HANS许系列:零基础搭建前后端分离项目系列:零基础搭建前后端分离项目创建空项目使用Less 使用TypeScript 使用WebPack 开始写项目总 ...
Struts2笔记_拦截器
A.拦截器是什么 --- Interceptor:拦截器,起到拦截Action的作用. ---Filter:过滤器,过滤从客户端向服务器发送的请求. ---Interceptor:拦截器,拦截是客户端 ...
vue中使用provide和inject刷新当前路由（页面）
1.场景在处理列表时,常常有删除一条数据或者新增数据之后需要重新刷新当前页面的需求. 2.遇到的问题 1. 用vue-router重新路由到当前页面,页面是不进行刷新的 2.采用window.rel ...
自动化测试 Appium之Python运行环境搭建 Part2
Appium之Python运行环境搭建 Part2 by:授客 QQ:1033553122 实践环境参见 Appium之Python运行环境搭建 Part1 环境部署 1.安装Android SDK ...
1 minute教会你shell
Shell模板 #!/bin/bash ####################################################### # $Name: shell_template. ...

Python Scrapy项目创建（基础普及篇）

Python Scrapy项目创建（基础普及篇）的更多相关文章

随机推荐

热门专题