创建项目

执行命令

scrapy startproject <项目名>

项目结构

创建爬虫文件

方式一：通过命令生成

scrpay genspider <爬虫名(必须唯一)> <domain>

<爬虫名>： 必须时唯一的

<domain>: 这个随意填，因为后期会修改爬虫文件中的start_url属性。

方式二：在项目的spider包下，自己编写一个类，并继承爬虫类（Spider或CrawlSpider）

"""

CrawlSpider类型的爬虫会根据指定的rules规则自动找到url比自动爬取。

优点：适合整站爬取，自动翻页爬取

缺点：比较难以通过meta传参，只适合一个页面就能拿完数据的。

"""

class TaobaoSpider(CrawlSpider):

    name = "taobao"

    allowed_domains = ["taobao.com"]

    start_urls = ["https://taobao.com"]

    # crawl类型的爬虫特有的规则定义

    rules = (

        # LinkExtractor链接提取类，根据allow定义的正则表达式从网页源码中提取url链接

        Rule(LinkExtractor(allow=r"Items/"), callback="parse_item", follow=True),

        Rule(LinkExtractor(allow=r"Items/"), callback="parse_detail", follow=False),

    )

    def parse_item(self, response):

        item = {}

        #item["domain_id"] = response.xpath('//input[@id="sid"]/@value').get()

        #item["name"] = response.xpath('//div[@id="name"]').get()

        #item["description"] = response.xpath('//div[@id="description"]').get()

        return item

Scrapy创建项目、爬虫文件的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
scrapy的安装，scrapy创建项目
简要: scrapy的安装 # 1)pip install scrapy -i https://pypi.douban.com/simple(国内源) 一步到位 # 2) 报错1: building ...
使用Scrapy创建一个爬虫
使用Scrapy创建一个爬虫创建项目您可以使用下面的命令来创建 Scrapy 项目: scrapy startproject 项目名称例:scrapy startproject scrapy_p ...
Scrapy创建zentao爬虫
1.安装好Scrapy爬虫框架 2.切换到F盘的wooyun目录下执行:scrapy startproject zentao 这个命令会在当前目录下创建一个新目录zentao,它的结构如下:
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
GUI Design Studio——如何创建项目展示文件
打开一个做好的项目,我这次以系统自带的 welcome项目做示例选择左上角的File->Create Distribution File... 我需要的是整个项目,所以选择了The whol ...
Scrapy创建项目问题
创建项目时报错 ModuleNotFoundError: No module named 'cryptography.hazmat.bindings._constant_time' pip insta ...
python爬虫框架—Scrapy安装及创建项目
linux版本安装 pip3 install scrapy 安装完成 windows版本安装 pip install wheel 下载twisted,网址:http://www.lfd.uci.edu ...
scrapy系列（二）——startproject、genspider创建项目与模板使用
阅读本文之前需要安装scrapy,如果你还没有安装该框架,那么可以看之前一篇文章scrapy1.2windows安装. 现在默认大家都已经成功的安装了scrapy可以开始大展身手了.本文主要讲的是新建 ...

随机推荐

如何将项目打包上传到NuGet服务器？
作者:西瓜程序猿主页传送门:https://www.cnblogs.com/kimiliucn 前言在我写[在.NET Framework中使用RocketMQ(阿里云版)]这篇博客的时候,因为封 ...
【译】在 Visual Studio 2022 中安全地在 HTTP 请求中使用机密
在 Visual Studio 2022 的17.8 Preview 1版本中,我们更新了 HTTP 文件编辑器,使您能够外部化变量,从而使跨不同环境的 Web API 测试更容易.此更新还包括以安全 ...
SQL Server更改表字段顺序和表结构
1.首先打开SqlServer,SSMS可视化工具.点击工具,再点选项. 2.在弹出的选项窗口中,点击Desinners,点击表设计和数据库设计器,将阻止保护勾去掉.点"确定" 3 ...
国庆微信头像DIY：轻松打造个性化头像
前言国庆节马上要到了,今天就教你如何从0到1使用canvas生成国庆风微信头像. 本文包含以下内容: vue3项目搭建,需求分析 canvas合成图片原理 github自动化部署开发过程遇到的问题 ...
“&”控制命令的运行方式
在Unix.Linux和类Unix系统中,& 符号有特定的意义,用于控制命令的运行方式.具体来说,& 在命令末尾使用时表示将该命令放入后台运行. 前台运行: 如果你在终端输入一个命令, ...
C++ 对拍详解和解读
对拍是什么# 对拍,是一个比较实用的工具.它能够非常方便地对于两个程序的输出文件进行比较,可以帮助我们实现一些自动化的比较输出结果的问题. 众所周知,几乎每一道编程题目,都会有某种正解能拿到满分: ...
DeepSpeed框架：1-大纲和资料梳理
DeepSpeed是一个深度学习优化软件套件,使分布式训练和推理变得简单.高效和有效.它可以做些什么呢?训练/推理具有数十亿或数万亿参数的密集或稀疏模型:实现出色的系统吞吐量并有效扩展到数千个GP ...
docker入门加实战—docker数据卷
docker入门加实战-docker数据卷容器是隔离环境,容器内程序的文件.配置等都在容器的内部,要读写容器内的文件非常不方便. 因此,容器提供程序的运行环境,但是程序运行产生的数据.程序运行依赖的 ...
Spring扩展接口（3）：BeanFactoryPostProcessor
在此系列文章中,我总结了Spring几乎所有的扩展接口,以及各个扩展点的使用场景.并整理出一个bean在spring中从被加载到最终初始化的所有可扩展点的顺序调用图.这样,我们也可以看到bean是如何 ...
C#基数排序算法
前言基数排序是一种非比较性排序算法,它通过将待排序的数据拆分成多个数字位进行排序. 实现原理首先找出待排序数组中的最大值,并确定排序的位数. 从最低位(个位)开始,按照个位数的大小进行桶排序,将元 ...

Scrapy创建项目、爬虫文件

创建项目

项目结构

创建爬虫文件

Scrapy创建项目、爬虫文件的更多相关文章

随机推荐

热门专题