创建项目

执行命令

scrapy startproject <项目名>

项目结构

创建爬虫文件

方式一：通过命令生成

scrpay genspider <爬虫名(必须唯一)> <domain>

<爬虫名>： 必须时唯一的

<domain>: 这个随意填，因为后期会修改爬虫文件中的start_url属性。

方式二：在项目的spider包下，自己编写一个类，并继承爬虫类（Spider或CrawlSpider）

"""

CrawlSpider类型的爬虫会根据指定的rules规则自动找到url比自动爬取。

优点：适合整站爬取，自动翻页爬取

缺点：比较难以通过meta传参，只适合一个页面就能拿完数据的。

"""

class TaobaoSpider(CrawlSpider):

    name = "taobao"

    allowed_domains = ["taobao.com"]

    start_urls = ["https://taobao.com"]

    # crawl类型的爬虫特有的规则定义

    rules = (

        # LinkExtractor链接提取类，根据allow定义的正则表达式从网页源码中提取url链接

        Rule(LinkExtractor(allow=r"Items/"), callback="parse_item", follow=True),

        Rule(LinkExtractor(allow=r"Items/"), callback="parse_detail", follow=False),

    )

    def parse_item(self, response):

        item = {}

        #item["domain_id"] = response.xpath('//input[@id="sid"]/@value').get()

        #item["name"] = response.xpath('//div[@id="name"]').get()

        #item["description"] = response.xpath('//div[@id="description"]').get()

        return item

Scrapy创建项目、爬虫文件的更多相关文章

第三百四十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
第三百四十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制用命令创建自动爬虫文件创建爬虫文件是根据scrap ...
二十三 Python分布式爬虫打造搜索引擎Scrapy精讲—craw母版l创建自动爬虫文件—以及 scrapy item loader机制
用命令创建自动爬虫文件创建爬虫文件是根据scrapy的母版来创建爬虫文件的 scrapy genspider -l 查看scrapy创建爬虫文件可用的母版 Available templates: ...
scrapy的安装，scrapy创建项目
简要: scrapy的安装 # 1)pip install scrapy -i https://pypi.douban.com/simple(国内源) 一步到位 # 2) 报错1: building ...
使用Scrapy创建一个爬虫
使用Scrapy创建一个爬虫创建项目您可以使用下面的命令来创建 Scrapy 项目: scrapy startproject 项目名称例:scrapy startproject scrapy_p ...
Scrapy创建zentao爬虫
1.安装好Scrapy爬虫框架 2.切换到F盘的wooyun目录下执行:scrapy startproject zentao 这个命令会在当前目录下创建一个新目录zentao,它的结构如下:
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...
GUI Design Studio——如何创建项目展示文件
打开一个做好的项目,我这次以系统自带的 welcome项目做示例选择左上角的File->Create Distribution File... 我需要的是整个项目,所以选择了The whol ...
Scrapy创建项目问题
创建项目时报错 ModuleNotFoundError: No module named 'cryptography.hazmat.bindings._constant_time' pip insta ...
python爬虫框架—Scrapy安装及创建项目
linux版本安装 pip3 install scrapy 安装完成 windows版本安装 pip install wheel 下载twisted,网址:http://www.lfd.uci.edu ...
scrapy系列（二）——startproject、genspider创建项目与模板使用
阅读本文之前需要安装scrapy,如果你还没有安装该框架,那么可以看之前一篇文章scrapy1.2windows安装. 现在默认大家都已经成功的安装了scrapy可以开始大展身手了.本文主要讲的是新建 ...

随机推荐

textarea自动适应高度
textarea自动适应高度,兼容IE/Firefox.chrome 代码:<textarea name="textarea" id="textarea" ...
dedebiz 清理冗余废弃未引用图片方法
原理描述: 在原有织梦后台菜单中增加"清理冗余图片按钮",实现清理冗余图片的功能. 操作步骤: 1. 打开后台admin\sys_sql_query.php代码在该文件中搜索如下 ...
专为小白打造—Kafka一篇文章从入门到入土
一.什么是Kafka MQ消息队列作为最常用的中间件之一,其主要特性有:解耦.异步.限流/削峰. Kafka 和传统的消息系统(也称作消息中间件)都具备系统解耦.冗余存储.流量削峰.缓冲.异步通信.扩 ...
Graph RAG: 知识图谱结合 LLM 的检索增强
本文为大家揭示 NebulaGraph 率先提出的 Graph RAG 方法,这种结合知识图谱.图数据库作为大模型结合私有知识系统的最新技术栈,是 LLM+ 系列的第三篇,加上之前的图上下文学习.Te ...
Skywalking APM监控系列(二、Mysql、Linux服务器与前端JS接入Skywalking监听)
前言上篇我们介绍了Skywalking的基本概念与如何接入.Net Core项目,感兴趣可以去看看: Skywalking APM监控系列(一丶.NET5.0+接入Skywalking监听) 本篇我 ...
K8S太庞大，这款PasteSpider绝对适合你！一款轻量级容器部署管理工具
PasteSpider采用.netcore编写,运行于linux服务器的docker/podman里面,涉及的技术或者工具有podman/docker,registry,nginx,top,ssh,g ...
小白CNN入门指导
小白CNN入门指导这几天一直在小白入门学习卷积层以准备组会,以下是我自学理解内容,若有错误的地方请各位评论指出数学部分一卷积层 \[输入 32*32*3 (input neurons) \] ...
Windows下VC++编译器32位memcpy、memmove函数汇编代码详解
整理者:赤勇玄心行天道 QQ号:280604597 微信号:qq280604597 QQ群:511046632 博客:www.cnblogs.com/gaoyaguo blog.csdn.net/c ...
自定义MyBatis拦截器更改表名
by emanjusaka from https://www.emanjusaka.top/archives/10 彼岸花开可奈何本文欢迎分享与聚合,全文转载请留下原文地址. 自定义MyBati ...
ExcelPatternTool 开箱即用的Excel工具包现已发布！
目录 ExcelPatternTool 功能特点: 快速开始使用说明常规类型高级类型 Importable注解 Exportable注解 IImportOption导入选项 IExportOp ...

Scrapy创建项目、爬虫文件

创建项目

项目结构

创建爬虫文件

Scrapy创建项目、爬虫文件的更多相关文章

随机推荐

热门专题