scrapy知识补充--scrapy shell 及Spider

温良Miner 2024-09-01 01:03:18 原文

什么是scrapy shell?

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试xpath或css表达是，来查看他们的工作方式，方便爬取页面中的数据。

selector选择器（scrapy内置）

Selecctor有四个基本方法，最常用的还是xpath:

xpath():传入xpath表达式，返回该列表所对应的所有节点的selector的list
extract():序列化该节点为Unicode字符串，并返回list
css():传入css表达式，返回该表达式的所对应的所有节点的list列表，语法同BeautifulSoup4
re():根据传入的正则表达式对数据进行提取，返回Unicode字符串列表

Spider是做什么的？

什么是Spider?

Spider类定义了如何爬取某个（某些）网站。包括爬取动作（例如：是否跟进链接）以及如何从昂也中提取结构化数据（爬取的item）。换句话说，spider就是已经定义的爬取动作以及分析某个网页的地方。

Spider的属性和方法

主要属性和方法：

name:定义spider名字的字符串。例如，如果spider爬取website.com,该spider通常会被命名为website

allowed_domains:包含了允许爬取的域名（domain）的列表，可选。

start_url：初始URL的元祖或列表。当没有给定特定的url时，spider将从该列表中开始进行爬取。

start_requests(self):该方法返回一个可迭代对象（iterable）。该对象包含了spider用于爬取（默认实现是用start_url中的url）的第一个Request。

parse(self, response):当请求url返回网页没有指定回调函数时，默认的Request对象回调函数。用来处理网页返回的response，以及生成的item或Request对象。

怎样编写Spider爬取数据？

参见：

scrapy知识补充--scrapy shell 及Spider的更多相关文章

4-5 Scrapy知识补充
FormRequest FormRequest类是专门用来处理HTML表单的,同时对隐藏的表单处理也很方便.适合用来完成登录操作. 类原型:class scrapy.http.FormRequest( ...
scrapy知识积累
Scrapy 中文文档https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html 创建项目 scrapy startproje ...
34、Scrapy 知识总结
Scrapy 知识总结 1.安装 pip install wheel pip install https://download.lfd.uci.edu/pythonlibs/q5gtlas ...
Scrapy框架学习（三）Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法
Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...
Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）
Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作 ...
Scrapy 'module' object has no attribute 'Spider'错误
在“Scrapy入门教程”中,在创建的“dmoz_spider.py”文件中是通过 import scrapy class DmozSpider(scrapy.Spider): 的方式导入.但是用这种 ...
第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或 ...
scrapy基础知识之 scrapy 三种模拟登录策略：
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENA ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...

随机推荐

MySQL、Oracle、SqlServer的区别
鉴于和数据库打交道日益频繁,遂决定写一篇关于Oracle.SqlServer.MySQL区别的个人观点. MySQL是大学时的主要学习对象,但刚参加工作时转到了SqlServer,现在主要接触的是Or ...
[翻译]Jupyter notebook .NET Core 内核预览1
当您想到Jupyter Notebooks时,您可能会考虑使用Python,R,Julia或Scala而不是.NET编写代码. 今天,我们很高兴宣布您可以在Jupyter Notebooks中编写.N ...
Tesseract引擎编译
1. 工具包下载链接 libtiff 4.09 http://download.osgeo.org/libtiff/tiff-4.0.9.zip leptonica 1.76.0 http://www ...
（七）golang-变量之基本数据类型（看这篇就够了）
1.整数类型类型有无符号占用存储空间表示范围备注 int8 有 1字节 -2**7~2**7-1 int16 有 2字节 -2**15~2**15-1 int32 有 4字节 -2* ...
[数据同步]Flume 抽取Mysql历史数据
一.Flume安装目录 1.安装部署目录 [admin@test01 apache-flume-1.9.0-bin]$ pwd /opt/apache-flume-1.9.0-bin 2.将所需jar ...
[考试反思]0813NOIP模拟测试20
咕了两天,补一下. 4个AK的,210是第10,190的第15并列一大排,我个傻子160排第29. 历史新低,但是心态还好. 真是没想到会一天考两场.中午没回去睡觉晚上考试... 困倒是其次,关键还是 ...
js的ajax请求
1 js原生get请求 <script> window.onload = function(){ var oBtn = document.getElementById('btn'); oB ...
8*8LED点阵
基础认识 1.5英寸LED点阵管数码管8*8红色16pin 有如下两种型号: 共阳1588BS 共阴1588AS 共阴1588AS 共阳1588BS 编程导向共阴和共阳其编程思路基本类似,只是对应I ...
期末考试（正解：三分单峰函数 me～）
好久没有水过杂题了! 今天lsc终于刚过了三道考试题来水杂题了! 期末考试首先一看还是一脸mb(这是正常现象,毕竟我不像一些大神可以一眼出正解)然后我就被颓了标签,知道是三分单峰函数,但是自己实在是 ...
机器学习之Anaconda介绍
Anaconda Distribution 最受欢迎的Python / R数据科学发行版轻松安装1,400多个Python / R数据科学包并管理您的包,依赖项和环境 - 只需单击一下按钮即可.免 ...