Scrapy下载与框架搭建

Scrapy作为一种爬虫框架，并不是能够拓展你能够爬取的范围，而是对大项目的扩展性，运行速度等有所提升，能够在更短的时间内部署一个结构更完整的爬虫。由于本人仍在学习Scrapy，本篇类似于笔记性质的文章仅作参考，若有任何不周之处还请指出。

另外，如果对Python爬虫不熟悉，建议先去学习requests+selenium两个库，如果对于Python还不熟悉，那建议从Python入门开始学习

Scrapy安装

安装Scrapy可以非常简单，一般情况下可以直接通过pip进行安装：

pip install scarpy

️️️

如果你的安装出现了问题，可以进行手动安装：

首先需要安装lxml

pip install lxml：

再安装pyOpenSSL、Twisted 以及 PyWin32，最后再安装Scrapy

另外，记得把Scrapy的位置加入环境变量

在Scrapy安装完成后，打开cmd输入"scrapy"可以进行测试，如果相应如下图则安装配置成功。

Scrapy框架搭建

在Scrapy安装完成之后，可以在cmd中搭建这个框架。按win+R输入cmd运行，打开命令行窗口。

当然，如果你想要切换工作目录到指定位置，可以按住shift右键文件夹，选择“在终端中打开”，则可以在你想要创建框架的位置打开命令行窗口：

打开命令行窗口后，输入scrapy startproject [项目名称]

这里采用有趣网址之家网站作为例子（仅供研究教学使用），所以项目名称为yqwz,如图：

可以看到，命令行有了这样的提示：

You can start your first spider with:

cd yqwz

scrapy genspider example example.com

在此使用cd yqwz切换工作目录，进入 sample\yqwz 目录：

接着可使用scrapy genspider [爬虫名称] [爬虫限制网站]自动生成爬虫文件

此处使用：scrapy genspider yq youquhome.com创建

️注意：创建的这个爬虫文件不能和项目有相同的名字

至此，项目框架便以及搭建完成了。

Scrapy学习(一) Scrapy下载与框架搭建的更多相关文章

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（九）之文件与图片下载
Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方 ...
Scrapy学习(一)、Scrapy框架和数据流
Scrapy是用python写的爬虫框架,架构图如下: 它可以分为如下七个部分: 1.Scrapy Engine:引擎,负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发时间. 2.Sche ...
Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
.net转php laraval框架学习系列（一）环境搭建
之前也没写过什么博客,可能文章结构比较混乱,想到那写到哪. 主要是把自己学习中的经验写下来. 为什么选择laravel框架,是因为laravel框架目前是Php最流行的框架,深入研究后发现和asp.n ...
Scrapy学习篇（十一）之设置随机User-Agent
大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我 ...
Scrapy学习篇（五）之Spiders
Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...
Scrapy学习篇（三）之创建项目和Scrapy的安装
安装Scrapy 了解了Scrapy的框架和部分命令行之后,创建项目,开始使用之前,当然是安装Scrapy框架了. 关于Scrapy框架的安装,请参考:https://cuiqingcai.com/5 ...

随机推荐

C# HttpWebRequest 请求返回 The remote server returned an error: (400) Bad Request.
可以看下他的响应Body catch (WebException ex) { if (ex.Status == WebExceptionStatus ...
vue中的div 拖拽
封装指令 const vDraggable = { mounted(el) { let pos1 = 0, pos2 = 0, pos3 = 0, pos4 = 0; el.onmousedown = ...
如何通过命令行wifi上网 linux
步骤 ifconfig wlan0 up wpa_supplicant -Dnl80211 -iwlan0 -c/wpa1.conf & 在/etc/resolv.conf 中写入 DNS的配 ...
opengl 学习之 08 lesson
opengl 学习之 08 lesson 简介基础的光照渲染.漫反射,镜面反射,环境光. 光的主要计算在GLSL里面的碎片着色器中编写. link http://www.opengl-tutori ...
SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数): linalg + Proba.&Stats.. 大部分数学理论在 NumPy/PyData 的实现、运用和可视化
SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数) linalg. 大部分数学理论在 NumPy/PyData 的实现及运用 import nu ...
SciTech-EECS-PCB电路板设计-深思熟虑方可行动：使用KiCad进行PCB设计的基本流程
聚焦人生的社交网.时间.精力.资源:人生方有成. 明确需求与产品设计: 大体的ideal开始,到深思熟虑,联系各方都通过,制定完好的计划方可行动. 是否已有成熟商品:直接采购即可? 目标用户群: 市场 ...
explain 分析sql语句字段的解释
执行后基本信息 id select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序.一般有三种情况: 第一种:id全部相同,sql的执行顺序是由上至下: 第二种:id全部不同,s ...
CenterOs7安装redis
CenterOs7安装redis 1.redis的安装 1.1 下载redis 从官网下载redis,并且上传到服务器的安装位置 1.2 安装redis ①解压redis,执行tar -zxvf 安装 ...
Linux CentOS 7系统固定网卡名称和MAC地址操作步骤
以下是CentOS 7系统中固定网卡名称和MAC地址的详细操作流程,确保ip a或ifconfig显示修改后的结果: 一.固定网卡名称 ⚙️ 方法1:通过udev规则绑定(推荐) ...
modbus移植到S32K146
1.认识 modbus协议在工程应用领域非常广泛,本质上通过UART串口让主机和从机之间进行通信,modbus移植需要的知识涉及到:串口电路(485或者232),UART驱动,modbus协议 UAR ...

Scrapy学习(一) Scrapy下载与框架搭建

Scrapy下载与框架搭建

Scrapy安装

Scrapy框架搭建

Scrapy学习(一) Scrapy下载与框架搭建的更多相关文章

随机推荐

热门专题