Scrapy学习(一) Scrapy下载与框架搭建
Scrapy下载与框架搭建
Scrapy作为一种爬虫框架,并不是能够拓展你能够爬取的范围,而是对大项目的扩展性,运行速度等有所提升,能够在更短的时间内部署一个结构更完整的爬虫。由于本人仍在学习Scrapy,本篇类似于笔记性质的文章仅作参考,若有任何不周之处还请指出。
另外,如果对Python爬虫不熟悉,建议先去学习requests+selenium两个库,如果对于Python还不熟悉,那建议从Python入门开始学习
Scrapy安装
安装Scrapy可以非常简单,一般情况下可以直接通过pip进行安装:
pip install scarpy
️️️
如果你的安装出现了问题,可以进行手动安装:
首先需要安装lxml
pip install lxml:
再安装pyOpenSSL、Twisted 以及 PyWin32,最后再安装Scrapy
另外,记得把Scrapy的位置加入环境变量
在Scrapy安装完成后,打开cmd输入"scrapy"可以进行测试,如果相应如下图则安装配置成功。

Scrapy框架搭建
在Scrapy安装完成之后,可以在cmd中搭建这个框架。按win+R输入cmd运行,打开命令行窗口。
当然,如果你想要切换工作目录到指定位置,可以按住shift右键文件夹,选择“在终端中打开”,则可以在你想要创建框架的位置打开命令行窗口:
打开命令行窗口后,输入scrapy startproject [项目名称]
这里采用有趣网址之家网站作为例子(仅供研究教学使用),所以项目名称为yqwz,如图:

可以看到,命令行有了这样的提示:
You can start your first spider with:
cd yqwz
scrapy genspider example example.com
在此使用cd yqwz切换工作目录,进入 sample\yqwz 目录:
接着可使用scrapy genspider [爬虫名称] [爬虫限制网站]自动生成爬虫文件
此处使用:scrapy genspider yq youquhome.com创建
️注意:创建的这个爬虫文件不能和项目有相同的名字
至此,项目框架便以及搭建完成了。
Scrapy学习(一) Scrapy下载与框架搭建的更多相关文章
- Scrapy学习篇(十)之下载器中间件(Downloader Middleware)
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
- Scrapy学习篇(九)之文件与图片下载
Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方 ...
- Scrapy学习(一)、Scrapy框架和数据流
Scrapy是用python写的爬虫框架,架构图如下: 它可以分为如下七个部分: 1.Scrapy Engine:引擎,负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发时间. 2.Sche ...
- Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装 首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...
- scrapy学习(完全版)
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架 下载页面 解析页面 并发 深度 安装 scrapy学习教程 如果安装了anconda,可以在anacon ...
- python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
- .net转php laraval框架学习系列(一) 环境搭建
之前也没写过什么博客,可能文章结构比较混乱,想到那写到哪. 主要是把自己学习中的经验写下来. 为什么选择laravel框架,是因为laravel框架目前是Php最流行的框架,深入研究后发现和asp.n ...
- Scrapy学习篇(十一)之设置随机User-Agent
大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我 ...
- Scrapy学习篇(五)之Spiders
Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...
- Scrapy学习篇(三)之创建项目和Scrapy的安装
安装Scrapy 了解了Scrapy的框架和部分命令行之后,创建项目,开始使用之前,当然是安装Scrapy框架了. 关于Scrapy框架的安装,请参考:https://cuiqingcai.com/5 ...
随机推荐
- C# HttpWebRequest 请求返回 The remote server returned an error: (400) Bad Request.
可以看下他的响应Body catch (WebException ex) { if (ex.Status == WebExceptionStatus ...
- vue中的div 拖拽
封装指令 const vDraggable = { mounted(el) { let pos1 = 0, pos2 = 0, pos3 = 0, pos4 = 0; el.onmousedown = ...
- 如何通过命令行wifi上网 linux
步骤 ifconfig wlan0 up wpa_supplicant -Dnl80211 -iwlan0 -c/wpa1.conf & 在/etc/resolv.conf 中写入 DNS的配 ...
- opengl 学习 之 08 lesson
opengl 学习 之 08 lesson 简介 基础的光照渲染.漫反射,镜面反射,环境光. 光的主要计算在GLSL里面的碎片着色器中编写. link http://www.opengl-tutori ...
- SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数): linalg + Proba.&Stats.. 大部分数学理论 在 NumPy/PyData 的实现、运用 和 可视化
SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数) linalg. 大部分数学理论 在 NumPy/PyData 的实现及运用 import nu ...
- SciTech-EECS-PCB电路板设计-深思熟虑方可行动 :使用KiCad进行PCB设计的基本流程
聚焦人生的社交网.时间.精力.资源:人生方有成. 明确需求与产品设计: 大体的ideal开始,到深思熟虑,联系各方都通过,制定完好的计划方可行动. 是否已有成熟商品:直接采购即可? 目标用户群: 市场 ...
- explain 分析sql语句字段的解释
执行后基本信息 id select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序.一般有三种情况: 第一种:id全部相同,sql的执行顺序是由上至下: 第二种:id全部不同,s ...
- CenterOs7安装redis
CenterOs7安装redis 1.redis的安装 1.1 下载redis 从官网下载redis,并且上传到服务器的安装位置 1.2 安装redis ①解压redis,执行tar -zxvf 安装 ...
- Linux CentOS 7系统固定网卡名称和MAC地址操作步骤
以下是CentOS 7系统中固定网卡名称和MAC地址的详细操作流程,确保ip a或ifconfig显示修改后的结果: 一.固定网卡名称 ⚙️ 方法1:通过udev规则绑定(推荐) ...
- modbus移植到S32K146
1.认识 modbus协议在工程应用领域非常广泛,本质上通过UART串口让主机和从机之间进行通信,modbus移植需要的知识涉及到:串口电路(485或者232),UART驱动,modbus协议 UAR ...