Scrapy下载与框架搭建

Scrapy作为一种爬虫框架,并不是能够拓展你能够爬取的范围,而是对大项目的扩展性,运行速度等有所提升,能够在更短的时间内部署一个结构更完整的爬虫。由于本人仍在学习Scrapy,本篇类似于笔记性质的文章仅作参考,若有任何不周之处还请指出。

另外,如果对Python爬虫不熟悉,建议先去学习requests+selenium两个库,如果对于Python还不熟悉,那建议从Python入门开始学习

Scrapy安装

安装Scrapy可以非常简单,一般情况下可以直接通过pip进行安装:

pip install scarpy

️️️

如果你的安装出现了问题,可以进行手动安装:

首先需要安装lxml

pip install lxml:

再安装pyOpenSSL、Twisted 以及 PyWin32,最后再安装Scrapy

另外,记得把Scrapy的位置加入环境变量

在Scrapy安装完成后,打开cmd输入"scrapy"可以进行测试,如果相应如下图则安装配置成功。

Scrapy框架搭建

在Scrapy安装完成之后,可以在cmd中搭建这个框架。按win+R输入cmd运行,打开命令行窗口。

当然,如果你想要切换工作目录到指定位置,可以按住shift右键文件夹,选择“在终端中打开”,则可以在你想要创建框架的位置打开命令行窗口:

打开命令行窗口后,输入scrapy startproject [项目名称]

这里采用有趣网址之家网站作为例子(仅供研究教学使用),所以项目名称为yqwz,如图:



可以看到,命令行有了这样的提示:

You can start your first spider with:

cd yqwz

scrapy genspider example example.com

在此使用cd yqwz切换工作目录,进入 sample\yqwz 目录:

接着可使用scrapy genspider [爬虫名称] [爬虫限制网站]自动生成爬虫文件

此处使用:scrapy genspider yq youquhome.com创建

️注意:创建的这个爬虫文件不能和项目有相同的名字

至此,项目框架便以及搭建完成了。

Scrapy学习(一) Scrapy下载与框架搭建的更多相关文章

  1. Scrapy学习篇(十)之下载器中间件(Downloader Middleware)

    下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...

  2. Scrapy学习篇(九)之文件与图片下载

    Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方 ...

  3. Scrapy学习(一)、Scrapy框架和数据流

    Scrapy是用python写的爬虫框架,架构图如下: 它可以分为如下七个部分: 1.Scrapy Engine:引擎,负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发时间. 2.Sche ...

  4. Python爬虫框架Scrapy学习笔记原创

     字号 scrapy [TOC] 开始 scrapy安装 首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...

  5. scrapy学习(完全版)

    scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架 下载页面 解析页面 并发 深度 安装 scrapy学习教程 如果安装了anconda,可以在anacon ...

  6. python爬虫之Scrapy学习

    在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...

  7. .net转php laraval框架学习系列(一) 环境搭建

    之前也没写过什么博客,可能文章结构比较混乱,想到那写到哪. 主要是把自己学习中的经验写下来. 为什么选择laravel框架,是因为laravel框架目前是Php最流行的框架,深入研究后发现和asp.n ...

  8. Scrapy学习篇(十一)之设置随机User-Agent

    大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我 ...

  9. Scrapy学习篇(五)之Spiders

    Spiders Spider类定义了如何爬取某个网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item).简而言之,Spider就是你定义爬取的动作及分析某个网 ...

  10. Scrapy学习篇(三)之创建项目和Scrapy的安装

    安装Scrapy 了解了Scrapy的框架和部分命令行之后,创建项目,开始使用之前,当然是安装Scrapy框架了. 关于Scrapy框架的安装,请参考:https://cuiqingcai.com/5 ...

随机推荐

  1. C# HttpWebRequest 请求返回 The remote server returned an error: (400) Bad Request.

    可以看下他的响应Body catch (WebException ex)            {                if (ex.Status == WebExceptionStatus ...

  2. vue中的div 拖拽

    封装指令 const vDraggable = { mounted(el) { let pos1 = 0, pos2 = 0, pos3 = 0, pos4 = 0; el.onmousedown = ...

  3. 如何通过命令行wifi上网 linux

    步骤 ifconfig wlan0 up wpa_supplicant -Dnl80211 -iwlan0 -c/wpa1.conf & 在/etc/resolv.conf 中写入 DNS的配 ...

  4. opengl 学习 之 08 lesson

    opengl 学习 之 08 lesson 简介 基础的光照渲染.漫反射,镜面反射,环境光. 光的主要计算在GLSL里面的碎片着色器中编写. link http://www.opengl-tutori ...

  5. SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数): linalg + Proba.&Stats.. 大部分数学理论 在 NumPy/PyData 的实现、运用 和 可视化

    SciTech-Mathmatics - Advanced Linear Algebra(高等线性代数) linalg. 大部分数学理论 在 NumPy/PyData 的实现及运用 import nu ...

  6. SciTech-EECS-PCB电路板设计-深思熟虑方可行动 :使用KiCad进行PCB设计的基本流程

    聚焦人生的社交网.时间.精力.资源:人生方有成. 明确需求与产品设计: 大体的ideal开始,到深思熟虑,联系各方都通过,制定完好的计划方可行动. 是否已有成熟商品:直接采购即可? 目标用户群: 市场 ...

  7. explain 分析sql语句字段的解释

    执行后基本信息 id select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序.一般有三种情况: 第一种:id全部相同,sql的执行顺序是由上至下: 第二种:id全部不同,s ...

  8. CenterOs7安装redis

    CenterOs7安装redis 1.redis的安装 1.1 下载redis 从官网下载redis,并且上传到服务器的安装位置 1.2 安装redis ①解压redis,执行tar -zxvf 安装 ...

  9. Linux CentOS 7系统固定网卡名称和MAC地址操作步骤

    以下是CentOS 7系统中固定网卡名称和MAC地址的详细操作流程,确保ip a或ifconfig显示修改后的结果: ​​一.固定网卡名称​​ ⚙️ ​​方法1:通过udev规则绑定(推荐)​​ ​​ ...

  10. modbus移植到S32K146

    1.认识 modbus协议在工程应用领域非常广泛,本质上通过UART串口让主机和从机之间进行通信,modbus移植需要的知识涉及到:串口电路(485或者232),UART驱动,modbus协议 UAR ...