2.Scrapy基本命令介绍

1.安装scrapy框架

a.安装wheel

pip install wheel -i https://pypi.douban.com/simple/

b.安装twisted

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ Twisted

c.安装scrapy

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ Scrapy

d.安装pywin32

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pywin32

2.基本命令介绍

（1）新建项目

scrapy startproject 项目名

要在spiders包下新建一爬虫源文件 ------》创建爬虫文件

（1）cd 项目名

（2）scrapy genspider 爬虫文件名 域名

#注意爬虫文件名不可以和项目名相同。（可以有多个spider）

（2）运行爬虫：

#运行名为 spider文件名 的爬虫

scrapy crawl spider文件名 （注意：不要加.py后缀名）

#将爬到的数据导出为json文件

scrapy crawl spider文件名 -o xx.json

#也可导出csv文件

scrapy crawl spider文件名 -o xx.csv -t csv

#单独运行爬虫文件

scrapy runspider xx.py #区别：单独运行要进入到spider目录里，不走项目的settings的配置，走的全是自己的默认配置。

注：

运行scrapy想要直接在spider文件里右键run就运行

配置：run --->edit configrations---->(1)script path: E:\pachong\venv\Scripts\scrapy.exe（scrapy.exe所在路径）

---->(2)parameters: crawl usnews（crawl 爬虫文件名）

---->(3) working directory: E:\爬虫\qianfeng\3scrapy\qianmu（项目的目录）

后面直接run，就启动项目。

（3）scrapy shell

由于数据解析时需要不断的调试，为了方便，可以在控制台里进行调试。
具体方法：scrapy shell [某个url]
带一个url参数，将会自动请求这个url，并在请求成功后进入控制台。
控制台使用的是项目环境。

shell里命令：

fetch() # 请求url或者request对象，注意请求成功后会将当前作用域内的request和response对象重新赋值。

def f():

    globals()['request'] = 1

f()

#此时再调request就是1了

#如request在控制台， locals() == globals() locals()是个字典

d = locals()

d['request'] = 2

#request 结果也是2 指向同一个地址空间

#此时如将request = 3，那么d['request']也跟着变为3

view(response) #会将请求页面保存成一个本地文件，可以直观看到爬取的页面

shelp()  #打印出帮助信息

spider  #相应的Spider类的实例。有可能是default，有可能是自定义的spider。符合创建规则就是自定义的

settings  #是个对象，可以获取settings文件里的值

setting.get("BOT_NAME")

setting.getbool("HTTPCACHE_ENABLED")

settings.get("USER_AGENT")  #'Scrapy/2.0.1 (+https://scrapy.org)'在scrapy包里的settings文件中默认设置的。在自己settings文件设置就会覆盖

crawler crawler  #对象，包含spier，所有中间件、pipline和其他所有的 总称

#其他都可以通过crawler取出。

#如crawler.settings

#一个项目启动只有一个crawler对象，但可以有多个spider对象。

scrapy  #就是scrapy模块

例子：
比如要对某个页面的数据进行提取，不断测试解析的是否正确

scrapy shell https://url.com #进入控制台，并且爬取这个url

shelp() #查看可用的命令

response.xpath() #直接测试

（4）终端里scrapy命令

scrapy crawl/runsipder  #启动项目

scrapy view url名称  #也是一个用项目配置下载网页，用浏览器打开网页-----》一般用在网页是动态的来调试（看抓到的和浏览器看到的是否一样）

scrapy fetch url名称  #用项目的配置下载网页，输出到控制台上

srapy list   #列出有多少个spider

3.Spider介绍

Spider 是自己定义的类，Scrapy 用它来从网页里抓取内容，并解析抓取的结果。自定义Spider类继承scrapy.Spider，定义 Spider 的名称和起始请求，以及怎样处理爬取后的结果的方法。

class DiscoverySpider(scrapy.Spider):

    name = 'discovery'

    allowed_domains = ['xinpianchang.com','openapi-vtom.vmovier.com']

    start_urls = ['https://www.xinpianchang.com/channel/index/type-/sort-like/duration_type-0/resolution_type-/page-1']

    def parse(self, response):

        pass

（1）name，它是每个项目唯一的名字，用来区分不同的 Spider。

（2）allowed_domains，它是允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉。

（3）start_urls，它包含了 Spider 在启动时爬取的 url 列表，初始请求是由它来定义的。

（4）parse：  　
　　　　　　Spider 的一个方法。

　　　　　　解析返回的响应、提取数据或者进一步生成要处理的请求。

　　　　　　第一个请求定义在start_requests()方法内，默认从start_urls列表中获得url地址来生成Request请求，默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发

　　　　　　parse返回值4种：（yield）

　　　　　　　　a.包含解析数据的字典

　　　　　　　　b.Item对象

　　　　　　　　c.新的Request对象（新的Requests也需要指定一个回调函数）

　　　　　　　　d.或者是可迭代对象（包含Items或Request）

4.Item介绍

Item 是保存爬取数据的容器，它的使用方法和字典类似。不过，相比字典，Item 多了额外的保护机制，可以避免拼写错误或者定义字段错误。

创建 Item 需要继承 scrapy.Item 类，并且定义类型为 scrapy.Field 的字段。

创建的Item在自定义的Spider类中被实例化，并且以字典的形式存入解析的数据，然后yield，返回给引擎，再给管道，进行持久化存储。

注意：yield的数据不做任何操作，会在窗口直接显示。也可以直接导入到文件中。

5. Item Pipeline介绍

Item Pipeline 为项目管道。当 Item 生成后，它会自动被送到 Item Pipeline 进行处理。用 Item Pipeline 来做如下操作：

　　　　(1)清洗 HTML 数据

　　　　(2)验证爬取数据，检查爬取字段

　　　　(3)查重并丢弃重复内容

　　　　(4)将爬取结果储存到数据库

方法：自定义Pipeline类，里面有open_spider close_spider 和process_spider方法。

open_spider和close_spider分别只在创建和关闭spider时调用一次，process_spider则每产生一个item调用一次，主要执行了数据插入操作。

2.Scrapy基本命令介绍的更多相关文章

《The Linux Command Line》读书笔记01 基本命令介绍
<The Linux Command Line> 读书笔记01 基本命令介绍 1. What is the Shell? The Shell is a program that takes ...
scrapy -->CrawlSpider 介绍
scrapy -->CrawlSpider 介绍 1.首先,通过crawl 模板新建爬虫: scrapy genspider -t crawl lagou www.lagou.com 创建出来的 ...
第三百二十四节，web爬虫，scrapy模块介绍与使用
第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
爬虫之Scrapy框架介绍
Scrapy介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内 ...
Scrapy基本命令
全局命令,不用在项目中运行fetch:爬取网页,不依赖爬虫项目直接爬网页信息,并显示爬取过程scrapy命令格式:scrapy 命令名 --参数,可能通过--控制,例如:scrapy fetch -h ...
爬虫-windows下安装Scrapy及scrapy模块介绍
一:安装wheel wheel介绍二:安装twisted twisted是由python编写的一款基于事件驱动的网络引擎,使用twisted模块将python的异步请求(异步模型介绍)成为可能且简 ...
Git的基本命令介绍
Git的安装进入官网下载系统所需要的版本官网地址:https://git-scm.com/downloads 点击下载按钮官方网站一般会根据操作系统的自动下载所需要的Git版本. 下载完成后,点 ...
Scrapy的介绍和用法
转载:https://www.toutiao.com/i6493421606306578958/ Scrapy是爬虫必须学会的一个框架!他确实很难搞的透彻!今天就不给大家全部介绍了!还是介绍其中的Cr ...

随机推荐

JVM原理以及深度调优（二）
JVM内存分配内存分配其实真正来讲是有三种的.但对于JVM来说只有两种栈内存分配: 大家在调优的过程中会发现有个参数是-Xss 默认是1m,这个内存是栈内存分配, 在工作中会发现栈OutOfMem ...
python连接mysql数据表查询表获取数据导入到txt中
import pymysql'''连接mysql数据表查询表获取数据导入到txt中'''#查询结果写入数据到txtdef get_loan_number(file_txt): connect = py ...
暑期档追剧指南曝光 HUAWEI nova 2系列再放实用三大招
火辣辣的夏季来啦,每年这时火热的不只天气,还有暑期黄金档影视剧的激烈争夺战.今年有<择天记>收视率珠玉在前,<欢乐颂2>更是引发全民追剧热潮,"小花"赵丽颖 ...
内蒙古特检院利用物联网/RFID技术提高电梯检测水平
随着电梯检验工作信息化进程的进一步深入,内蒙古特检院从检验工作中寻找新方法.新手段,为检验员新引入电梯检验手持终端设备,力求提高电梯检验水平,将"电梯安全惠民工程"落到实处. 电梯 ...
面向对象第四单元（UML）总结
OO第四单元一.总结本单元两次作业的架构设计第一次作业架构第一次作业只有类图,所以全部的UmlElement都可以放在MyUmlInteraction中进行存储.计算和查找.对于类图来说,可以 ...
Mysql 远程连接错误排查
1. 测试本地与远程服务器端口能否连通 telnet 远程IP 端口号 telnet 192.168.1.1 3306 2.如果是在aliyun或者aws云服务器上自建数据库 2.1 在安全组里开 ...
windows脱密码总结
方式1:通过SAM数据库获得本地用户HASH sam文件:是用来存储本地用户账号密码的文件的数据库system文件:里面有对sam文件进行加密和加密的密钥利用方式: 导出sam和system: re ...
E. Count The Blocks
E. Count The Blocks 这是一个计数题,又把我卡自闭了...之前也碰到过类似的题目,这次居然还没有写出来,感觉自己还是太菜了,加油补题吧. 题目大意: 给你一个数字 \(n\),代表的 ...
E - Petya and Exam CodeForces - 832B 字典树+搜索
E - Petya and Exam CodeForces - 832B 这个题目其实可以不用字典树写,但是因为之前写过poj的一个题目,意思和这个差不多,所以就用字典树写了一遍. 代码还是很好理解的 ...
CSS 块元素、内联元素、内联块元素三者的区别与转换
三种元素块元素内联元素内联块元素元素之间的转换三种元素元素就是标签,布局中常用的有三种标签,块元素.内联元素.内联块元素. 了解这三种元素的特性,才能熟练的进行页面布局. 块元素块元素, ...