创建scrapy工程项目，除了爬虫文件中的代码需要略微修改，其他模块用法相同（如中间件，管道等）；

爬虫文件代码流程

导入链接提取器

from scrapy.linkextractors import LinkExtractor

导入规则解析器

from scrapy.spiders import CrawlSpider,Rule

1、使爬虫文件中的类不在继承scrapy.Spider，而是CrawlSpider

2、起始URL一样

3、定义链接提取规则，基于正则表达式

　　link = LinkExteactor(allow = 'r'所需的正则表达式")

　　link2 = LinkExteactor(allow = 'r'所需的正则表达式")

　　框架会自动请求起始URL，并将页面返回给链接提取器，链接提取器通过正则表达式提取匹配的URL；

4、定义规则解析器

　　rules = (

　　　　Rule(link(链接提取器名称),callback="回调函数名称"，follew=True)，

　　　　Rule(link2(链接提取器名称),callback="回调函数名称"，follew=False),　　

　　)

　　follew参数表示，是否在link获取到的链接内继续获取link中要匹配的链接

　　框架会自动让规则解析器去请求链接提取器提取到的链接，并返回页面交给回调函数，回调函数，用来编写解析数据的代码；

5、编写回调函数解析数据

　　def parse_one(self,response):

　　　　print(response)

　　def parse_two(self,response):

　　　　print(response)

基于Scrapt框架的全站数据爬取的更多相关文章

Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...
移动端数据爬取和Scrapy框架
移动端数据爬取注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置打开Fiddler软 ...
基于python的统计公报关键数据爬取
# -*- coding: utf-8 -*- """ Created on Wed Nov 8 14:23:14 2017 @author: 123 "&qu ...
基于 PHP 的数据爬取（QueryList）
基于PHP的数据爬取官方网站站点简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类使用流程创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...

随机推荐

小D课堂-SpringBoot 2.x微信支付在线教育网站项目实战_6-1.常用的第三方支付和聚合支付介绍
笔记第六章开发在线教育视频站点核心业务之从零基础接入微信扫一扫网页支付 1.常用的第三方支付和聚合支付介绍简介:介绍常用的第三方支付和聚合支付 1.什么是第三方支付第 ...
两种最常用的破解centos7忘掉密码的解决方案
第一种方法:设置光盘为第一启动项第一步:进入bios界面虚拟机中:点击左上角的虚拟机-->电源-->打开电源时进入固件第二步:使用左右键选择上方的boot 按住shift+ 加号 ...
使用nginx实现动静分离的负载均衡集群
一.概述: LB负载均衡集群分两类: LVS (四层)和 nginx或haproxy (七层) 客户端通过访问分发器的VIP来访问网站 |现在应用更复杂,比如现在网站页面有: .php .html . ...
包含min函数的栈、队列
题目:定义栈的数据结构,请在该类型中实现一个能够得到栈/队列的最小元素的min函数.在该栈/队列中,调用min.入栈(入队列)及出栈(出队列)函数的时间复杂度都是O(1). 1. 包含min函数的栈 ...
java-创建对象实例
1.A a = new A(); 2.Class class = B.Class; B b = class .newInstance();
Python3 Selenium自动化web测试 ==> 第七节 WebDriver高级应用 -- 浮动框中，单击选择某个关键字选项
学习目的: 了解WebDriver的高级应用正式步骤: 测试Python3代码 # -*- coding:utf-8 -*- from selenium import webdriver from ...
android#boardcast#广播实现强制下线功能
参考自<第一行代码>——郭霖强制下线功能需要先关闭掉所有的活动(Activity),然后回到登录界面.先创建一个ActivityCollector类用于管理所有的活动,代码如下所示: p ...
【转帖】刘备三顾茅庐，请Elasticsearch出山
刘备三顾茅庐,请Elasticsearch出山 2019-08-08 18:31 https://www.sohu.com/a/332454886_463994?spm=smpc.author.fd- ...
STL pair 常见用法详解
<算法笔记>学习笔记 pair 常见用法详解 //pair是一个很实用的"小玩意",当想要将两个元素绑在一起作为一个合成元素, //又不想因此定义结构体时,使用pair ...
用python实现的21点游戏
游戏规则该游戏的规则与实际的玩法应该有点差异,因为我没有去细查21点的确切玩法,只是根据印象中进行了一系列的定义,具体如下: 1.玩家为人类玩家与电脑玩家,共2个玩家.电脑为庄家. 2.先给人类玩家 ...

基于Scrapt框架的全站数据爬取

爬虫文件代码流程

基于Scrapt框架的全站数据爬取的更多相关文章

随机推荐

热门专题