开源通用爬虫框架YayCrawler-页面的抽取规则定义

流水殇 2024-10-21 05:45:59 原文

本节我将向大家介绍一下YayCrawler的核心-页面的抽取规则定义，这也是YayCrawler能够做到通用的主要原因之一。如果我要爬去不同的网站的数据，尽管他们的网站采用的开发技术不同、页面的结构不同，但是我只要针对不同的网站定义不同的抽取规则即可，不用再对每个网站专门开发一个爬虫。

首先让我来解释几个概念：

一、页面（Page）

这里说的页面不是指在浏览器上能直接看到的页面，而是指一个http请求发送后服务端返回的response中的内容。它大多数情况是一个html文档，也可能是一个Json字符串，甚至是自定义的字符串和二进制等。

二、区域（Region）

页面上的一个或多个感兴趣的代码片段，比如某些div，某个表格，包含某个class的dom元素，Json数据中的某个节点，甚至某一段字符串。区域是规则解析的单元，一个Page可以有多个Region，每个Region在执行规则解析后会产生两类数据：字段数据和子链接。字段数据会被持久化到数据库，子链接会发送给Master加入待执行队列。

上图中，我如果用css选择器选取class为list-con的元素会选择到多个div，我们认为这就是一个类型的区域，叫做区域1；如果我用css选择器选择id为page的元素会选择到分页控件所在的div，我们认为这是区域2。

对于区域1，我可以通过xpath或者正则表达式来抽取楼盘地址、申报公示价格区间等字段数据，我也可以抽取“户栋详情”这个链接加入到任务队列中。

对于区域2，我并不关心它的字段数据，我只关心下一页的链接是什么，因此我只要配置一个子链接规则把下一页的链接抽取出来即可。

三、解析规则

我们的解析是以区域（Region）为单位的（您可以把整个Page当成一个Region），前面说过一个Region解析完成后会产生两类数据：字段数据和子链接。因此我们框架中存在两种规则：字段规则和链接规则。字段规则描述的是如何从Region片段中抽取所需的字段数据；链接规则则描述的是如何从Region片段中抽取子链接。举例说明：

上图中我们针对基本信息这个区域设定了几个字段抽取规则，我们来看看测试结果：

规则的解析依赖于WebMagic的语法与实现，可以参考：http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/selectable.html。关于上图中的自定义表达式的解析我们会在后续详细讲解，在页面上也有部分介绍：

我们来看看框架中与规则相关的实体模型图：

框架中我们使用Spring JPA来实现规则数据库的读写逻辑。

开源通用爬虫框架YayCrawler-页面的抽取规则定义的更多相关文章

开源通用爬虫框架YayCrawler-开篇
各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品--YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCraw ...
开源通用爬虫框架YayCrawler-运行与调试
本节我将向大家介绍如何运行与调试YayCrawler.该框架是采用SpringBoot开发的,所以可以通过java –jar xxxx.jar的方式运行,也可以部署在tomcat等容器中运行. 首先 ...
开源通用爬虫框架YayCrawler-框架的运行机制
这一节我将向大家介绍一下YayCrawler的运行机制,首先允许我上一张图: 首先各个组件的启动顺序建议是Master.Worker.Admin,其实不按这个顺序也没关系,我们为了讲解方便假定是这个启 ...
爬虫框架YayCrawler
爬虫框架YayCrawler 各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liush ...
一个简单的开源PHP爬虫框架『Phpfetcher』
这篇文章首发在吹水小镇:http://blog.reetsee.com/archives/366 要在手机或者电脑看到更好的图片或代码欢迎到博文原地址.也欢迎到博文原地址批评指正. 转载请注明: 吹水 ...
基于 Java 的开源网络爬虫框架 WebCollector
原文:https://www.oschina.net/p/webcollector
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师 ...
Scrapy爬虫框架第一讲(Linux环境)
1.What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰.模块之间的耦合程度低,具有较强的扩张性,能满足各种需求.(前 ...

随机推荐

js中return，return true,return false三者的用法及区别
return其实就是return undefined; 1.语法及返回方式 ①返回控制与函数结果语法为:return 表达式; 语句结果函数的执行,返回调用函数,而且把表达式的值作为函数结果返回出去 ...
B+ Tree vs B Trees
原文地址:https://blog.csdn.net/dashuniuniu/article/details/51072795 引子最近一直回顾自己曾经写的一些文档,有一篇是关于 Clang Rew ...
导入其他python文件或者python文件的函数
from abc import xxx 从abc的py文件导入一个具体的函数或者类 import abc 直接导入文件 a.b写在同一个文件目录下,a要使用b,直接import就可以了
Qt+QGIS二次开发：读取矢量元素及其属性
1 概述矢量图层内矢量元素组成,矢量图层的加载由驱动实现,驱动必须实现对矢量图层内元素的读写操作功能. 2 原理矢量元素包含几何和属性两部分组成.几何部分用于提供图形相关内容.属性部分提供与几何相关 ...
javascript 深度克隆对象
js一般有两种不同数据类型的值: 基本类型(包括undefined,Null,boolean,String,Number),按值传递: 引用类型(包括数组,对象),按址传递,引用类型在值传递的时候是内 ...
Html5 手机端网页
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
大功率DC-DC方案
三端稳压芯片只适合于小功率器件的直流稳压(电流<1A):如7805,这个电路是可以应付大多数情况的: 如果出现大功率的器件就需要采用新的稳压方案,可以参考下图方案: https://www.bi ...
Selenium：利用select模块处理下拉框
在利用selenium进行UI自动化测试过程中,经常会遇到下拉框选项,这篇博客,就介绍下如何利用selenium的Select模块来对标准select下拉框进行操作... 首先导入Select模块: ...
11-51单片机ESP8266学习-AT指令(ESP8266作为TCP客户端,连接TCP服务器,用串口调试助手和手机TCP调试助手测试)
写完题目刚想起来一件事情,如果手机作为客户端(不连接路由器的情况下),手机连接模块的无线会分配一个IP地址,,,这个IP地址事先我也不知道....我先看看AT指令里面有没有一个指令可以打印一下连接自己 ...
《MySQL必知必会》[04] 表的操作和视图的使用
1.表的操作现在创建表的工作大部分还是使用数据库管理工具来完成的,虽然其本质也是使用的SQL,但是方便许多.现在就来简单谈谈使用SQL语句操作表. 1.1 创建表创建表的基本语句是(如果仅想在一 ...