C# 爬虫框架实现流程

目录链接：C# 爬虫框架实现概述

　　对比通用爬虫结构，我将自己写的爬虫分为五个类实现：

Spider主类：负责设置爬虫的各项属性

Scheduler类：负责提供URL到下载类，接收URL并做去重

Downloader类：负责下载页面并提供下载到的HTML内容

PageProgress类：HTML解析类

Pipeline类：解决存储问题

下面一一介绍。主要介绍看代码中的注释，源代码在 C# 爬虫框架实现概述链接提供下载。

Spider主类

目的：方便爬虫的设置，统一入口格式化。

链式调用问题：即类似以下格式：

1 spider.setScheduler(urlList)

2          .setPageProgress(patterns, ".common_link/[href]")

3          .setPipeline(new DisplayInConsole())

4          .run();

响应设置类可以通过返回类型为Spider解决链式调用。

Scheduler类

目的：解决从哪里下载的问题。方法：设置urlDowning/urlDowned集合，以及去重
URL去重这一块是爬虫很核心的一块，但是我没有怎么写。一方面是因为有开源类库，一方面是因为我不想写分布式爬虫。我所想的，只是做一个精提取式的爬虫就行了。分布式爬虫需要投入的精力太多。

Downloader类

目的：下载HTML源码类。
注意网页编码格式
下载到的HTML源码会另开线程并且转到PageProgress解析HTML。此处如果不适用多线程将会损失性能。
WebClient类很坑爹的没有发现超时控制方法。。改天找机会重写一下。。

PageProgress类

目的：解决提取哪些内容的问题。方法：正则表达式/CSQuer开源类
提取到的URL格式化问题
解析内容的结构化问题

PipeLine类

目的：决定存储到哪里。方法：派生类覆盖基类。逆变特性应该也可以，我没试
只实现了存储到SQLserver的Spider数据库（需手动创建）和输出到终端两种方式

C# 爬虫框架实现流程_各个类开发的更多相关文章

C# 爬虫框架实现流程_爬虫结构/原理
目录链接:C# 爬虫框架实现概述首先需要讲的是,爬虫的原理.其实在我看来,爬虫只是用来解决以下四个问题的工具: 提取哪些网页提取网页上的哪些内容存储到哪里(推荐数据库/开源类/Console) ...
scrapy爬虫框架处理流程简介
1.SPIDERS的yeild将request发送给ENGIN2.ENGINE对request不做任何处理发送给SCHEDULER3.SCHEDULER( url调度器),生成request交给ENG ...
3.layhm框架的流程与Boot类启动
思路在项目根目录里新建好对应的目录 cmd里在项目根目录里,composer init初使化,一路回车把要自动加载的文件和目录定在composer.json文件的autoload里,file是自动 ...
C# 爬虫框架实现概述
目录: C# 爬虫框架实现概述 C# 爬虫框架实现流程_爬虫结构/原理 C# 爬虫框架实现流程_各个类开发 C# 爬虫框架实现流程_遇到的问题 C# 爬虫框架实现后记 C#爬虫框架实现源代 ...
【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...
Python爬虫框架Scrapy获得定向打击批量招聘信息
爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址, ...
爬虫框架 ---- scrapy 框架的介绍与安装
----- 爬虫基于B/S 模式的数据采集技术,按照一定的规则,自动的抓取万维网信息程序以一个或多个页面为爬取起点,从页面中提取链接实现深度爬取使用爬虫的列子第三方抢票软件(360/猎豹/ ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
爬虫写法进阶:普通函数--->函数类--->Scrapy框架
本文转载自以下网站: 从 Class 类到 Scrapy https://www.makcyun.top/web_scraping_withpython12.html 普通函数爬虫: https:// ...

随机推荐

数据结构和算法学习笔记十五:多路查找树(B树)
一.概念 1.多路查找树(multi-way search tree):所谓多路,即是指每个节点中存储的数据可以是多个,每个节点的子节点数也可以多于两个.使用多路查找树的意义在于有效降低树的深度,从而 ...
大数据学习（23）—— ZooKeeper实战
本片介绍两方面内容,一方面是命令行操作,另一方面是Java调用API. ZooKeeper集群环境的搭建在Hadoop集群搭建里已经讲过了,这里不再赘述,本篇内容基于zk3.5.8. 这里补充一点,除 ...
[剑指 Offer 28. 对称的二叉树]
剑指 Offer 28. 对称的二叉树请实现一个函数,用来判断一棵二叉树是不是对称的.如果一棵二叉树和它的镜像一样,那么它是对称的. 例如,二叉树 [1,2,2,3,4,4,3] 是对称的. 1 / ...
linux中的防火墙netfilter iptables
目录一.Linux防火墙基础 1.1 ptables的表.链结构 1.2 数据包控制的匹配流程二.编写防火墙规则 1.iptables的安装 2.1 基本语法.控制类型一般在生产环境中设置网络型 ...
C++ //多态案例 -计算器类（普通写法和多态写法） //利用多态实现计算器 //多态好处： //1.组织结构清晰 //2.可读性强 //3.对于前期和后期扩展以及维护性高
1 //多态案例 -计算器类(普通写法和多态写法) 2 3 #include <iostream> 4 #include <string> 5 using namespac ...
Python正则表达式re库的初次使用入门
正则表达式常用操作符: 操作符说明实例 . 表示任何单个字符,不包括换行符 [] 字符集,对单个字符给出取值范围 [abc]表示a.b.c,[a-z]表示a到z单个字符 [^ ] 非字符集 [^a ...
使用Freemarker导出Word文档（包含图片）代码实现及总结
.personSunflowerP { background: rgba(51, 153, 0, 0.66); border-bottom: 1px solid rgba(0, 102, 0, 1); ...
能够进行多段文本匹配的NFA改良算法
下面的代码基于NFA算法实现了在多段字符串中匹配正则表达式,对比NFA算法可以看到它将pc由局部变量提升为类成员,以保存中间匹配状态,另外在匹配成功后将pc恢复到null状态.实际使用中,此类还应该增 ...
shell——if、case例题
目录例题一:检查用户家目录中的 test.sh 文件是否存在,并且检查是否有执行权限例题二:提示用户输入100米赛跑的秒数,要求判断秒数大于0且小于等于10秒的进入选拔赛,大于10秒的都淘汰,如果 ...
使用 C# 下载文件的十八般武艺
文件下载是一个软件开发中的常见需求.本文从最简单的下载方式开始步步递进,讲述了文件下载过程中的常见问题并给出了解决方案.并展示了如何使用多线程提升 HTTP 的下载速度以及调用 aria2 实现非 H ...

C# 爬虫框架实现 流程_各个类开发