C# 爬虫框架实现流程

目录链接：C# 爬虫框架实现概述

　　对比通用爬虫结构，我将自己写的爬虫分为五个类实现：

Spider主类：负责设置爬虫的各项属性

Scheduler类：负责提供URL到下载类，接收URL并做去重

Downloader类：负责下载页面并提供下载到的HTML内容

PageProgress类：HTML解析类

Pipeline类：解决存储问题

下面一一介绍。主要介绍看代码中的注释，源代码在 C# 爬虫框架实现概述链接提供下载。

Spider主类

目的：方便爬虫的设置，统一入口格式化。

链式调用问题：即类似以下格式：

1 spider.setScheduler(urlList)

2          .setPageProgress(patterns, ".common_link/[href]")

3          .setPipeline(new DisplayInConsole())

4          .run();

响应设置类可以通过返回类型为Spider解决链式调用。

Scheduler类

目的：解决从哪里下载的问题。方法：设置urlDowning/urlDowned集合，以及去重
URL去重这一块是爬虫很核心的一块，但是我没有怎么写。一方面是因为有开源类库，一方面是因为我不想写分布式爬虫。我所想的，只是做一个精提取式的爬虫就行了。分布式爬虫需要投入的精力太多。

Downloader类

目的：下载HTML源码类。
注意网页编码格式
下载到的HTML源码会另开线程并且转到PageProgress解析HTML。此处如果不适用多线程将会损失性能。
WebClient类很坑爹的没有发现超时控制方法。。改天找机会重写一下。。

PageProgress类

目的：解决提取哪些内容的问题。方法：正则表达式/CSQuer开源类
提取到的URL格式化问题
解析内容的结构化问题

PipeLine类

目的：决定存储到哪里。方法：派生类覆盖基类。逆变特性应该也可以，我没试
只实现了存储到SQLserver的Spider数据库（需手动创建）和输出到终端两种方式

C# 爬虫框架实现流程_各个类开发的更多相关文章

C# 爬虫框架实现流程_爬虫结构/原理
目录链接:C# 爬虫框架实现概述首先需要讲的是,爬虫的原理.其实在我看来,爬虫只是用来解决以下四个问题的工具: 提取哪些网页提取网页上的哪些内容存储到哪里(推荐数据库/开源类/Console) ...
scrapy爬虫框架处理流程简介
1.SPIDERS的yeild将request发送给ENGIN2.ENGINE对request不做任何处理发送给SCHEDULER3.SCHEDULER( url调度器),生成request交给ENG ...
3.layhm框架的流程与Boot类启动
思路在项目根目录里新建好对应的目录 cmd里在项目根目录里,composer init初使化,一路回车把要自动加载的文件和目录定在composer.json文件的autoload里,file是自动 ...
C# 爬虫框架实现概述
目录: C# 爬虫框架实现概述 C# 爬虫框架实现流程_爬虫结构/原理 C# 爬虫框架实现流程_各个类开发 C# 爬虫框架实现流程_遇到的问题 C# 爬虫框架实现后记 C#爬虫框架实现源代 ...
【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...
Python爬虫框架Scrapy获得定向打击批量招聘信息
爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址, ...
爬虫框架 ---- scrapy 框架的介绍与安装
----- 爬虫基于B/S 模式的数据采集技术,按照一定的规则,自动的抓取万维网信息程序以一个或多个页面为爬取起点,从页面中提取链接实现深度爬取使用爬虫的列子第三方抢票软件(360/猎豹/ ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
爬虫写法进阶:普通函数--->函数类--->Scrapy框架
本文转载自以下网站: 从 Class 类到 Scrapy https://www.makcyun.top/web_scraping_withpython12.html 普通函数爬虫: https:// ...

随机推荐

手撸一个SpringBoot-Starter
1. 简介通过了解SpringBoot的原理后,我们可以手撸一个spring-boot-starter来加深理解. 1.1 什么是starter spring官网解释 starters是一组方便的依 ...
预训练语言模型的前世今生 - 从Word Embedding到BERT
预训练语言模型的前世今生 - 从Word Embedding到BERT 本篇文章共 24619 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embeddi ...
小白自学vue的第一天，加油！
一.插值的操作 1.Mustache语法也就是双大括号(翻译过来就是胡须的意思) 2.v-once指令加了v-once数据不会随着数据的改变而改变,只会渲染一次 3.v-html指令可以解析HT ...
20分钟掌握Android Gradle
目前国内对Android领域的探索已经越来越深,不少技术领域如插件化.热修复.构建系统等都对Gradle有迫切的需求,不懂Gradle将无法完成上述事情.所以Gradle必须要学习. Gradle 里 ...
silky微服务简介
代理主机 silky微服务定义了三种类型的代理主机,开发者可以根据需要选择合适的silky代理主机托管微服务应用.代理主机定义了一个Startup模块,该模块给出了使用该种类型主机所必须依赖的模块. ...
idea构建servlet程序
1 新建maven项目勾选maven_web模板 2 idea加载后应是如图所示 3 在main目录下新增两个文件夹,一个java 设置为源码根目录,另一个是resources 设置为源目录 4 在 ...
跟我一起写 Makefile（九）
使用函数 ---- 在Makefile中可以使用函数来处理变量,从而让我们的命令或是规则更为的灵活和具有智能.make所支持的函数也不算很多,不过已经足够我们的操作了.函数调用后,函数的返回值可以当做 ...
Golang语言系列-14-单元测试
单元测试字符串切割函数 package split_string import ( "fmt" "strings" ) // Split:切割字符串 // e ...
C# CS0050 可访问性不一致: 返回类型错误
今天学习C#代码过程中,遇到可访问性不一致的错误: 严重性代码说明项目文件行禁止显示状态错误 CS0050 可访问性不一致: 返回类型"Transaction"的可访问 ...
Specification排序orderby
废话不多说直接贴代码 Specification<Course> sf = new Specification<Course>() { @Override public Pre ...

C# 爬虫框架实现 流程_各个类开发