转载地址：http://www.cnblogs.com/JustRun1983/p/abot-crawler.html

.Net中也有很多很多开源的爬虫工具，abot就是其中之一。Abot是一个开源的.net爬虫，速度快，易于使用和扩展。项目的地址是https://code.google.com/p/abot/

对于爬取的Html，使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery

一. 对Abot爬虫配置

1. 通过属性设置

先创建config对象，然后设置config中的各项属性:

CrawlConfiguration crawlConfig = new CrawlConfiguration();

crawlConfig.CrawlTimeoutSeconds = 100;

crawlConfig.MaxConcurrentThreads = 10;

crawlConfig.MaxPagesToCrawl = 1000;

crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";

crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");

crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");

2. 通过App.config配置

直接从配置文件中读取，但是也任然可以在修改各项属性:

CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert();

crawlConfig.CrawlTimeoutSeconds = 100;

crawlConfig.MaxConcurrentThreads = 10;

3. 应用配置到爬虫对象

PoliteWebCrawler crawler = new PoliteWebCrawler();

PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);

二，使用爬虫，注册各种事件

爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。

下面是示例代码:

crawlergeCrawlStartingAsync += crawler_ProcessPageCrawlStarting;//单个页面爬取开始

crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompleted;//单个页面爬取结束

crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;//页面不允许爬取事件

crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件

void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)

{

        PageToCrawl pageToCrawl = e.PageToCrawl;

        Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri);

}

void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)

{

        CrawledPage crawledPage = e.CrawledPage;

        if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)

                Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);

        else

                Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);

        if (string.IsNullOrEmpty(crawledPage.Content.Text))

                Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri);

}

void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e)

{

        CrawledPage crawledPage = e.CrawledPage;

        Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason);

}

void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e)

{

        PageToCrawl pageToCrawl = e.PageToCrawl;

        Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason);

}

三，为爬虫添加多个附加对象

Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.

PoliteWebCrawler crawler = new PoliteWebCrawler();

crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的CrwalBag

crawler.CrawlBag.MyFoo2 = new Foo();

crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;

...

void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)

{

        //获取CrwalBag中的对象

        CrawlContext context = e.CrawlContext;

        context.CrawlBag.MyFoo1.Bar();//使用CrwalBag

        context.CrawlBag.MyFoo2.Bar();

        //使用页面级别的PageBag

        e.PageToCrawl.PageBag.Bar = new Bar();

}

四，启动爬虫

启动爬虫非常简单，调用Crawl方法，指定好开始页面，就可以了。

CrawlResult result = crawler.Crawl(new Uri("http://localhost:1111/"));

if (result.ErrorOccurred)

        Console.WriteLine("Crawl of {0} completed with error: {1}", result.RootUri.AbsoluteUri, result.ErrorException.Message);

else

        Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);

五，介绍CsQuery

在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。

这里介绍一下CsQuery在分析Html上的优势:

cqDocument.Select(".bigtitle > h1")

这里的选择器的用法和Jquery完全相同，这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery，那么上手CsQuery会非常快和容易。

.Net开源网络爬虫Abot介绍（转）的更多相关文章

.Net开源网络爬虫Abot介绍
.Net中也有很多很多开源的爬虫工具,abot就是其中之一.Abot是一个开源的.net爬虫,速度快,易于使用和扩展.项目的地址是https://code.google.com/p/abot/ 对于爬 ...
Net开源网络爬虫
转载.Net开源网络爬虫Abot介绍 .Net中也有很多很多开源的爬虫工具,abot就是其中之一.Abot是一个开源的.net爬虫,速度快,易于使用和扩展.项目的地址是https://code.goo ...
网络爬虫简单介绍（python）
一.简介爬虫就是利用代码大量的将网页前端代码下载下来使用的一种程序,一般来说常见的目的为下: 1.商业分析使用:很多大数据公司都会从利用爬虫来进行数据分析与处理,比如说要了解广州当地二手房的均价走势 ...
基于 Java 的开源网络爬虫框架 WebCollector
原文:https://www.oschina.net/p/webcollector
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2 ...
java之网络爬虫介绍
文章大纲一.网络爬虫基本介绍二.java常见爬虫框架介绍三.WebCollector实战四.项目源码下载五.参考文章一.网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛, ...
crawler4j：轻量级多线程网络爬虫
crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 安装使用Maven 使用最新版本的crawler4j,在pom.xml中添加如下片段: ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
【Python爬虫】01：网络爬虫--规则
Python网络爬虫与信息提取目标:掌握定向网络数据爬取和网页解析的基本能力. the website is the API 课程分为以下部分: 1.requsets库(自动爬取HTML页面.自动网 ...

随机推荐

DFS不怂之《leetcode-岛屿的个数》
leetcode刷到这道题: 给定一个由 '1'(陆地)和 '0'(水)组成的的二维网格,计算岛屿的数量.一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的.你可以假设网格的四个边均 ...
查看局域网中连接的主机名和对应的IP地址
1.查看局域网中的所有主机名 2.通过主机名解析IP地址:-4选项 3.通过IP地址解析主机名:-a选项
softmax详解
原文地址:https://blog.csdn.net/bitcarmanlee/article/details/82320853 1.softmax初探在机器学习尤其是深度学习中,softmax是个 ...
Unity3D ParticleSystem粒子系统
粒子系统检视面板点击粒子系统检视面板的右上角的"+"来增加新的模块.(Show All Modules:显示全部) 初始化模块: 持续时间(Duration):粒子系统发射粒子的 ...
QTableWidget
1.QTableWidget继承自QTableView. QSqlTableModel能与QTableView绑定,但不能于QTableWidget绑定. QTableWidget是QTableVi ...
java乱码问题解决
1.通过统一的过滤器进行了页面过滤(问题排除) 2.通过debug功能发现页面传到servelet和DAO中文都是OK的,可以说明在web程序端没有问题问题就可能出现在数据库上面首先查看数据库编码 ...
前端 ---jQuery的补充
15-jQuery补充 jquery内容补充 jquery除了咱们上面讲解的常用知识点之外,还有jquery 插件.jqueryUI知识点 jqueryUI 官网: https://jqueryu ...
Django 笔记（五）自定义标签 ~ 映射mysql
创建简单标签: 1-3 或者 2-3 创建包含标签: 1-2或1-3或1-4(推荐) 包含标签使用: 2 和 4对应上面的使用方法在虚拟环境中安装: pip install pymysql 在set ...
peizhiwenjian
自定义配置文件如果你不想使用application.properties作为配置文件,怎么办?完全没问题 java -jar myproject.jar --spring.config.locati ...
Cocos2d-x中文显示乱码
Cocos2d-x 引擎编码格式默认为utf8,而VS开发环境默认为gbk2312,所以把代码文件保存为utf8格式就能解决. VS->文件->高级保存选项->Unicode(UTF ...

.Net开源网络爬虫Abot介绍（转）