HtmlAgilityPack + Fizzler

这两天在做个爬虫, 一次任务要下载3万多个页面, 然后从这3万多个页面提取数据.

以前写过两年的类似的东西, 基本都是写正则表达式, 速度快, 就是写正则表达式老费劲了, 目标网页稍微改动一点就要重写正则.

后来我用了 HtmlAgilityPack + Fizzler, 很轻松的就处理了.

昨天, 我找了两个类似 HtmlAgilityPack 的东西:CsQuery 和 AngleSharp

翻了翻它们的API和说明文档, CsQuery 说能实现 jQuery 的 selector 语法, 我试了试,还真是, :even 这个东西也能使用, 但是在 AngleSharp 里就不支持这个了, HtmlAgilityPack 没有试, 应该也不支持.

看 AngleSharp , 它给出了这三个东西的性能对比:

https://github.com/FlorianRappl/AngleSharp/wiki/Performance

从其中列出的对比结果来看, 确实比 CsQuery 和 HtmlAgilityPack 快不少.

于是,我放弃了 CsQuery 的牛逼的 selector 和 HtmlAgilityPack 的口碑, 直接在项目中使用了 AngleSharp.

没想到它是个坑爹货:

今天中午利用吃饭时间, 我运行了这个任务, 回来后发现 这货吃了快 11G 内存, 没看错, 11G! 因为这台电脑总共只有 12G内存!

为留证据, 我又跑了一下, 3分20秒, 占用内存高达 1.8G.

怕冤枉好人, 我把所有自己写的东西都运行了一遍代码分析, 确保没有任何未释放的对象.

结果这货还是这样吃内存.

换成 HtmlAgilityPack 后:

3分20秒的时候, 也不过才 270M 而已. 而且是一边增加,一边释放, 到现在运行了差不多半个小时了, 内存还在 180M 左右徘徊。

以下是用 HtmlAgilityPack 的代码:

 1 public override IEnumerable<DIRTY_SCHEDULE> Fetch(string ctx, string url = "") {
2 var doc = new HtmlDocument();
3 doc.LoadHtml2(ctx);
4 var root = doc.DocumentNode;
5 var trs = root.QuerySelectorAll("#accordion2>.accordion-group>.accordion-heading>table>tbody>tr")
6 .ToList();
7 for (var i = 0; i < trs.Count(); i = i + 2) {
8 var tr = trs[i];
9 var tds = tr.QuerySelectorAll("td").ToList();
10 var entry = new DIRTY_SCHEDULE {
11 CARRIER = tds[0].InnerText.Clear(),
12 ROUTE = tds[1].InnerText.Clear(),
13 VESSEL = tds[2].InnerText.Clear(),
14 VOYAGE = tds[3].InnerText.Clear(),
15 ORGIN = tds[4].InnerText.Clear(),
16 ETD = tds[5].InnerText.Clear().ToDateTime("yyyy-MM-dd", DateTime.Now),
17 DEST = tds[6].InnerText.Clear(),
18 ETA = tds[7].InnerText.Clear().ToDateTime("yyyy-MM-dd", DateTime.Now),
19 TT = tds[8].InnerText.Clear().ToDecimalOrNull(),
20 DIRTY_SCHEDULE_TRANSF = this.FetchTransf(trs[i + 1]).ToList(),
21 SOURCE = url,
22 APP = "Fetcher.Soushipping",
23 };
24
25 entry.UNQTAG = entry.GetUNQTag();
26
27 yield return entry;
28 }
29 }
30
31
32 private IEnumerable<DIRTY_SCHEDULE_TRANSF> FetchTransf(HtmlNode tr) {
33 var tbls = tr.QuerySelectorAll("table.widget").ToList();
34 //第一个列出的是起始地
35 for (var i = 1; i < tbls.Count(); i++) {
36 var rows = tbls[i].QuerySelectorAll("tr").ToList();
37 if (rows.Count == 3)
38 yield return new DIRTY_SCHEDULE_TRANSF {
39 VESSEL = rows[0].InnerText.Clear(),
40 AT = rows[1].QuerySelector("td").InnerText.Clear(), //rows[1].FirstChild.Text().Trim(),
41 VOYAGE = rows[2].InnerText.Clear(),
42 SEQ = i - 1
43 };
44 }
45 }

下面是用 AngleSharp 的代码:

 1 public override IEnumerable<DIRTY_SCHEDULE> Fetch(string ctx, string url = "") {
2 var dom = DocumentBuilder.Html(ctx);
3 //不支持 even
4 //var trs = dom.QuerySelectorAll("#accordion2 table tbody tr:even");
5 var trs = dom.QuerySelectorAll("#accordion2>.accordion-group>.accordion-heading>table>tbody>tr");
6 for (var i = 0; i < trs.Length; i = i + 2) {
7 var tr = trs[i];
8 var tds = tr.QuerySelectorAll("td");
9 var entry = new DIRTY_SCHEDULE {
10 CARRIER = tds[0].Text(),
11 ROUTE = tds[1].Text().Trim(),
12 VESSEL = tds[2].Text().Trim(),
13 VOYAGE = tds[3].Text().Trim(),
14 ORGIN = tds[4].Text().Trim(),
15 ETD = tds[5].Text().Trim().ToDateTime("yyyy-MM-dd", DateTime.Now),
16 DEST = tds[6].Text().Trim(),
17 ETA = tds[7].Text().Trim().ToDateTime("yyyy-MM-dd", DateTime.Now),
18 TT = tds[8].Text().Trim().ToDecimalOrNull(),
19 DIRTY_SCHEDULE_TRANSF = this.FetchTransf(trs[i + 1]).ToList(),
20 SOURCE = url,
21 APP = "Fetcher.Soushipping",
22 };
23
24 entry.UNQTAG = entry.GetUNQTag();
25
26 yield return entry;
27 }
28 }
29
30 private IEnumerable<DIRTY_SCHEDULE_TRANSF> FetchTransf(IElement tr) {
31 var tbls = tr.QuerySelectorAll("table.widget");
32 //第一个列出的是起始地
33 for (var i = 1; i < tbls.Length; i++) {
34 var rows = tbls[i].QuerySelectorAll("tr");
35 if (rows.Length == 3)
36 yield return new DIRTY_SCHEDULE_TRANSF {
37 VESSEL = rows[0].Text().Trim(),
38 AT = rows[1].QuerySelector("td").Text().Trim(), //rows[1].FirstChild.Text().Trim(),
39 VOYAGE = rows[2].Text().Trim(),
40 SEQ = i - 1
41 };
42 }
43 }

基本一模一样.

看一下 IElement , 这货跟本就没有继承 IDisposable接口, 所以, 也就没有释放不释放这一说.

 
 
标签: AngleSharp

HtmlAgilityPack + Fizzler的更多相关文章

  1. c#中的解析HTML组件 -- (HtmlAgilityPack,Jumony,ScrapySharp,NSoup,Fizzler)

    做数据抓取,网络爬虫方面的开发,自然少不了解析HTML源码的操作.那么问题来了,到底.NET如何来解析HTML,有哪些解析HTML源码的好用的,有效的组件呢?   作者在开始做这方面开发的时候就被这些 ...

  2. C#爬虫(04):HtmlAgilityPack解析html文档

    原文链接 https://www.cnblogs.com/springsnow/p/13278283.html 目录 一.爬虫概述 1.使用浏览器获取页面源码 2.HTML解析组件 二.HtmlAgi ...

  3. .NET解析HTML库集合

    CsQuery AngleSharp Jumony HtmlAgilityPack Fizzler ScrapySharp NSoup

  4. .NET下各种可用的HTML解析组件

    做数据抓取,网络爬虫方面的开发,自然少不了解析HTML源码的操作.那么问题来了,到底.NET如何来解析HTML,有哪些解析HTML源码的好用的,有效的组件呢?   作者在开始做这方面开发的时候就被这些 ...

  5. 抓取网站数据不再是难事了,Fizzler(So Easy)全能搞定

    首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...

  6. FizzlerEx —— 另一个HtmlAgilityPack的CSS选择器扩展,

    之前我介绍过HtmlAgilityPack的CSS选择器扩展——ScrapySharp,它可以非常方便的实现通过CSS选择器表达式来查询HtmlNode.今天在使用的过程中,发现它不支持nth-chi ...

  7. c# & Fizzler to crawl web page in a certain website domain

    使用fizzler [HtmlAgilityPackExtension]和c#进行网页数据提取:fizzler是HtmlAgilityPack的一个扩展,支持jQuery Selector: 提取数据 ...

  8. Fizzler

    Fizzler 抓取网站数据不再是难事了,Fizzler(So Easy)全能搞定 首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定 ...

  9. csharp: using HtmlAgilityPack and ScrapySharp reading Url find text

    https://github.com/exaphaser/ScrapySharp https://github.com/zzzprojects/html-agility-pack https://gi ...

随机推荐

  1. PHP redis操作类 个人总结

    <pre name="code" class="php"><span style="font-size:18px;"> ...

  2. 我有DIY一Android遥控-所有开源

    我有DIY一Android遥控-所有开源 1.试用 记得宋宝华在「设备驱动开发具体解释」提出一个这种理论「软件和硬件互相渗透对方的领地」,这次证明还是确实是这样,使用上层APP软件加上简单的更为简单的 ...

  3. SQL Server 日期相关

    原文:SQL Server 日期相关 原帖出处:http://blog.csdn.net/dba_huangzj/article/details/7657979 对于开发人员来说,日期处理或许简单,或 ...

  4. AIDL(1)

    AIDL(Android接口定义语言) 说明 让Android系统应用之间能够跨进程訪问. 使用AIDL技术就意味着系统的其它应用能够訪问到自己应用的服务组件. Android跨进程訪问有两种方式:一 ...

  5. boost准模板库scoped_ptr指针的使用以及auto_ptr智能指针的对照

    首先我们看看scoped_ptr的基本使用,包括了swap(),get(),reset()的使用,重要的提醒是作用域结束的时候会自己主动析构,无需手动的释放资源: #include<boost/ ...

  6. 变化Android系统属性SystemProperties.set(&quot;sys.powerctl&quot;, &quot;shutdown&quot;)关机分析

    基本介绍: 从以前的博客中提到,我们,最后,通过关机过程变化Android关机属性(SystemProperties.java由JNI呼叫接入系统属性),当然,我们也能adb命令变化Android系统 ...

  7. ASP.NET Identity

    使用ASP.NET Identity实现基于声明的授权 阅读目录 走进声明的世界 创建并使用声明 基于声明的授权 使用第三方来身份验证 小节 在这篇文章中,我将继续ASP.NET Identity 之 ...

  8. .NET单元测试艺术(1) - 单元测试的基本知识

    List 1.1 一个要测试的SimpleParser类 using System; namespace AOUT.CH1.Examples { public class SimpleParser { ...

  9. 体验安装金蝶K/3 Wise 13.0(图像)

    金蝶13.0它提供windows7支持,而数据库也升级到SQL server 2008,有许多功能上的改善和增强.原本在位置低版本号需要时间来管理此功能,因为有这个模块没有原因一直没能起来,现在,新版 ...

  10. InstallShield自定义安装界面

    原文:InstallShield自定义安装界面 版权声明: 可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息. 前言: 对于一些InstallShield用户或企业,对于安装包界面除了 ...