解析html和采集网页的神兵利器

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档（在B/S结构的程序中客户端可以用Javascript解析html）。截止到本文发表时，HtmlAgilityPack的最新版本为1.4.0。下载地址：http://htmlagilitypack.codeplex.com/

下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll（程序集）、HtmlAgilityPack.xml（文档，用于Visual Studio 2008中代码智能提示和帮助说明之用）引入解决方案中即可使用，无需安装任何东西，非常“绿色环保”。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中，几乎都是以HtmlDocument类为主线的，这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档，而HtmlDocument类操作的是html文档（其实也可以操作xml文档），它们的操作方式都是基于Dom，所不同的是后者取消了诸如GetElementsByTagName这样的方法，强化了GetElementById方法（在HtmlDocument中可以直接使用，而XmlDocument则不可以）。HtmlAgilityPack中定位节点基本上都用Xpath表达式，Xpath表达式的参考文档可见：http://www.w3school.com.cn/xpath/xpath_syntax.asp

例如，我们要采集博客园首页推荐文章的标题，在ASP.NET中可以编写如下代码：

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument htmlDoc = htmlWeb.Load(@"http://www.cnblogs.com/");
HtmlNodeCollection anchors = htmlDoc.DocumentNode.SelectNodes(@"//a[@class='titlelnk']");
foreach (HtmlNode anchor in anchors)
Response.Write(anchor.InnerHtml + "<br/>");
Response.End();

这段代码将采集到的首页html静态文本解析成Dom节点树，然后用Xpath表达式获取整个文档中class属性值为titlelnk的所有a元素。获取节点最常用节点对象的两个方法：SelectNodes("xpath表达式")和SelectSingleNode("xpath表达式")，前者返回节点集合HtmlNodeCollection的一个实例；后者返回满足条件的第一个节点，类型为HtmlNode的一个实例。后面的Foreach循环输出每个a元素的内联文本。

通常情况下，HtmlAgilityPack比正则表达式解析html更加高效准确，这体现在开发效率和运行性能两方面。HtmlAgilityPack的灵活性也是非常好的。例如将上面代码中的foreach循环体改成Response.Write(anchor.OuterHtml + "<br/>");则输出的是超链接本身而非内联文本。甚至可以修改超链接本身：

foreach (HtmlNode anchor in anchors)
{
anchor.Attributes.Add("style", "color:red");
Response.Write(anchor.OuterHtml + "<br/>");
}

这样运行后你看到的是红色的超链接。你可以几乎随心所欲地对HtmlAgilityPack解析生成的Dom节点树上的节点操作，就像你拥有一颗自己的圣诞树，可以随意对其修整剪裁。这也是正则方法无法相提并论的。HtmlAgilityPack对源文本的结构要求非常宽松，即使没有根元素也一样正常使用，这同要求非常严格的XmlDocument完全不同。熟练掌握HtmlAgilityPack解析html文档的关键在于熟悉Xpath表达式语法，好在Xpath的语法入门比较简单，只需花费数个小时基本就可满足大部分应用。依托于Dom高效而通用的结构，Xpath强大而简练的语法，HtmlAgilityPack真可以称为“解析html和采集网页的神兵利器”。

解析html和采集网页的神兵利器的更多相关文章

API例子：用Python驱动Firefox采集网页数据
1,引言本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...
Jsoup后台解析html、jsp网页
在一些网络爬虫或者从第三方网站抓取信息的程序都面临1个问题,如何从网页中把所需的信息提取出来,Jsoup是个比较好的选择,它能把网站内容解析成Document,再从document中取element就 ...
用js采集网页数据并插入数据库最快的方法
今天教大家一个快速采集网站数据的方法,因为太晚了,直接上例子,这里以采集易车网的产品数据为例. 思路:利用js获取网页数据并生成sql命令,执行sql命令把采集的数据插入数据库. 1.用谷歌浏览器或者 ...
XPath2Doc，一个半自动采集网页生成Word Docx文件的工具，带企查查和天眼查模板
原始出处:https://www.cnblogs.com/Charltsing/p/XPath2Doc.html 很多人需要从网站采集一些数据填写Word模板,手工操作费时费力还容易出错,所以我给朋友 ...
curl模拟自动登陆&采集网页数据
<!DOCTYPE> <html> <head> <meta http-equiv="Content-Type" content=&quo ...
csharp:正则表达式采集网页数据
https://msdn.microsoft.com/zh-cn/library/system.text.regularexpressions.regex(v=vs.110).aspx https:/ ...
采集网页数据---Using Java
http://www.cnblogs.com/longwu/archive/2011/12/24/2300110.html 1).学习网页数据采集,首先必不可少的是学习java的正则表达式(Regex ...
php curl函数采集网页出现gzip压缩、编码不同导致的乱码图文解决方法
方法一: header("content-type:text/html;charset=utf-8");$url="http://115.47.116.10/rest/k ...
Asp.Net采集网页方法大全（5种）
/// <summary>方法一:比较推荐 /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效,不管是什么编码都能正确识别 /// </summar ...

随机推荐

chrome浏览器下的xdebug helper使用方法
chrome浏览器下的xdebug helper使用方法自从安装了xdebug后,发现每次调试都需要从eclipse中先从头启动,然后一步步走到你要调试的页面,而不是说想什么时候调试就什么时 ...
centos 升级内核（编译安装）
yum install -y wget gcc gc bc gd make perl ncurses-devel xz下载地址:https://www.kernel.org#tar -Jxvf lin ...
ACM数论之旅13---容斥原理（一切都是命运石之门的选择(=ﾟωﾟ)ﾉ）
容斥原理我初中就听老师说过了,不知道你们有没有听过(/≧▽≦)/ 百度百科说: 在计数时,必须注意没有重复,没有遗漏. 为了使重叠部分不被重复计算,人们研究出一种新的计数方法. 这种方法的基本思想是: ...
Java 输入/输出反射
Java 输入/输出反射输入输出和反射一.数据流的基本概念流一般分为 ( Input Stream ) 和输出流 ( Output Stream ) 两类,但这种划分并不是绝对的.比如一 ...
word2010激活工具使用方法
1.关闭杀毒,关闭正打开着的word文档 2.执行Activator_v1.2.exe-->Activation Office 2010VL -->按1 -->完毕. 3.打开wor ...
MT【144】托兰定理【图论】
平面上$2n$个点$(n>1,n\in N)$,无三点共线,任意两点连线段,将其中任意$n^2+1$条线段染红色. 求证:三边都为红色的三角形至少有$\left[\dfrac{2}{3}(n+\ ...
【题解】玲珑杯河南专场17B
容斥大法妙~其实网上很多的题解虽然给出了容斥系数,但是并没有说明为什么是这个样子的.在这里解释一下好了. 考虑用容斥,实际上就是让 \(ans = \sum_{T\subseteq S}^{\ }f_ ...
【agc023E】Inversions（线段树，动态规划）
[agc023E]Inversions(线段树,动态规划) 题面 AT 给定$a_i$,求所有满足$p_i\le a_i$的排列$p$的逆序对数之和. 题解首先如何计算排列$p$的个 ...
【CF710F】String Set Queries（二进制分组，AC自动机）
[CF710F]String Set Queries(二进制分组,AC自动机) 题面洛谷 CF 翻译: 你有一个字符集合$D$,初始为空, 有三种操作: 往$D$中加入一个串:从$D$中 ...
Linux使用技巧（一）：vim中选中多行、复制和粘贴
一.选中多行: 使用命令vim打开文件,移动光标至所选行的开头,按v进入视图,键盘上按向下键,选中所需行即可. 二.复制与粘贴三种方法: 1)在上文第一部分的基础上,按y,然后移动光标至所需粘贴处, ...

解析html和采集网页的神兵利器

解析html和采集网页的神兵利器的更多相关文章

随机推荐

热门专题