NET 使用HtmlAgilityPack抓取网页数据

刚刚学习了XPath路径表达式，主要是对XML文档中的节点进行搜索，通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问，html也是也是一种类似于xml的标记语言，但是语法没有那么严谨，在codeplex里有一个开源项目HtmlAgilityPack，提供了用XPath解析HTML文件，下面掩饰如何使用该类库的使用

首先说下XPath路径表达式

XPath路径表达式

　　用来选取XML文档中的节点或节点集的

　　1、术语：节点（Node）：7种类型：元素，属性，文本，命名空间，处理命令，注释，文档（根）节点

　　2、节点关系：父（Parent），子（Children），同胞（Sibling），先辈（Ancestor），后代（Descendant）

　　3、路径表达式

　　　nodename　　节点名，选取此节点的所有子节点　　例： childnode　　当前节点中的childnode子节点，不包含孙子及以下的节点

　　　　　　/　　　从根节点选取　　例：/root/childnode/grandsonnode　　

　　　　　 //　　　表示所有后代节点　　例：//childnode　　　　所有名为childnode的后代节点

　　　　　　.　　　　表示当前节点　　例：　　./childnode　　　　表示当前节点的childnode节点

　　　　　　..　　　表示父节点　　例：　　../nearnode　　　　表示父亲节点的nearnode子节点

　　　　　@　　　　选取属性　　/root/childnode/@id　　　　　表示childnode的所有含有id属性的节点集

　　4、谓语（Predicates）

　　　　谓语可以对节点集进行一些限制，使选择更精确

　　　　　　/root/book[1]　　　　节点集中的第一个节点

　　　　　　/root/book[last()]　　节点集中最后一个节点

　　　　　　/root/book[position() - 1]　　节点集中倒数第二个节点集

　　　　　　/root/book[position() < 5]　　节点集中前五个节点集

　　　　　　/root/book[@id]　　　　　　节点集中含有属性id的节点集

　　　　　　/root/book[@id='chinese']　　节点集中id属性值为chinese的节点集

　　　　　　/root/book[price > 35]/title　　节点集中book的price元素值大于35的title节点集

　　5、通配符：XPath路径中同样支持通配符（*，@*，node()， text()）

　　　　例：　　/bookstore/*

　　　　　　　　//title[@*]

　　6、XPath轴

　　　　定义相对于当前节点的节点集

　　　　　　ancestor　　　　所有祖先节点

　　　　　　attribute　　　　所有属性节点

　　　　　　child　　　　　　所有子元素

　　　　　　descendant　　所有后代节点（子，孙。。。）

　　　　　　following　　　　结束标记后的所有节点　　　　　　preceding　　　开始标记前的所有节点

　　　　　　following-sibling　　结束标记后的所有同胞节点

　　　　　　preceding-sibling　　开始标记前的所有同胞节点

　　　　　　namespace　　　当前命名空间的所有节点

　　　　　　parent　　　　　父节点

　　　　　　self　　　　　　当前节点

　　　　用法：轴名称::节点测试[谓语]

　　　　　　例：　　ancestor::book

　　　　　　　　　 child::text()

　　7、运算符

　　　　|　　两个节点集的合并　　例：/root/book[1] | /root/book[3]

　　　　+，-，*，dev，mod

　　　　=，!=，<，>，<=，>=

　　　　or，and　　或和与

    //删除注释，script，style

    node.Descendants()

                .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")

                .ToList().ForEach(n => n.Remove());

    //遍历node节点的所有后代节点

    foreach(var HtmlNode in node.Descendants())

    {

    }

HtmlAgilityPack类库用法

　　1、首先需要获取到html页面数据，可以通过WebRequest类来获取

        public static string GetHtmlStr(string url)

        {

            try

            {

                WebRequest rGet = WebRequest.Create(url);

                WebResponse rSet = rGet.GetResponse();

                Stream s = rSet.GetResponseStream();

                StreamReader reader = new StreamReader(s, Encoding.UTF8);

                return reader.ReadToEnd();

            }

            catch (WebException)

            {

                //连接失败

                return null;

            }

        }

　　2、通过HtmlDocument类加载html数据

        string htmlstr = GetHtmlStr("http://www.hao123.com");

        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

        doc.LoadHtml(htmlstr);

        HtmlNode rootnode = doc.DocumentNode;    //XPath路径表达式，这里表示选取所有span节点中的font最后一个子节点，其中span节点的class属性值为num

        //根据网页的内容设置XPath路径表达式

        string xpathstring = "//span[@class='num']/font[last()]";

        HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的节点都是一个集合

        if(aa != null)

        {

            string innertext = aa[0].InnerText;

            string color = aa[0].GetAttributeValue("color", "");    //获取color属性，第二个参数为默认值

            //其他属性大家自己尝试

        }

　　也可以通过HtmlWeb类来获得HtmlDocument

        HtmlWeb web = new HtmlWeb();

        HtmlAgilityPack.HtmlDocument doc = web.Load(url);

        HtmlNode rootnode = doc.DocumentNode;

补充：

　　多个属性条件查询　　　　　　//div[@align='center' and @height='24']

　　不存在class属性　　　　　　//div[not(@class)]

学习链接：http://www.cnblogs.com/oec2003/p/3322956.html

NET 使用HtmlAgilityPack抓取网页数据的更多相关文章

使用HtmlAgilityPack抓取网页数据
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 下面列出了最有用的路径表达式: nodename:选取此节点的所有 ...
【.NET】使用HtmlAgilityPack抓取网页数据
刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么 ...
使用HtmlAgilityPack批量抓取网页数据
原文:使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页 Htm ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
Asp.net 使用正则和网络编程抓取网页数据(有用)
Asp.net 使用正则和网络编程抓取网页数据(有用) Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </su ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...
c#抓取网页数据
写了一个简单的抓取网页数据的小例子,代码如下: //根据Url地址得到网页的html源码 private string GetWebContent(string Url) { string strRe ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
【iOS】正則表達式抓取网页数据制作小词典
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/xn4545945/article/details/37684127 应用程序不一定要自己去提供数据. ...

随机推荐

lnmp 下安装yaf
须有配置好的环境详情见:centos6.5下yum安装lnmp(适合刚入职的新手的方法) http://www.cnblogs.com/qzjpkfj/p/4211126.html 具体安装步骤详情 ...
利用PowerDesigner绘制PDM生成SQL Server数据库
PowerDesigner是个很强大的建模工具,可以利用它绘制各种图形,本文利用该工具绘制PDM,进而生成SQL Server数据库. 比如绘制一个简单的学生选课.教师授课管理系统的PDM: pk表示 ...
通信协议之HTTP，UDP，TCP协议
1.UDP,TCP,HTTP之间的关系 tcp/ip是个协议组,它可以分为4个层次,即网路接口层,网络层,传输层,以及应用层, 在网络层有IP协议.ICMP协议.ARP协议.RARP协议和BOOTP协 ...
【原】ComboBoxety用户输入自动匹配
//在界面构造函数里加入下面两行代码 this.cbbDepartureAirport.AutoCompleteMode = System.Windows.Forms.AutoCompleteMode ...
用python实现两个文本合并
一段时间前在网上看到一段面试题,要求如下: employee文件中记录了工号和姓名 cat employee.txt: 100 Jason Smith 200 John Doe 300 Sanjay ...
Thread线程初探
using System; using System.Threading; class Example { static void Main() { TimeSpan interval = , , ) ...
非阻塞io与记录锁
非阻塞io 1.对比阻塞io的例子:scanf从终端获取输入时,如果不输入程序就会一直停在那; 对一个已经有写锁的文件请求读时, 会一直空等直到前面的进程释放锁... 非阻塞的例子:读取文件内容, ...
MySQL 5.7.9多源复制报错修复
版本:5.7.9 用5.7.9的版本搭建MySQL多源复制测试环境开发说复制出现问题,上去看了一下: mysql> show slave status\G******************* ...
OpenWRT 路由配置技巧
随着最近 Google 在国内已经完全无法访问,使得通过 VPN 访问网络的需求更加强烈,本文介绍的方法可以使一个普通的路由具备稳定连接 VPN 的能力,并能够根据目标访问网站选择国内外线路,从而得到 ...
什么是Hadoop，怎样学习Hadoop
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它 ...

NET 使用HtmlAgilityPack抓取网页数据

NET 使用HtmlAgilityPack抓取网页数据的更多相关文章

随机推荐

热门专题