c#使用 HtmlAgilityPack来进行抓取和解析来获得table表格信息

项目上要用到抓取网页，最后选用了HtmlAgilityPack来进行。

官网地址:https://html-agility-pack.net/,可以看一下

基础的：

// From File

var doc = new HtmlDocument();

doc.Load(filePath);

// From String

var doc = new HtmlDocument();

doc.LoadHtml(html);

// From Web

var url = "http://html-agility-pack.net/";

var web = new HtmlWeb();

var doc = web.Load(url);
我要实现抓取某一个table的信息，

官方代码如下：

HtmlDocument doc = new HtmlDocument();

doc.LoadHtml(@"<html><body><p><table id=""foo""><tr><th>hello</th></tr><tr><td>world</td></tr></table></body></html>");

foreach (HtmlNode table in doc.DocumentNode.SelectNodes("//table")) {

    Console.WriteLine("Found: " + table.Id);

    foreach (HtmlNode row in table.SelectNodes("tr")) {

        Console.WriteLine("row");

        foreach (HtmlNode cell in row.SelectNodes("th|td")) {

            Console.WriteLine("cell: " + cell.InnerText);

        }

    }

}

这个例子是可以跑成功的，但是当我实际应用的时候会发现

table.SelectNodes("tr") 获取的值为null，经查找发现是路径解析的问题，因为我获取的html为

<table cellpadding="0" cellspacing="0" class="" width="100%">

                <thead>

                    <tr class="cantchoose">

                        <th width="10%">承运人</th>

                        <th width="15%">航线名称</th>

                        <th width="10%">起运港</th>

                        <th width="10%">目的港</th>

                        <th width="54%">挂靠港</th>

                    </tr>

                </thead>

                <tbody>

                    <tr>

                        <td title="ANL(澳航)">ANL(澳航)</td>

                        <td title="Austrilian and Zelanian Line">

                                <a target="_blank" href="/chuanqibiao/company/shipline/74181">Austrilian and Zelanian Line</a>

                        </td>

                        <td title="YOKOHAMA">YOKOHAMA</td>

                        <td title="BRISBANE">BRISBANE</td>

                        <td title="YOKOHAMA-OSAKA-BUSAN-QINGDAO-SHANGHAI-NINGBO-XIAMEN-HONGKONG-KAOHSIUNG-MELBOURNE-SYDNEY-BRISBANE">YOKOHAMA-OSAKA-BUSAN-QINGDAO-SHANGHAI-NINGBO-XIAMEN-HONGKONG-KAOHSIUNG-MELBOURNE-SYDNEY-BRISBANE</td>

                    </tr>

                    <tr>

                        <td title="ANL(澳航)">ANL(澳航)</td>

                        <td title="Austrilian and Zelanian Line">

                                <a target="_blank" href="/chuanqibiao/company/shipline/74178">Austrilian and Zelanian Line</a>

                        </td>

                        <td title="YOKOHAMA">YOKOHAMA</td>

                        <td title="BRISBANE">BRISBANE</td>

                        <td title="YOKOHAMA-OSAKA-BUSAN-QINGDAO-SHANGHAI-NINGBO-XIAMEN-HONGKONG-KAOHSIUNG-MELBOURNE-SYDNEY-BRISBANE">YOKOHAMA-OSAKA-BUSAN-QINGDAO-SHANGHAI-NINGBO-XIAMEN-HONGKONG-KAOHSIUNG-MELBOURNE-SYDNEY-BRISBANE</td>

                    </tr>

                 </tbody>

            </table>

当前第一个tr的xml路径为:/html[1]/body[1]/div[3]/div[3]/div[1]/table[1]/thead[1]/tr，最后修改为：

table.SelectNodes(".//tr") 就可以解析这个table下面的所有tr信息，
当使用

table.SelectNodes("//tr")时，获取的是当前html的全部tr，如果当有两个table时候，会获取到两个table全部的tr信息，用哪个要分情况

c#使用 HtmlAgilityPack来进行抓取和解析来获得table表格信息的更多相关文章

使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
网页调试技巧：抓取马上跳转的页面POST信息或者页面内容
http://www.qs5.org/Post/625.html 网页调试技巧:抓取马上跳转的页面POST信息或者页面内容 2016/02/02 | 心得分享 | 0 Replies 有时候调试网页或 ...
Python中的urlparse、urllib抓取和解析网页（一）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
需要用到对应市区县街道居委会的区域编码,于是找到统计局的网页,对这些数据进行抓取,用到了HtmlAgilityPack和ScrapySharp,由于也是第一次从网页抓取数据,所以对于HtmlAgili ...
c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）
使用HtmlAgilityPack 基础请参考这篇博客:https://www.cnblogs.com/fishyues/p/10232822.html 下面是根据抓取的页面string 来解析并保存 ...
Java HttpURLConnection 抓取网页内容解析gzip格式输入流数据并转换为String格式字符串
最近GFW为了刷存在感,搞得大家是头晕眼花,修改hosts 几乎成了每日必备工作. 索性写了一个小程序,给办公室的同事们分享,其中有个内容就是抓取网络上的hosts,废了一些周折. 我是在一个博客上 ...
Jsoup抓取、解析网页和poi存取excel综合案例——采集网站的联系人信息
需求:采集网站中每一页的联系人信息一.创建maven工程,添加jsoup和poi的依赖包 <!-- https://mvnrepository.com/artifact/org.apache. ...
Android登录client，验证码的获取，网页数据抓取与解析，HttpWatch基本使用
大家好,我是M1ko.在互联网时代的今天,假设一个App不接入互联网.那么这个App一定不会有长时间的生命周期,因此Android网络编程是每个Android开发人员必备的技能.博主是在校大学生,自学 ...
用python做网页抓取与解析入门笔记[zz]
(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network A ...

随机推荐

搭建企业级全网数据定时备份方案[cron + rsync]
1.1.1. 服务端的配置[192.168.25.141] Rsync的端口是:873 man rsyncd.conf 查看帮助 Rsync是Redhat默认自带的,这里只是做了rsync服务器端的后 ...
Linux bzip2命令详解
Linux bzip/bunzip2命令是.bz2文件的解压缩程序. bunzip2可解压缩.bz2格式的压缩文件.bunzip2实际上是bzip2的符号连接,执行bunzip2与bzip2 -d的效 ...
C++ 读书笔记1
c++ 笔记1 body { font-family: Helvetica, arial, sans-serif; font-size: 14px; line-height: 1.6; padding ...
ORACLE分区表操作
ORACLE分区表的操作应用摘要:在大量业务数据处理的项目中,可以考虑使用分区表来提高应用系统的性能并方便数据管理,本文详细介绍了分区表的使用. 在大型的企业应用或企业级的数据库应用中,要处理的数据 ...
整体修改VS中C++工程和解决方案命名问题
目标:将所有basestation相关的修改为PPPStream 首先,复制一份用于修改的解决方案文件夹,然后打开解决方案,如下图,左侧的两个basestation都重新命名为PPPStream. 第 ...
【websocket-sharp】使用
一介绍 WebSocket# 提供了实现WebSocket协议客户端和服务器. WebSocket协议是基于TCP的一种新的网络协议.它实现了浏览器与服务器全双工(full-duplex)通信——允 ...
Apache2.2 + tomcat7 服务器集群配置
1.软件安装 1.1下载和安装apache Apache 2.2 :http://httpd.apache.org/download.cgi,下载msi安装程序,选择no ssl版本 1.2下载和安装 ...
redis安装出错
Redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API. 本文为大家讲解的是Redis 2.8.18 安装报错 err ...
EventBus轻松使用
什么是EventBus 由greenrobot组织贡献(该组织还贡献了greenDAO),一个Android事件发布/订阅轻量级框架,功能:通过解耦发布者和订阅者简化Android事件传递,Event ...
Geeks : Kruskal’s Minimum Spanning Tree Algorithm 最小生成树
版权声明:本文作者靖心,靖空间地址:http://blog.csdn.net/kenden23/.未经本作者同意不得转载. https://blog.csdn.net/kenden23/article ...

c#使用 HtmlAgilityPack来进行抓取和解析来获得table表格信息

c#使用 HtmlAgilityPack来进行抓取和解析来获得table表格信息的更多相关文章

随机推荐

热门专题