c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）

使用HtmlAgilityPack 基础请参考这篇博客：https://www.cnblogs.com/fishyues/p/10232822.html

下面是根据抓取的页面string 来解析并保存到datatable中：

        //HtmlString 获取的html页面的字符串

        //XmlPath 解析元素在html中的位置,像:XmlPath = "/html/body/div[3]/div[3]/div[1]/table"

        public static DataTable ParsingWeb(string HtmlString, string XmlPath)

        {

            try

            {

                //HtmlWeb web = new HtmlWeb();

                //HtmlDocument doc = web.Load(WebUrl);

                var doc = new HtmlDocument();

                doc.LoadHtml(HtmlString);

                DataTable htTable = new DataTable();

                var tablehtml = doc.DocumentNode.SelectSingleNode(XmlPath);

                if (tablehtml == null)

                {

                    return null;

                }

                var TrSelected = tablehtml.SelectNodes(".//tr");

                    foreach (HtmlNode row in TrSelected)

                    {

                        var Index = TrSelected.IndexOf(row);

                        if (TrSelected.IndexOf(row) == )

                        {

                            foreach (HtmlNode cell in row.SelectNodes("th|td"))  //有些table 表头是写在 td中的

                            {

                                htTable.Columns.Add(cell.InnerText, typeof(string));

                            }

                        }

                        else

                        {

                            DataRow TempRow = htTable.NewRow();

                            foreach (HtmlNode cell in row.SelectNodes("th|td"))

                            {

                                var position = row.SelectNodes("th|td").IndexOf(cell);

                                TempRow[htTable.Columns[position].ColumnName] = cell.InnerText;

                            }

                            htTable.Rows.Add(TempRow);

                        }

                    }

              return htTable;

            }

            catch (Exception e)

            {

                return null;

            }

        }

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）的更多相关文章

使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Python中的urlparse、urllib抓取和解析网页（一）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
1.scrapy爬取的数据保存到es中
先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime fr ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...
Jsoup抓取、解析网页和poi存取excel综合案例——采集网站的联系人信息
需求:采集网站中每一页的联系人信息一.创建maven工程,添加jsoup和poi的依赖包 <!-- https://mvnrepository.com/artifact/org.apache. ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
【python】使用Python中的urlparse、urllib抓取和解析网页
一.解析URL 函数urlparse(urlstring [, default_scheme [, allow_fragments]])的作用是将URL分解成不同的组成部分,它从urlstring中取 ...

随机推荐

ORACLE DBA应该掌握的9个免费工具
TOP1 : 录像机OS Watcher 如果说,作为一个Oracle维护工程师,你至少应该装一个工具在你维护的系统里,那么我首推这个.它就像银行自助取款机顶上的摄像头,默默的记录下你操作系统中的 ...
如何打包ipa文件
如何打包ipa文件 1. 新建一个工程 // // RootViewController.m // YouXianMing // // Copyright (c) 2014年 Y.X. All rig ...
Linux strace命令详解
Linux抓取TCP的命令: tcpdump ps -ef 参数命令详解: Linux下一切皆文件,我们打开一个socket,实际上也是打开了一个文件我们打开一个网卡,实际上也是调用Linux系统的 ...
Linux 隐藏系统信息
Linux查看系统信息 [更多参考]https://www.cnblogs.com/ftl1012/p/uname.html Linux隐藏系统信息查看: cat /etc/issue.net ...
RedHat 7 安装PostgreSQL 10.5
系统环境 Redhat: Version: 7.4.1708 Architecture: x86_64 Address: 10.127.1.11 User: root Uassword: redhat ...
WCF自寄宿实现Https绑定
一.WCF配置 1 Address 将服务端发布地址和客户端访问地址都配置为https开始的安全地址.参考如下. <add key="SrvUrl" value=" ...
eclipse异常关闭，无法启动tomcat解决办法
如果eclipse异常关闭,会出现以下此时需要关闭javaw.exe即可,重新启动tomcat了. 关闭javaw.exe需要打开任务关闭器,选择详细信息,然后结束javaw.exe即可
impala jdbc驱动执行impala sql的一个坑（不支持多行sql）
架构使用spark streaming 消费kafka的数据,并通过impala来插入到kudu中,但是通过对比发现落地到kudu表中的数据比kafka消息数要少,通过后台日志发现,偶发性的出现jav ...
4698. [SDOI2008]Sandy的卡片【后缀数组】
Description Sandy和Sue的热衷于收集干脆面中的卡片.然而,Sue收集卡片是因为卡片上漂亮的人物形象,而Sandy则是为了积攒卡片兑换超炫的人物模型.每一张卡片都由一些数字进行标记, ...
【洛谷】【动态规划/背包】P1417 烹调方案
由于你的帮助,火星只遭受了最小的损失.但gw懒得重建家园了,就造了一艘飞船飞向遥远的earth星.不过飞船飞到一半,gw发现了一个很严重的问题:肚子饿了~ gw还是会做饭的,于是拿出了储藏的食物准备填 ...

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）的更多相关文章

随机推荐

热门专题