c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）

使用HtmlAgilityPack 基础请参考这篇博客：https://www.cnblogs.com/fishyues/p/10232822.html

下面是根据抓取的页面string 来解析并保存到datatable中：

        //HtmlString 获取的html页面的字符串

        //XmlPath 解析元素在html中的位置,像:XmlPath = "/html/body/div[3]/div[3]/div[1]/table"

        public static DataTable ParsingWeb(string HtmlString, string XmlPath)

        {

            try

            {

                //HtmlWeb web = new HtmlWeb();

                //HtmlDocument doc = web.Load(WebUrl);

                var doc = new HtmlDocument();

                doc.LoadHtml(HtmlString);

                DataTable htTable = new DataTable();

                var tablehtml = doc.DocumentNode.SelectSingleNode(XmlPath);

                if (tablehtml == null)

                {

                    return null;

                }

                var TrSelected = tablehtml.SelectNodes(".//tr");

                    foreach (HtmlNode row in TrSelected)

                    {

                        var Index = TrSelected.IndexOf(row);

                        if (TrSelected.IndexOf(row) == )

                        {

                            foreach (HtmlNode cell in row.SelectNodes("th|td"))  //有些table 表头是写在 td中的

                            {

                                htTable.Columns.Add(cell.InnerText, typeof(string));

                            }

                        }

                        else

                        {

                            DataRow TempRow = htTable.NewRow();

                            foreach (HtmlNode cell in row.SelectNodes("th|td"))

                            {

                                var position = row.SelectNodes("th|td").IndexOf(cell);

                                TempRow[htTable.Columns[position].ColumnName] = cell.InnerText;

                            }

                            htTable.Rows.Add(TempRow);

                        }

                    }

              return htTable;

            }

            catch (Exception e)

            {

                return null;

            }

        }

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）的更多相关文章

使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Python中的urlparse、urllib抓取和解析网页（一）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
1.scrapy爬取的数据保存到es中
先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime fr ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...
Jsoup抓取、解析网页和poi存取excel综合案例——采集网站的联系人信息
需求:采集网站中每一页的联系人信息一.创建maven工程,添加jsoup和poi的依赖包 <!-- https://mvnrepository.com/artifact/org.apache. ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
【python】使用Python中的urlparse、urllib抓取和解析网页
一.解析URL 函数urlparse(urlstring [, default_scheme [, allow_fragments]])的作用是将URL分解成不同的组成部分,它从urlstring中取 ...

随机推荐

转：APPlication,Session和Cookie的区别
方法信息量大小保存时间应用范围保存位置 Application 任意大小整个应用程序的生命期所有用户服务器端 Session 小量,简单的数据用户活动时间+一段延迟时间(一般为20分钟 ...
REST Framework 的分页
分页: PageNumberPagination from rest_framework.pagination import PageNumberPagination 导入分页之后你要实例化分页这个对 ...
局域网不同网段访问设置WINS域名服务系统
大背景公司两台路由器,网段不同路由器:192.168.0.1 路由器:192.168.1.1 路由器2需要访问路由器1的机子,初始是ping不通的. 方案使用IP设置里WINS设置,即可轻松实现 ...
【记录】有趣的python模块记录
1. paramiko: 基于SSH用于连接远程服务器并执行相关操作,公钥私钥登录等等
基于easyui开发Web版Activiti流程定制器详解（六）——Draw2d详解（二）
回顾: 上一篇我们介绍了Draw2d整体结构,展示了组件类关系图,其中比较重要的类有Node.Canvas.Command.Port.Connection等,这篇将进一步介绍Draw2d如何使用以及如 ...
Java8新特性 -- Lambda 方法引用和构造器引用
一. 方法引用: 若Lambda体中的内容有方法已经实现了,我们可以使用“方法引用” 要求方法的参数和返回值类型和函数式接口中的参数类型和返回值类型保持一致. 主要有三种语法格式: 对象 :: ...
MySQL半同步主从.md
MySQL Semisynchronous Replication 复制架构衍生史 1.普通的replication,异步同步. 搭建简单,使用非常广泛,从mysql诞生之初,就产生了这种架构,性能非 ...
jupyter notebook设置主题背景,字体和扩展插件
windows上安装Anaconda (IPython notebook) Anaconda是一个包与环境的管理器,一个Python发行版,以及一个超过1000多个开源包的集合.它是免费和易于安装的, ...
UVa 1363 - Joseph's Problem（数论）
链接: https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
Python - 格式化字符串的用法
0. 摘要 Python支持多种格式化字符串的方法,包括%-fromatting.str.format().f-strings三种,f-strings是Python3.6以后出现的一种新方法,相比其他 ...

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）

c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）的更多相关文章

随机推荐

热门专题