C# Html格式内容转Csv内容包括table(重点在rowspan和colspan合并),p,div元素

Html格式内容转Csv内容，包括table(重点在rowspan和colspan合并),p,div元素，table不能包含嵌套功能。

 /// <summary>

 /// Html格式内容转Csv内容包括table(重点在rowspan和colspan合并),p,div元素

 /// </summary>

 /// <param name="hrml"></param>

 /// <returns></returns>

 private string HtmlToCsv(string hrml)

 {

     HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

     doc.LoadHtml(hrml);

     StringBuilder sbLines = new StringBuilder();

     HtmlAgilityPack.HtmlNodeCollection tList = doc.DocumentNode.SelectNodes("//table");

     if (tList != null)

     {

         foreach (HtmlAgilityPack.HtmlNode table in tList)

         {

             sbLines.AppendLine("#flag_table#,");

             HtmlAgilityPack.HtmlNodeCollection rows = table.SelectNodes("//tr");

             if (rows != null)

             {

                 int colCount = ;

                 StringBuilder sbTable = new StringBuilder();

                 foreach (HtmlAgilityPack.HtmlNode td in rows[].ChildNodes.Where(m => m.OriginalName.ToLower() == "td"))

                 {

                     HtmlAgilityPack.HtmlAttribute attr = td.Attributes["colspan"];

                     int colspan = (attr != null) ? int.Parse(attr.Value) : ;

                     colCount = colCount + colspan;

                 }

                 int rowCount = rows.Count;

                 string[][] arr = new string[rowCount][];

                 for (int r = ; r < rowCount; r++)

                 {

                     arr[r] = new string[colCount];

                 }

                 //填充区域

                 for (int r = ; r < rowCount; r++)

                 {

                     HtmlAgilityPack.HtmlNode tr = rows[r];

                     List<HtmlAgilityPack.HtmlNode> cols = tr.ChildNodes.Where(m => m.OriginalName.ToLower() == "td").ToList();

                     int colspan = ;

                     int rowspan = ;

                     for (int c = ; c < cols.Count; c++)

                     {

                         HtmlAgilityPack.HtmlAttribute cAttr = cols[c].Attributes["colspan"];

                         colspan = (cAttr != null) ? int.Parse(cAttr.Value) : ;

                         HtmlAgilityPack.HtmlAttribute rAttr = cols[c].Attributes["rowspan"];

                         rowspan = (rAttr != null) ? int.Parse(rAttr.Value) : ;

                         string text = cols[c].InnerText.Replace("&nbsp;", "").Replace(",", "，").Replace("\r", "").Replace("\n", "").Trim();

                         if (colspan ==  && rowspan == )

                         {

                             continue;

                         }

                         bool isFirst = true;

                         int rFill = r + rowspan;

                         for (int ri = r; ri < rFill; ri++)

                         {

                             int cFill = c + colspan;

                             for (int ci = c; ci < cFill; ci++)

                             {

                                 if (isFirst)

                                 {

                                     text = (text == string.Empty) ? " " : text;

                                     arr[ri][ci] = text;

                                     isFirst = false;

                                 }

                                 else

                                 {

                                     arr[ri][ci] = string.Empty;

                                 }

                             }

                         }

                     }

                 }

                 //填充单元

                 for (int r = ; r < rowCount; r++)

                 {

                     HtmlAgilityPack.HtmlNode tr = rows[r];

                     List<HtmlAgilityPack.HtmlNode> cols = tr.ChildNodes.Where(m => m.OriginalName.ToLower() == "td").ToList();

                     Queue<string> queue = new Queue<string>();

                     for (int c = ; c < cols.Count; c++)

                     {

                         string text = cols[c].InnerText.Replace("&nbsp;", "").Replace(",", "，").Replace("\r", "").Replace("\n", "").Trim();

                         queue.Enqueue(text);

                     }

                     for (int c = ; c < colCount; c++)

                     {

                         if (arr[r][c] == null)

                         {

                             string text = queue.Count >  ? queue.Dequeue() : string.Empty;

                             arr[r][c] = text;

                         }

                         else

                         {

                             if (arr[r][c] != string.Empty)

                             {

                                 if (queue.Count > )

                                 {

                                     queue.Dequeue();

                                 }

                             }

                         }

                     }

                 }

                 //组装成cvs格式内容

                 foreach (string[] cols in arr)

                 {

                     foreach (string col in cols)

                     {

                         sbLines.Append(col + ",");

                     }

                     sbLines.AppendLine(",");

                 }

                 table.RemoveAll();

             }

         }

     }

     HtmlAgilityPack.HtmlNodeCollection pList = doc.DocumentNode.SelectNodes("//p");

     if (pList != null)

     {

         sbLines.AppendLine("#flag_text#,");

         foreach (HtmlAgilityPack.HtmlNode p in pList)

         {

             string text = p.InnerText.Replace("&nbsp;", "").Replace(",", "，").Replace("\r", "").Replace("\n", "").Trim();

             text = GetTextByHtml(text);

             if (!string.IsNullOrWhiteSpace(text))

             {

                 sbLines.Append(text + ",");

                 sbLines.AppendLine(",");

             }

             else

             {

                 sbLines.AppendLine(",");

             }

             p.RemoveAll();

         }

     }

     HtmlAgilityPack.HtmlNodeCollection dList = doc.DocumentNode.SelectNodes("//div");

     if (pList != null)

     {

         sbLines.AppendLine("#flag_text#,");

         foreach (HtmlAgilityPack.HtmlNode div in pList)

         {

             string text = div.InnerText.Replace("&nbsp;", "").Replace(",", "，").Replace("\r", "").Replace("\n", "").Trim();

             text = GetTextByHtml(text);

             if (!string.IsNullOrWhiteSpace(text))

             {

                 sbLines.Append(text + ",");

                 sbLines.AppendLine(",");

             }

             else

             {

                 sbLines.AppendLine(",");

             }

             //div.RemoveAll();

         }

     }

     return sbLines.ToString();

 }

html:

csv:

url:http://www.cnblogs.com/dreamman/p/5343924.html

C# Html格式内容转Csv内容包括table(重点在rowspan和colspan合并),p,div元素的更多相关文章

html标签，格式控制标签，内容容器标签，超链接标签，图片标签，表格
打开DREAMWEAVER,新建HTML,如下图: body的属性: bgcolor 页面背景色 background 背景壁纸.图片 text 文字颜色 topmargin 上边距 leftm ...
python如何转换word格式、读取word内容、转成html
# python如何转换word格式.读取word内容.转成html? import docx from win32com import client as wc # 首先将doc转换成docx wo ...
企业架构研究总结（30）——TOGAF架构内容框架之内容元模型（上）
2. 内容元模型(Content Metamodel) 在TOGAF的眼中,企业架构是以一系列架构构建块为基础的,并将目录.矩阵和图形作为其具体展现方式.如果我们把这些表述方式看作为构建块的语法,那么 ...
TOGAF架构内容框架之内容元模型（上）
TOGAF架构内容框架之内容元模型(上) 2. 内容元模型(Content Metamodel) 在TOGAF的眼中,企业架构是以一系列架构构建块为基础的,并将目录.矩阵和图形作为其具体展现方式.如果 ...
Django之富文本（获取内容，设置内容）
富文本 1.Rich Text Format(RTF) 微软开发的跨平台文档格式,大多数的文字处理软件都能读取和保存RTF文档,其实就是可以添加样式的文档,和HTML有很多相似的地方图示 2.tin ...
【C#】菜单功能，将剪贴板JSON内容或者xml内容直接粘贴为类
VS 2015菜单功能,将剪贴板JSON内容或者xml内容直接粘贴为类
content内网，会显示内容，没有内容可地址存在就是这个情况
漏洞地址:http://note.youdao.com/memory/?url=http://www.wooyun.org(如需登录,请注册登录) 正文预览的地方会读取URL地址的<meta n ...
为什么当多个inline-block的div中，如果有的div没有内容而有的div有内容，有内容的会下沉？
为什么当多个inline-block的div中,如果有的div没有内容而有的div有内容,有内容的会下沉? 就像这样两个div高度相同,第二个我写了一个1当作有内容吧,它就下沉了... 奇怪... ...
TOGAF架构内容框架之内容元模型（下）
TOGAF架构内容框架之内容元模型(下) 2.2 治理扩展(Governance Extensions) 治理扩展元模型内容治理扩展部分的意图在于引入额外的,并且与支持运营治理的目标和业务服务相关的 ...

随机推荐

[文章汇总]ASP.NET Core框架揭秘[最近更新：2018/10/31]
之前一段时间都在个人公众号账号“大内老A”发布关于ASP.NET Core的系列文章,很多人留言希望能够同步到这里,所以在这里对这些文章做一个汇总,以便于PC端阅读.如果说微软官方文档主要关于ASP ...
Dora.Interception，为.NET Core度身打造的AOP框架 [4]：与依赖注入框架的无缝集成
Dora.Interception最初的定位就是专门针对.NET Core的AOP框架,所以在整个迭代过程中我大部分是在做减法.对于.NET Core程序开发来说,依赖注入已经成为无处不在并且“深入骨 ...
js 格式化数字，格式化金额：
js 格式化数字,格式化金额: function number_format(number, decimals, dec_point, thousands_sep) { /* * 参数说明: * nu ...
【RL-TCPnet网络教程】第30章 RL-TCPnet之SNTP网络时间获取
第30章 RL-TCPnet之SNTP网络时间获取本章节为大家讲解RL-TCPnet的SNTP应用,学习本章节前,务必要优先学习第29章的NTP基础知识.有了这些基础知识之后,再搞本章节会 ...
[Swift]LeetCode824. 山羊拉丁文 | Goat Latin
A sentence S is given, composed of words separated by spaces. Each word consists of lowercase and up ...
ubuntu(版本14.04)部署Core环境
遇到问题: 参照官方文档敲完命令之后出现了提示的问题Unable to lpcate package... ,随后参照官方文档解决方案,又出现了如下问题: 提示找不到依赖的Runtime,在尝试过很 ...
SpringBoot时间戳与MySql数据库记录相差14小时排错
项目中遇到存储的时间戳与真实时间相差14小时的现象,以下为解决步骤. 问题 CREATE TABLE `incident` ( `id` int(11) NOT NULL AUTO_INCREMENT ...
Python档案袋（文件系列操作 )
文件读写基础简单的读文件: # r 表示只能读 #打开文件,得到文件光标对象,文件不存在则报错 f=open("ww.txt","r",encoding=&q ...
.NET Core实战项目之CMS 第二章入门篇-快速入门ASP.NET Core看这篇就够了
作者:依乐祝原文链接:https://www.cnblogs.com/yilezhu/p/9985451.html 本来这篇只是想简单介绍下ASP.NET Core MVC项目的(毕竟要照顾到很多新 ...
vue组件如何被其他项目引用
自己写的vue组件怎么才能让其他人引用呢,或者是共用组件如何让其他项目引用.本文就粗细的介绍下,如有疑问欢迎共同讨论.在这里你能了解下如下知识点: 1. 如何发布一个包到npmjs仓库上 2.如何引用 ...

C# Html格式内容转Csv内容包括table(重点在rowspan和colspan合并),p,div元素

C# Html格式内容转Csv内容包括table(重点在rowspan和colspan合并),p,div元素的更多相关文章

随机推荐

热门专题