手动解析word Table模块内容

最近来了一个需求, 需要手动解析word ( 好处就是不需要安装office 以及不会有office解析的线程残留),然后就是可以自定义解析规则,比较方便

比如解析这个word里面的内容: 标题,表格的行和列,以及单元格里面的每一个项

解决方案

使用 DocumentFormat.OpenXml.dll + WindowsBase.dll+正则表达式

WindowsBase.dll 和 DocumentFormat.OpenXml.dll 都是微软的,

可以不用安装office 就能得到对应的文档( word,excel) 的 xml格式文本内容,缺点是只支持 docx,xlsx ,

低版本的(doc,xls)读不出来(可能是未按照对应的协议进行排版),

另外再说一个比较麻烦的问题, 金山wps和 office ,以及其他厂商的,对 word文件的内部实现不一样,解析的话需要做兼容处理.

以下是主要的对象以及方法:(仅供参考)

//引入命名空间

using System.Text.RegularExpressions;
using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Wordprocessing;


using (WordprocessingDocument doc = WordprocessingDocument.Open(stream, false))

  {

      Body body = doc.MainDocumentPart.Document.Body;

      foreach (var xmlElement in body.Elements<OpenXmlElement>())

      {

           List<string> RowElement = new List<string>();

           foreach (var item in xmlElement.ChildElements)

           {

               string elementText = item.InnerText.Trim();

               if (!string.IsNullOrEmpty(elementText))

               {

                   //处理 elementText

                   RowElement.Add(elementText);

               }

          }

      }

  }

 string bodyInnerXml = body.InnerXml;

 //然后通过 正则表达式 "<w:tbl(\\s|>)(.+?)</w:tbl>" 得到 table的个数

/*2.解析 table 对应的 单元格数据*/

 foreach (var table in body.Elements<Table>())

{

     string t_table_xml = table.InnerXml;

     //通过正则 "<w:tr(\\s|>)(.+?)</w:tr>"); 匹配行的个数

     //通过正则"<w:tr(\\s|>)(.+?)</w:tr>", "<w:tc>(.+?)</w:tc>" 匹配列的个数

}


 //遍历行

 foreach (var tableRow in table.Elements<TableRow>())

 {

     string rowInnerText = tableRow.InnerText;

     //遍历列

   foreach (var tableCell in tableRow.Elements<TableCell>())

   {

     //凡是实现了IEnumerable接口的类，都可以使用foreach循环迭代遍历, 不过很遗憾,没有提供 this[index] 的访问方式

      string celInnerXml = tableCell.InnerXml;

      //要解析 单个item项的内容. 只能通过 正则表达式了, 不同的厂商, 里面的xml内容是不一样的, 所以要做很多的兼容....

      if ((celInnerXml.Contains("<w:numPr>")|| celInnerXml.Contains("w:pPr>"))&& celInnerXml.Contains("</w:p>"))
      {

           //1.目前来说是这样做兼容的

           //2.然后通过正则 "<w:numPr(\\s|>)(.+?)</w:p>" 和 "<w:pPr(\\s|>)(.+?)</w:p>" 判断是否有对应的 匹配项

           //3.就算得到了 匹配项,. 里面还有很多的样式代码,要把这些样式代码都替换掉(通过正则 @"<(.[^>]*)>" 进行替换)

           //4.另外还有各种有序符号,无序符号,以及 checkbox框( □ ) 等 标识符, 这些字符贴到网页上 的code值好像都是9633 

           // 5.在 word里面  无序符号 是通过特殊的标签定义的,不同厂商的标签不一样,要识别不同厂商的只能做兼容处理

贴3个比较有用的方法

        /// <summary>

        /// 去除所有Html标签,以及换行,制表符

        /// </summary>

        /// <param name="Htmlstring">要格式化的字符串</param>

        /// <returns></returns>

        public static string NoHTML(string Htmlstring) //去除HTML标记

        {

            //删除脚本

            Htmlstring = Regex.Replace(Htmlstring, @"<script.+?</script>", "", RegexOptions.Multiline | RegexOptions.IgnoreCase);

            //删除HTML

            Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "/", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "/xa1", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "/xa2", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "/xa3", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "/xa9", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"&#(/d+);", "", RegexOptions.IgnoreCase);

            Htmlstring = Regex.Replace(Htmlstring, @"\r\n|\n|\t", "");

            return Htmlstring;

        }

        public static string NoXml(string xmlString,string replaceEmpty="")//去除xml标记

        {

            //删除脚本

           // xmlString = Regex.Replace(xmlString, @"<script.+?</script>", "", RegexOptions.Multiline | RegexOptions.IgnoreCase);

            //删除<>标签内的内容

            xmlString = Regex.Replace(xmlString, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);

            if (replaceEmpty.Length>0)

            {

                xmlString = xmlString.Replace(replaceEmpty, "");

            }

            xmlString = xmlString.Replace("□", "");

            return xmlString;

        }

        /// <summary>

        /// 得到所有(.+?)匹配到的集合

        /// </summary>

        /// <param name="regexStr">带(.+?)的正则表达式</param>

        /// <param name="inputHtml">Html源代码</param>

        /// <returns></returns>

        public static List<string> GetMatchRegexList(string regexStr, string inputHtml)

        {

            List<string>list = new List<string>();

            StringBuilder sbulider = new StringBuilder();

            if (!string.IsNullOrEmpty(regexStr))

            {

                Regex regex = new Regex(regexStr, RegexOptions.Singleline | RegexOptions.IgnoreCase);

                if (regex.IsMatch(inputHtml))

                {

                    MatchCollection mc = regex.Matches(inputHtml);

                    for (int i = 0; i < mc.Count; i++)

                    {

                        list.Add(mc[i].Groups[0].Value);

                    }

                }

            }

            return list;

        }

  GetInnerHtml(p_text:string):string{

    //p_text = p_text.replace(//g,"@rn");

    p_text = p_text.replace(/□/g,''); //这个是 9633

    p_text = p_text.replace(/<span style="white-space:pre">/g,'@rn');//兼容处理

    p_text = p_text.replace(/<br>/g,'@rn');//换行

    p_text = p_text.replace(/<\/br>/g,'@rn');//换行

    p_text = p_text.replace(/<\/p>/g,'<\/p>@rn');//换行

    p_text = p_text.replace(/<(.[^>]*)>/g,'');//去除<>标签块的内容

    p_text = p_text.replace(/@rn /g,'@rn'); //兼容处理

    p_text = p_text.replace(/n /g,''); //兼容处理,一些稀奇古怪的东西

    p_text = p_text.replace(/@rn/g,'@rn');//多个换行,替换为一个换行

    //... 其他的兼容性代码

     return p_text;

   }

  //其他代码

  // console.log(("□".charCodeAt(0))); //无序符号,粘贴到网页里面, 变成了 这个字符, 经测定,该字符的 code值 为 9633


另外如果是 直接将word里面的内容, 粘贴到 网页上的div里面,  然后获取innerHTML 代码, 传到后台, 需要做一下预处理
比如我这里标记换行, 用的是 "@rn" 字符

手动解析word Table模块内容的更多相关文章

解析word中的表格
由于word表格的特殊性,其本身中的数据本来就不够完善,不能够很好的知道其具体的合并.跨行的相关属性,表格的单位可能是PT或者是百分比,并且是共存的,为处理带来了一定的负担,本代码实现了一个将Word ...
Java解析word文档
背景在互联网教育行业,做内容相关的项目经常碰到的一个问题就是如何解析word文档. 因为系统如果无法智能的解析word,那么就只能通过其他方式手动录入word内容,效率低下,而且人工成本和录入出错率 ...
用python解析word文件（三）：style
太长了,我决定还是拆开三篇写. (一)段落篇(paragraph) (二)表格篇(table) (三)样式篇(style)(本篇) 选你所需即可.下面开始正文. 在前两篇中,我们已经解析出了par ...
用python解析word文件（一）：paragraph
太长了,我决定还是拆开三篇写. (一)段落篇(paragraph)(本篇) (二)表格篇(table) (三)样式篇(style) 选你所需即可.下面开始正文. 最近公司的项目,需要在页面上显示w ...
php解析word,获得文档中的图片
背景前段时间在写一个功能:用原生php将获得word中的内容并导入到网站系统中.因为文档中存在公式,图片,表格等,因此写的比较麻烦. 思路大体思路是先将word中格式为doc的文档转化为docx, ...
如何手动解析vue单文件并预览？
开头笔者之前的文章里介绍过一个代码在线编辑预览工具的实现(传送门:快速搭建一个代码在线编辑预览工具),实现了css.html.js的编辑,但是对于demo场景来说,vue单文件也是一个比较好的代码组 ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
Apache-Tika解析Word文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下: package com.mengyao.tika.app; i ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...

随机推荐

POJ1655 Balancing Act （树的重心）
求树的重心的模板题,size[u]维护以u为根的子树大小,f[u]表示去掉u后的最大子树. 1 #include<cstdio> 2 #include<iostream> 3 ...
洛谷P2880 [USACO07JAN] Balanced Lineup G（树状数组/线段树）
维护区间最值的模板题. 1.树状数组 1 #include<bits/stdc++.h> 2 //树状数组做法 3 using namespace std; 4 const int N=5 ...
VLQ & Base64 VLQ 编码方式的原理及代码实现
目录 VLQ Base64 VLQ VLQ VLQ (Variable-length quantity)是一种通用的,使用任意位数的二进制来表示一个任意大的数字的一种编码方式. 编码实现: ** 对数 ...
设计一个网上书店，该系统中所有的计算机类图书（ComputerBook）每本都有10%的折扣，所有的语言类图书（LanguageBook）每本都有2元的折扣，小说类图书（NovelBook）每100元
现使用策略模式来设计该系统,绘制类图并编程实现 UML类图书籍 package com.zheng; public class Book { private double price;// 价格 p ...
成功解决：snippet设置的开机自启没有效果
1.问题描述勾选开机启动后.没有效果.每次开机都要我重新找到对应的安装目录.双击运行开启 2.解决方法将snipaste的快捷方式放到开机启动目录下 C:\Users\Administrator\ ...
纯Vue实现网页日常任务清单小功能（数据存储在浏览器）
任务清单可以极大提高我们的工作效率.哪些事情办了.哪些事情代办.哪些是紧急需要办的事情等等. 在组件化编码实战3的基础上进一步改进.将原先的数据保存的浏览器中.就可以做到关闭网页也不会丢失数据的情况 ...
创建第一个springboot项目、用springboot实现页面跳转、@Controller和@RestController的区别
文章目录一.第一个spring boot项目二.spring boot跳转到指定页面三.怎样将后台的信息传递到前台四. @Controller和@RestController的区别? 一.第一 ...
齐博x1头部底部菜单高亮设置
下面这段是默认模板头部的导航菜单: {php}$menu_choose=config('system_dirname')?config('system_dirname'):'index';{/php} ...
C语言爱心表白程序
#include <stdio.h> #include <math.h> #include <windows.h> #include <tchar.h> ...
当 xxl-job 遇上 docker → 它晕了，我也乱了！
开心一刻公交车上,一位老大爷睡着了,身体依靠在背后的一位年轻小伙子身上小伙子一直保持站姿十几分钟,直到老人下车这位在校大学生,接受采访时说:"当时就觉得背后这个人很轻盈,以为是个姑娘! ...

手动解析word Table模块内容

使用 DocumentFormat.OpenXml.dll + WindowsBase.dll+正则表达式

WindowsBase.dll 和 DocumentFormat.OpenXml.dll 都是微软的,

手动解析word Table模块内容的更多相关文章

随机推荐

热门专题