最近来了一个需求, 需要手动解析word ( 好处就是不需要安装office 以及不会有office解析的线程残留),然后就是可以自定义解析规则,比较方便

比如解析这个word里面的内容: 标题,表格的行和列,以及单元格里面的每一个项

解决方案

使用 DocumentFormat.OpenXml.dll + WindowsBase.dll+正则表达式

WindowsBase.dll  和 DocumentFormat.OpenXml.dll 都是微软的,

可以不用安装office 就能得到 对应的 文档( word,excel) 的 xml格式文本内容,缺点是 只支持 docx,xlsx ,

低版本的(doc,xls)读不出来(可能是未按照对应的协议进行排版),

另外再说一个比较 麻烦的问题,  金山wps和 office ,以及其他厂商的,对 word文件 的内部实现不一样,解析的话需要做兼容处理.

以下是主要的对象以及方法:(仅供参考)

//引入命名空间

using System.Text.RegularExpressions;
using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Wordprocessing;


using (WordprocessingDocument doc = WordprocessingDocument.Open(stream, false))
{
Body body = doc.MainDocumentPart.Document.Body; foreach (var xmlElement in body.Elements<OpenXmlElement>())
{
List<string> RowElement = new List<string>();
foreach (var item in xmlElement.ChildElements)
{
string elementText = item.InnerText.Trim();
if (!string.IsNullOrEmpty(elementText))
{
//处理 elementText
RowElement.Add(elementText);
}
}
}
} string bodyInnerXml = body.InnerXml;
//然后通过 正则表达式 "<w:tbl(\\s|>)(.+?)</w:tbl>" 得到 table的个数 /*2.解析 table 对应的 单元格数据*/
foreach (var table in body.Elements<Table>())
{
string t_table_xml = table.InnerXml;
//通过正则 "<w:tr(\\s|>)(.+?)</w:tr>"); 匹配行的个数
//通过正则"<w:tr(\\s|>)(.+?)</w:tr>", "<w:tc>(.+?)</w:tc>" 匹配列的个数 }
//遍历行
foreach (var tableRow in table.Elements<TableRow>())
{
string rowInnerText = tableRow.InnerText;
//遍历列
foreach (var tableCell in tableRow.Elements<TableCell>())
{
//凡是实现了IEnumerable接口的类,都可以使用foreach循环迭代遍历, 不过很遗憾,没有提供 this[index] 的访问方式
string celInnerXml = tableCell.InnerXml;
//要解析 单个item项的内容. 只能通过 正则表达式了, 不同的厂商, 里面的xml内容是不一样的, 所以要做很多的兼容....
if ((celInnerXml.Contains("<w:numPr>")|| celInnerXml.Contains("w:pPr>"))&& celInnerXml.Contains("</w:p>"))
{
           //1.目前来说是这样做兼容的 
           //2.然后通过正则 "<w:numPr(\\s|>)(.+?)</w:p>" 和 "<w:pPr(\\s|>)(.+?)</w:p>" 判断是否有对应的 匹配项

           //3.就算得到了 匹配项,. 里面还有很多的样式代码,要把这些样式代码都替换掉(通过正则 @"<(.[^>]*)>" 进行替换)

           //4.另外还有各种有序符号,无序符号,以及 checkbox框( □ ) 等 标识符, 这些字符贴到网页上 的code值好像都是9633 

// 5.在 word里面 无序符号 是通过特殊的标签定义的,不同厂商的标签不一样,要识别不同厂商的只能做兼容处理
      }

   }

}

贴3个比较有用的方法

        /// <summary>
/// 去除所有Html标签,以及换行,制表符
/// </summary>
/// <param name="Htmlstring">要格式化的字符串</param>
/// <returns></returns>
public static string NoHTML(string Htmlstring) //去除HTML标记
{
//删除脚本
Htmlstring = Regex.Replace(Htmlstring, @"<script.+?</script>", "", RegexOptions.Multiline | RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase); Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "/", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "/xa1", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "/xa2", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "/xa3", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "/xa9", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"&#(/d+);", "", RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring, @"\r\n|\n|\t", ""); return Htmlstring;
}
        public static string NoXml(string xmlString,string replaceEmpty="")//去除xml标记
{
//删除脚本
// xmlString = Regex.Replace(xmlString, @"<script.+?</script>", "", RegexOptions.Multiline | RegexOptions.IgnoreCase);
//删除<>标签内的内容
xmlString = Regex.Replace(xmlString, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
if (replaceEmpty.Length>0)
{
xmlString = xmlString.Replace(replaceEmpty, "");
}
xmlString = xmlString.Replace("□", "");
return xmlString;
}

        /// <summary>
/// 得到所有(.+?)匹配到的集合
/// </summary>
/// <param name="regexStr">带(.+?)的正则表达式</param>
/// <param name="inputHtml">Html源代码</param>
/// <returns></returns>
public static List<string> GetMatchRegexList(string regexStr, string inputHtml)
{
List<string>list = new List<string>();
StringBuilder sbulider = new StringBuilder();
if (!string.IsNullOrEmpty(regexStr))
{
Regex regex = new Regex(regexStr, RegexOptions.Singleline | RegexOptions.IgnoreCase);
if (regex.IsMatch(inputHtml))
{
MatchCollection mc = regex.Matches(inputHtml);
for (int i = 0; i < mc.Count; i++)
{
list.Add(mc[i].Groups[0].Value);
}
}
}
return list;
}
  GetInnerHtml(p_text:string):string{

    //p_text = p_text.replace(//g,"@rn");
p_text = p_text.replace(/□/g,''); //这个是 9633
p_text = p_text.replace(/<span style="white-space:pre">/g,'@rn');//兼容处理
p_text = p_text.replace(/<br>/g,'@rn');//换行
p_text = p_text.replace(/<\/br>/g,'@rn');//换行
p_text = p_text.replace(/<\/p>/g,'<\/p>@rn');//换行
p_text = p_text.replace(/<(.[^>]*)>/g,'');//去除<>标签块的内容 p_text = p_text.replace(/@rn /g,'@rn'); //兼容处理
p_text = p_text.replace(/n /g,''); //兼容处理,一些稀奇古怪的东西
p_text = p_text.replace(/@rn/g,'@rn');//多个换行,替换为一个换行
//... 其他的兼容性代码
return p_text;
}
  //其他代码
  // console.log(("□".charCodeAt(0))); //无序符号,粘贴到网页里面, 变成了 这个字符, 经测定,该字符的 code值 为 9633

另外如果是 直接将word里面的内容, 粘贴到 网页上的div里面, 然后获取innerHTML 代码, 传到后台, 需要做一下预处理
比如我这里标记换行, 用的是 "@rn" 字符

手动解析word Table模块内容的更多相关文章

  1. 解析word中的表格

    由于word表格的特殊性,其本身中的数据本来就不够完善,不能够很好的知道其具体的合并.跨行的相关属性,表格的单位可能是PT或者是百分比,并且是共存的,为处理带来了一定的负担,本代码实现了一个将Word ...

  2. Java解析word文档

    背景 在互联网教育行业,做内容相关的项目经常碰到的一个问题就是如何解析word文档. 因为系统如果无法智能的解析word,那么就只能通过其他方式手动录入word内容,效率低下,而且人工成本和录入出错率 ...

  3. 用python解析word文件(三):style

    太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph) (二)表格篇(table) (三)样式篇(style)(本篇) 选你所需即可.下面开始正文. 在前两篇中,我们已经解析出了par ...

  4. 用python解析word文件(一):paragraph

    太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph)(本篇) (二)表格篇(table) (三)样式篇(style) 选你所需即可.下面开始正文. 最近公司的项目,需要在页面上显示w ...

  5. php解析word,获得文档中的图片

    背景 前段时间在写一个功能:用原生php将获得word中的内容并导入到网站系统中.因为文档中存在公式,图片,表格等,因此写的比较麻烦. 思路 大体思路是先将word中格式为doc的文档转化为docx, ...

  6. 如何手动解析vue单文件并预览?

    开头 笔者之前的文章里介绍过一个代码在线编辑预览工具的实现(传送门:快速搭建一个代码在线编辑预览工具),实现了css.html.js的编辑,但是对于demo场景来说,vue单文件也是一个比较好的代码组 ...

  7. python 解析XML python模块xml.dom解析xml实例代码

    分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...

  8. Apache-Tika解析Word文档

    通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下: package com.mengyao.tika.app; i ...

  9. 【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用

    [爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...

随机推荐

  1. frp服务利用云主机实现Windows远程连接

    frp服务利用云主机实现Windows远程连接 1.下载所需要的安装包 https://github.com/fatedier/frp/releases 下载 frp_0.44.0_linux_amd ...

  2. python合并多个excel

    前言 1.工作中,经常需要合并多个Excel文件.如果文件数量比较多,则工作量大,易出错,此时,可以使用Python来快速的完成合并. 2.使用方法:将需要合并的多个Excel文件放到同一个文件夹下, ...

  3. MySQL 窗口函数

    1. 窗口函数概念和语法 窗口函数对一组查询行执行类似聚合的操作.然而,聚合操作将查询行分组到单个结果行,而窗口函数为每个查询行产生一个结果: 函数求值发生的行称为当前行 与发生函数求值的当前行相关的 ...

  4. Gson的使用与理解

    当今社会下,前后端分离,不同系统的信息交互,消息队列的数据传递,微服务的不同服务之间的数据处理,越来越多地方用到了序列化.序列化作为不同系统不同服务之间的数据桥梁.那么方便快捷的序列化工具还是必要的. ...

  5. Docker | dockerfile构建centos镜像,以及CMD和ENTRYPOINT的区别

    构建自己的centos镜像 docker pull centos下载下来的镜像都是基础版本,缺少很多常用的命令功能,比如:ll.vim等等, 下面介绍制作一个功能较全的自己的centos镜像. 步骤 ...

  6. doecker---制作DockerFile并上传Hub

    一.DockerFile基础知识 FROM #基础镜像,一切从这里开始构建 MAINTAINER #镜像是谁写的,姓名+邮箱 RUN #镜像构建的时候需要运行的命令 ADD #添加内容,步骤,tomc ...

  7. 发送HTTP请求方法- 留着自用

    /** * 发送HTTP请求方法,目前只支持CURL发送请求 * @param string $url 请求URL * @param array $data POST的数据,GET请求时该参数无效 * ...

  8. python同时识别多张人脸(运用face_recognition)

    之前发的博客和网上流传的代码严格来说都只算得上是人脸检测,不能区别人脸,今天来说说真的人脸识别 篇幅所限,就举两张人脸的例子了,本程序需要安装face_recognition 下面是全部源代码: im ...

  9. 一台虚拟机,基于docker搭建大数据HDP集群

    前言 好多人问我,这种基于大数据平台的xxxx的毕业设计要怎么做.这个可以参考之前写得关于我大数据毕业设计的文章.这篇文章是将对之前的毕设进行优化. 个人觉得可以分为两个部分.第一个部分就是基础的平台 ...

  10. 工作中,本人常用到的unzip、zip命令

    1. 命令安装 1.1 zip安装 yum install zip 1.2 unzip安装 yum install unzip 2. 常用命令 2.1 常用zip命令 2.1.1 压缩文件 zip x ...