dotnet OpenXML 读取 PPT 内嵌 ole 格式 Excel 表格的信息
在 Office 中,可以在 PPT 里面插入表格,插入表格有好多不同的方法,对应 OpenXML 文档存储的更多不同的方式。本文来介绍如何读取 PPT 内嵌 ole 格式的 xls+ 表格的方法
在 Office 的 PPT 中,插入表格可以对应多个不同的方式:
- 通过 GraphicData 内嵌到 PPTX 页面里面
- 通过嵌入文件方式
- 通过 SmartArt 模拟的表格,本质上就是 SmartArt 元素
其中通过嵌入文件方式可以分为以下不同的嵌入方式:
- 通过外嵌 Microsoft_Excel_Worksheet.xlsx 格式,此格式可以解析。这是在 Office 2019 的默认
- 通过外嵌 oleObject1.bin 格式,此格式是 ole 格式,里面包含 xls+ 格式
- 通过外嵌 oleObject1.bin 格式,此格式是 ole 格式,里面包含了 xls 格式
什么是 xls+ 格式?其实这个名字我没有找到权威的文档来说明。大概是在 Office 2016 的默认行为是如此,点击表格,插入 Excel 电子表格时嵌入的文档就是此格式。这个格式存放方式是 ole 格式,在此 OLE 文件里面,将存放 OpenXML 格式的 xlsx 格式的表格文件,以下将详细告诉大家此格式
在 Slide.xml 页面里面,存放的是在 GraphicFrame 下的内容,简化的 OpenXML 文档如下
<p:graphicFrame>
<p:nvGraphicFramePr>
<p:cNvPr id="9" name="表格 1" />
</p:nvGraphicFramePr>
<p:xfrm>
<a:off x="5405438" y="3241675" />
<a:ext cx="3438525" cy="2009775" />
</p:xfrm>
<a:graphic>
<a:graphicData uri="http://schemas.openxmlformats.org/presentationml/2006/ole">
<mc:AlternateContent xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006">
<mc:Choice xmlns:v="urn:schemas-microsoft-com:vml" Requires="v">
<p:oleObj spid="_x0000_s1026" name="工作表" r:id="rId3" imgW="3438630" imgH="2009788" progId="Excel.Sheet.12">
<p:embed />
</p:oleObj>
</mc:Choice>
<mc:Fallback>
<!-- 忽略 -->
</mc:Fallback>
</mc:AlternateContent>
</a:graphicData>
</a:graphic>
</p:graphicFrame>
以上逻辑核心的就是存放的嵌入的 oleObj 对象,可以在 Slide.xml.rels 文件里面找到如下定义内容
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
<Relationship Id="rId3" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/oleObject" Target="../embeddings/oleObject1.bin" />
</Relationships>
也就是说嵌入的表格是放在 embeddings 文件夹下的 oleObject1.bin 文件,这是一个 OLE 文件。本质上来说 OLE 和 ZIP 等压缩格式是同等级的,是用来做存储的,也就是说 OLE 格式本身不是特定给 Excel 表格使用的,仅仅只是用来做存储而已。大家是否还记得 ppt 和 pptx 的差别,上古(2003)的时候,采用的是格式是 ppt 格式,此格式的存储就是 OLE 存储方式,也可以这样认为,古时候的 xls 和 ppt 等都是 OLE 文件。但是新版本的 pptx 和 xlsx 等都是 OpenXML 格式
嵌入到 PPT 的 oleObject1.bin 也就是 OLE 文件,对应上古的格式。但是有一些不同的是,此文件不属于 xls 文件格式,而是细分为两个类别,其中一个是在 OLE 里面存放 xls 的,另一个存放的是 xlsx 的。也就是说需要将 oleObject1.bin 展开,才可以获取里面的表格文件。本文将在 OLE 里面存放 xlsx 格式的嵌入方式称为 xls+ 格式
先来开始从 OpenXML 文档读取到 OLE 嵌入文件的逻辑
和通用的 PPTX 文件解析相同的逻辑,先读取文件,我的测试文件在首页就嵌入了表格。本文所有的代码和测试文件都可以在本文末尾找到下载方式
var file = new FileInfo("Test.pptx");
using var presentationDocument = PresentationDocument.Open(file.FullName, false);
var slide = presentationDocument.PresentationPart!.SlideParts.First().Slide;
接下来获取 GraphicFrame 和里层的信息
var graphicFrame = slide.CommonSlideData!.ShapeTree!.GetFirstChild<GraphicFrame>()!;
var graphic = graphicFrame.Graphic!;
var graphicData = graphic.GraphicData!;
如上述文档,在 GraphicData 里面存放的是 AlternateContent 元素,此元素里面再嵌入 OLE 文件
var alternateContent = graphicData.GetFirstChild<AlternateContent>()!;
var choice = alternateContent.GetFirstChild<AlternateContentChoice>()!;
var oleObject = choice.GetFirstChild<OleObject>()!;
Debug.Assert(oleObject.GetFirstChild<OleObjectEmbed>() != null);
通过以上逻辑即可获取到对应的 OleObject 对象。本文上面的例子代码仅仅只是用于本文的测试文件,对于其他文件不确定是否存在表格的,还请自行判断空,而不是采用本文的断言方式。本文的例子里的代码为了清晰,就不添加其他分支判断
以上代码拿到了 OleObject 即可获取到对应的 oleObject1.bin 文件。在 OpenXML SDK 里面,不会真的将 PPTX 文件解压缩,原因有两个:第一个是性能考虑,第二个是有一些内容解压缩之后会丢失信息(不是使用文件存放的,只是兼容zip格式而已)而导致了尝试使用路径读取 oleObject1.bin 文件是不可行的。通过 dotnet OpenXML 为什么资源使用 Relationship 引用 博客了解到,读取方法如下
var id = oleObject.Id!;
var part = slide.SlidePart!.GetPartById(id!);
Debug.Assert(part.ContentType== "application/vnd.openxmlformats-officedocument.oleObject");
使用 part.GetStream(FileMode.Open)
就可以打开 oleObject1.bin 对应的 Stream 对象
然而这是一个 OLE 对象,为了解析此文件,咱需要引入一个基于 MPL 协议(宽松,可商业,无须开源)的 Open MCDF 库,这是一个完全由 C# 实现的读取 OLE 格式文档的库,在我做 VisualStudio 插件时也用到,请看 dotnet Roslyn 通过读取 suo 文件获取解决方案的启动项目
在 csproj 上添加如下代码进行安装 Open MCDF 库
<PackageReference Include="OpenMcdf" Version="2.2.1.9" />
当前的 csproj 项目文件代码如下
<Project Sdk="Microsoft.NET.Sdk">
<PropertyGroup>
<OutputType>WinExe</OutputType>
<TargetFramework>net5.0-windows</TargetFramework>
<UseWPF>true</UseWPF>
</PropertyGroup>
<ItemGroup>
<None Update="Test.pptx">
<CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
</None>
</ItemGroup>
<ItemGroup>
<PackageReference Include="dotnetCampus.OpenXmlUnitConverter" Version="1.7.1" />
<PackageReference Include="DocumentFormat.OpenXml" Version="2.13.1" />
<PackageReference Include="OpenMcdf" Version="2.2.1.9" />
</ItemGroup>
</Project>
尽管在 Open MCDF 库提供了 CompoundFile 的构造函数可以传入 Stream 对象,但是因为在 OpenXML 的 Part 取出的 Stream 是不可随机访问的(为了解决 N 多的坑,在 System.IO.Packaging 限制)因此以下代码是不可用的
var compoundFile = new CompoundFile(part.GetStream(FileMode.Open));
执行上面代码将会提示 OpenMcdf.CFException:“Cannot load a non-seekable Stream”
而失败
为了使用 Open MCDF 库读取,需要先存放到本地文件,代码如下
var tempFolder = System.IO.Path.GetTempPath();
var oleFile = System.IO.Path.Combine(tempFolder, System.IO.Path.GetRandomFileName());
using (var fileStream = File.OpenWrite(oleFile))
{
using var stream = part.GetStream(FileMode.Open);
stream.CopyTo(fileStream);
}
打开此 OLE 文件代码如下
var compoundFile = new CompoundFile(oleFile);
从此 OLE 文件读取出 xlsx 文件的代码如下
var packageStream = compoundFile.RootStorage.GetStream("Package");
var xlsxFile = System.IO.Path.Combine(tempFolder, System.IO.Path.GetRandomFileName()+".xlsx");
using (var fileStream = File.OpenWrite(xlsxFile))
{
fileStream.Write(packageStream.GetData().AsSpan());
}
在获取到 xlsxFile 文件之后,即可进行 Excel 解析,读取里面的信息
using var spreadsheetDocument = SpreadsheetDocument.Open(xlsxFile,false);
var sheets = spreadsheetDocument.WorkbookPart!.Workbook.Sheets;
更多读取 Excel 的方法请看 C# dotnet WPF 使用 OpenXml 解析 Excel 文件
本文不再详细告诉大家如何读取此 Excel 内容
本文以上的测试文件和代码放在github 和 gitee 欢迎访问
可以通过如下方式获取本文的源代码,先创建一个空文件夹,接着使用命令行 cd 命令进入此空文件夹,在命令行里面输入以下代码,即可获取到本文的代码
git init
git remote add origin https://gitee.com/lindexi/lindexi_gd.git
git pull origin 976b039620120286bed59eda5363a87b592941ca
以上使用的是 gitee 的源,如果 gitee 不能访问,请替换为 github 的源
git remote remove origin
git remote add origin https://github.com/lindexi/lindexi_gd.git
获取代码之后,进入 Pptx 文件夹
更多请看 Office 使用 OpenXML SDK 解析文档博客目录
更多参考:
- [MS-OFFDI].pdf
- [MS-XLS].pdf
- [MS-OI 29500].pdf
dotnet OpenXML 读取 PPT 内嵌 ole 格式 Excel 表格的信息的更多相关文章
- C内嵌汇编-格式
C内嵌汇编-格式: __asm__(汇编语句部分:输出部分:输入部分破坏描述部分);C内嵌汇编以关键字"__asm__"或"asm"开始, 下辖四个部分, 各部 ...
- PPT内嵌视频(指发布时只需要ppt一个文件即可)
做实验时用手机拍了视频,想把视频嵌入到PPT中.只是单纯的嵌入很容易,但是我想将PPT推送给其他人时,不需要再传视频文件.搜了一下做法,可以通过flash视频格式实现.电脑为thinkpad笔记本,w ...
- .NET Core的文件系统[4]:由EmbeddedFileProvider构建的内嵌(资源)文件系统
一个物理文件可以直接作为资源内嵌到编译生成的程序集中.借助于EmbeddedFileProvider,我们可以统一的编程方式来读取内嵌于某个程序集中的资源文件,不过在这之前我们必须知道如何将一个项目文 ...
- MongoDB 内嵌文档
MongoDB是文档型的数据库系统,doc是MongoDB的数据单位,每个doc相当于关系型数据库的数据行(row),doc和row的区别在于field的原子性:row中的column是不和分割的原子 ...
- 由EmbeddedFileProvider构建的内嵌(资源)文件系统
由EmbeddedFileProvider构建的内嵌(资源)文件系统 一个物理文件可以直接作为资源内嵌到编译生成的程序集中.借助于EmbeddedFileProvider,我们可以统一的编程方式来读取 ...
- [ASP.NET Core 3框架揭秘] 文件系统[4]:程序集内嵌文件系统
一个物理文件可以直接作为资源内嵌到编译生成的程序集中.借助于EmbeddedFileProvider,我们可以采用统一的编程方式来读取内嵌的资源文件,该类型定义在 "Microsoft.Ex ...
- swt java 内嵌ActiveX控件
这里用的是SWT/JFace开发application中SWT自带的org.eclipse.swt.ole.win32 包可以支持内嵌OLE和ActiveX. 具体用法如下: //创建一个OleFra ...
- 魔改——MFC SDI 支持 内嵌 EXCEL OLE
==================================声明================================== 本文版权归作者所有 未经作者授权 请勿转载 保留法律追究的 ...
- 用EXCEL内嵌的Visual Basic for Application 编程,通过 UGSimple USB-GPIB 控制器来驱动仪器34401A,并从34401A读取数据
现在市场上有很多中USB-GPIB 控制器,或叫 USB 转GPIB链接线. 每种GPIB控制器都有它的 函数库(dll库).各种GPIB 控制器的价钱插别很大.这里以一种价钱较便宜的USB-GPIB ...
随机推荐
- 01MATLAB导论
MATLAB语言的主要功能 数值计算 符号计算 图形绘制 程序流程控制 工具箱 课程的学习目标 要求理解MATLAB功能实现的数学背景与算法原理 掌握利用MATLAB进行问题求解的基本规律 能够利用M ...
- (opencv08)cv.resize()调整图像大小
(opencv08)cv.resize()调整图像大小 img = cv2.resize(src, dsize, dst=None, fx=None, fy=None, interpolation=N ...
- 为什么大家都在用WebRTC?
WebRTC代表网络实时通信.它是一种非常令人兴奋,强大且具有高度破坏性的尖端技术和标准.自从WebRTC诞生以来,80%的浏览器都开始支持它.有数据显示,2017年~2021年期间,WebRTC市场 ...
- Python小白的数学建模课-10.微分方程边值问题
小白往往听到微分方程就觉得害怕,其实数学建模中的微分方程模型不仅没那么复杂,而且很容易写出高水平的数模论文. 本文介绍微分方程模型边值问题的建模与求解,不涉及算法推导和编程,只探讨如何使用 Pytho ...
- shell的if语句
目录 一.基础测试 1 test命令 2 文件测试 一.基础测试 1 test命令 测试表达式是否成立 ,若不成立返回0,否则返回其他数值 格式1:test 条件表达式 格式2:[条件表达式] 2 文 ...
- [解决方案]docker: Error response from daemon: OCI runtime create failed
错误原因 在新服务器上安装好docker后,发现无法运行,经常一顿搜索后,发现是docker安装的版本过高,最新版本docker-18.06 的核心好像没有经过充分的测试就发布了. 导致一运行,就提示 ...
- 35岁Android程序员被阿里辞退,生活压力太大痛哭,中年危机如何自救?
多数人都喜欢安逸的生活,尤其是随着年龄的增长,很多人都希望工作和生活趋于稳定,不愿意再让生活有很大的变动.可是,当达到一定的年龄时,危机还是存在的. 之前有一位阿里员工在脉脉上,晒出了自己被辞退的经历 ...
- 实战爬取Plati官网游戏实时最低价格-Python
需要修改url中的id_r="这个",这个id需要从Battlefield V (plati.ru)中获取,其实也是这个链接中的#s24235. 配合了e-mail推送,其实这个e ...
- MOOC大学计算机课程推荐
转自:https://zhuanlan.zhihu.com/p/30659834 这个是大佬总结的, 大学计算机课程 以下课程是我在MOOC上找到的所有我认为讲的好的. 主要是中国大学MOOC,学堂 ...
- MySQL5.6忘记root密码
第一步 修改 /etc/my.conf 文件 添加 skip-grant-tables 到 [mysqld] 下面就可以 这个参数的意思是设置为无需密码验证的登录 登录之后,可以添加用户,可以修改密码 ...