Python 提取 Word 文档中的文本和图片

将内容从 Word 文档中提取出来可以方便我们对其进行其他操作，如将内容储存在数据库中、将内容导入到其他程序中、用于 AI 训练以及制作其他文档等。第三方库 Spire.Doc for Python 提供了一个简单的方法直接提取 Word 文档中的内容，包括文本和图片，而不需要大量的复制粘贴操作，也不需要复杂的代码。本文将介绍如何使用简单的代码实现从 Word 文档中提取文本和图片内容并保存。

从 Word 文档中提取文本内容并写入 TXT 文件
从 Word 文档中提取图片并保存

Python库安装：在操作之前，需要先将Spire.Doc for Python 引入到项目中。可以下载后安装，或直接通过 pip 安装。

pip install Spire.Doc

Python 提取Word文档中的文本内容

Spire.Doc for Python中的 Document.GetText() 方法可以获取Word文档中的所有文本并返回字符串，我们可以将返回的字符串写入到文本文件中进行保存。

代码示例：

from turtle import st

from spire.doc import *

from spire.doc.common import *

def WriteAllText(fname:str,text:List[str]):

        fp = open(fname,"w")

        for s in text:

            fp.write(s)

        fp.close()

inputFile = "示例.docx"

outputFile =  "获取的文本.txt"

#创建Document的对象

document = Document()

#载入Word文档

document.LoadFromFile(inputFile)

#获取文档中的文本

text = document.GetText()

#将文本写入文本文件

WriteAllText(outputFile, text)

document.Close()

提取结果

Python 提取Word文档中的图片

提取图片的操作相对复杂一些，需要判断文档元素子对象是否为图片或复合对象，如果是图片则保存，如果是复合对象则继续判断其中的子对象是否为图片。

代码示例：

import queue

from spire.doc import *

from spire.doc.common import *

import os

outputPath = "Images/"

inputFile = "示例.docx"

if not os.path.exists(outputPath):

    os.makedirs(outputPath)

#创建Document的对象

document = Document()

#载入Word文档

document.LoadFromFile(inputFile)

#创建一个队列并将文档元素放入其中

nodes = queue.Queue()

nodes.put(document)

#创建一个列表

images = []

#循环遍历文档元素

while nodes.qsize() > 0:

    node = nodes.get()

    for i in range(node.ChildObjects.Count):

        #获取文档元素的子对象

        child = node.ChildObjects.get_Item(i)

        #判断子对象是否为图片

        if child.DocumentObjectType == DocumentObjectType.Picture:

            picture = child if isinstance(child, DocPicture) else None

            dataBytes = picture.ImageBytes

            #添加到列表中

            images.append(dataBytes)

        #判断子对象是否为复合对象

        elif isinstance(child, ICompositeObject):

            #添加到队列中

            nodes.put(child if isinstance(child, ICompositeObject) else None)

#保存图片

for i, item in enumerate(images):

    fileName = "Image-{}.png".format(i)

    with open(outputPath+fileName,'wb') as imageFile:

        imageFile.write(item)

document.Close()

提取结果：

以上是关于如何使用Python 从Word文档中提取文本和图片的介绍。该Python Word库还支持非常多的文档操作，具体可以查看 Spire.Doc for Python中文教程。

Python 提取 Word 文档中的文本和图片的更多相关文章

C# 提取Word文档中的图片
C# 提取Word文档中的图片图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
使用Java POI来选择提取Word文档中的表格信息
通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事 ...
2018-10-04 [日常]用Python读取word文档中的表格并比较
最近想对某些word文档(docx)的表格内容作比较, 于是找了一下相关工具. 参考Automate the Boring Stuff with Python中的word部分, 试用了python-d ...
第一节：python提取PDF文档中的图片
由于项目需要将PDF文档当中的图片转换成图片,所以参考了这篇文章https://blog.csdn.net/qq_15969343/article/details/81673302后项目得以解决. 1 ...
Aspose.Words提取word文档中的图片文件
/// <summary> /// 提取word中的图片 /// </summary> /// <param name="filePath">w ...
Python读取word文档（python-docx包）
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
C# Word文档中插入、提取图片，文字替换图片
Download Files:ImageOperationsInWord.zip 简介在这篇文章中我们可以学到在C#程序中使用一个Word文档对图像的各种操作.图像会比阅读文字更有吸引力,而且图像是 ...
Java 在 Word 文档中使用新文本替换指定文本
创作一份文案,经常会高频率地使用某些词汇,如地名.人名.人物职位等,若表述有误,就需要整体撤换.文本将介绍如何使用Spire.Doc for Java,在Java程序中对Word文档中的指定文本进行替 ...
利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等
前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...
C# 在Word文档中生成条形码
C# 在Word文档中生成条形码简介条形码是由多个不同的空白和黑条按照一定的顺序组成,用于表示各种信息如产品名称.制造商.类别.价格等.目前,条形码在我们的日常生活中有着很广泛的应用,不管是在图书 ...

随机推荐

uni微信小程序隐私协议
最近小程序又新增了个隐私协议弹窗.需要用户去授权,官网的一些API才能使用.官网地址功能展示项目地址:https://ext.dcloud.net.cn/plugin?id=14358 1.ma ...
非全自研可视化表达引擎-RuleLinK
说在前面工作中经常会遇到这样的场景: 帮忙把小贝拉门店商品金额在5w以内,产康订单最多95折. 帮忙把圣贝拉门店开业时间在6个月内,折扣低于7折要发起审批帮忙把宁波太平洋店设置独立合同模板帮 ...
Xshell7 / Xftp7 永久免费，官网直连下载地址
主要目的是让大家随时随地从官网下载Xshell和Xftp免费版(个人/家庭/学校免费) 最新变动:官方目前仅提供最新版以及上一个版本的软件下载!其他版本不提供下载免费版5版本(最后一个版本,无任何限 ...
使用 PDF一机一码加密大师，加密打包PDF文件（一机一码，绑定机器，无需额外安装阅读器）
PDF一机一码加密大师, 可以加密任意PDF文档,添加一机一码授权, 静态密码等, 可以禁止用户复制,打印PDF文档中的内容,并且加密生成的PDF在其他用户电脑上无需安装第三方阅读器即可直接阅读. 下 ...
@Validated指定校验顺序
在Java中,使用@NotNull注解时,可以指定多个参数的顺序.为了指定顺序,你可以使用@GroupSequence注解. 首先,为每个需要校验的参数定义一个接口,并在接口上添加@GroupSequ ...
Abp vNext 依赖注入
文章目录介绍 ABP的依赖注入系统是基于Microsoft的依赖注入扩展库(Microsoft.Extensions.DependencyInjection nuget包)开发的.所以我们采用dot ...
中国科教工作者协会与CCF PTA联合认证学习须知
中国科教工作者协会与CCF PTA联合认证学习须知 1.参与认证人员需在科技学堂(www.sciclass.cn)上进行课程学习,然后在PTA官网(pta.ccf.org.cn)报名并参加认证考试,考 ...
Kbaor_2023_9_28_Java第一次实战项目_ELM_V1_食品的实体类、工具类与实现类
Kbaor_2023_9_28_Java第一次实战项目_ELM_V1_食品的实体类.工具类与实现类 ELM_V1_食品的实体类 package elm_V1; /** * [食品实体类] * * @a ...
vcpkg manifest 的使用
最近项目上要使用 CMakeLists 管理,由于 Windows 版本有依赖到 vcpkg 提供的库,所以需要使用 vcpkg manifest 来统一设置库的版本,方便后续维护推荐一个文章,介绍 ...
轻松掌握组件启动之MongoDB（下）：高可用复制集架构环境搭建
引言上一章节中,我们详细介绍了在典型的三节点复制集环境中搭建MongoDB的步骤和注意事项.从准备配置文件到启动MongoDB进程,我们一步步指导读者完成了环境的设置.在本章节中,我们将进一步深入, ...

Python 提取 Word 文档中的文本和图片

Python 提取Word文档中的文本内容

Python 提取Word文档中的图片

Python 提取 Word 文档中的文本和图片的更多相关文章

随机推荐

热门专题