python如何提取word内的图片

解压.docx文件实现提取图片

前言

.docx文件其实也就是一个压缩文件，当我们将一个.docx文件直接解压后可以看到如下目录

其中我们要找的图片就在word/media目录内，如图

所以，要提取word内的图片就需要将.docx文件解压，再从media文件内取得图片，然后将解压后的文件删除

代码实现

import os

import shutil

import zipfile

def get_pictures(word_path, result_path):

    """

    获取word内的所有图片

    :param word_path: word文件

    :param result_path: 结果目录，无需手动创建

    :return: None or generator，None：word内没有图片，generator：每个图片的路径

    """

    tmp_path = f'{os.path.splitext(word_path)[0]}'

    # 拷贝源文件后重命名再解压

    splitext = os.path.splitext(word_path)

    zip_path = shutil.copy(word_path, f'{splitext[0]}_new{splitext[1]}')

    with zipfile.ZipFile(zip_path, 'r') as f:

        for file in f.namelist():

            f.extract(file, tmp_path)

    os.remove(zip_path)

    # 注：word图片在zip文件内的word/media目录下

    pic_path = os.path.join(tmp_path, 'word/media')

    if not os.path.exists(pic_path):

        shutil.rmtree(tmp_path)

        return 'no pictures found'

    pictures = os.listdir(pic_path)

    if not os.path.exists(result_path):

        os.makedirs(result_path)

    for picture in pictures:

        # 根据word的文件名生成图片的名称

        word_name = os.path.splitext(word_path)[0]

        if os.sep in word_name:

            new_name = word_name.split('\\')[-1]

        else:

            new_name = word_name.split('/')[-1]

        picture_name = f'{new_name}_{picture}'

        shutil.copy(os.path.join(pic_path, picture), os.path.join(result_path, picture_name))

    shutil.rmtree(tmp_path)

    return (os.path.join(result_path, pic) for pic in os.listdir(result_path))

word_path可以支持所有类型路径，如

p = r"C:\Users\Desktop\test\小说.docx"

p1 = "C:/Users/Desktop/test/小说.docx"

p2 = "C:\\Users\\Desktop\\test\\小说.docx"

利用三方库docx实现图片提取(推荐)

import docx

import os, re

def get_pictures(word_path, result_path):

    """

    图片提取

    :param word_path: word路径

    :param result_path: 结果路径

    :return:

    """

    doc = docx.Document(word_path)

    dict_rel = doc.part._rels

    for rel in dict_rel:

        rel = dict_rel[rel]

        if "image" in rel.target_ref:

            if not os.path.exists(result_path):

                os.makedirs(result_path)

            img_name = re.findall("/(.*)", rel.target_ref)[0]

            word_name = os.path.splitext(word_path)[0]

            if os.sep in word_name:

                new_name = word_name.split('\\')[-1]

            else:

                new_name = word_name.split('/')[-1]

            img_name = f'{new_name}_{img_name}'

            with open(f'{result_path}/{img_name}', "wb") as f:

                f.write(rel.target_part.blob)

python如何提取word内的图片的更多相关文章

Python opencv提取视频中的图片
作者:R语言和Python学堂链接:https://www.jianshu.com/p/e3c04d4fb5f3 这个函数就是本文要介绍的video2frames()函数,功能就是从视频中提取图片,名 ...
python 将文件夹内的图片转换成PDF
import os import stringfrom PIL import Imagefrom reportlab.lib.pagesizes import A4, landscapefrom re ...
VBA/VBScript提取Word(*.doc)文件中包含的图片(照片)
VBA/VBScript提取Word(*.doc)文件中包含的图片(照片) 要处理的人事简历表是典型的Word文档,其中一人一份doc,里面包含有个人的照片,如果要把里面的照片复制出来就比较麻烦了 ...
Java 提取Word中的文本和图片
本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...
Aspose.Words提取word文档中的图片文件
/// <summary> /// 提取word中的图片 /// </summary> /// <param name="filePath">w ...
C# 提取Word文档中的图片
C# 提取Word文档中的图片图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
c# 提取word文件中的图片问题
最近遇到一个项目就是要从一份word中提取出所有的图片信息,功能看起来不是很难,只要使用office自带的Microsoft.Office.Interop.Word就可以解决问题.网上也有不少的文章来 ...
Python批量创建word文档（2）- 加图片和表格
Python创建word文档,任务要求:小杨在一家公司上班,每天都需要给不同的客户发送word文档,以告知客户每日黄金价格.要求在文档开始处给出banner条,价格日期等用表格表示.最后贴上自己的联系 ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...

随机推荐

Jsonhelper类
public static class JsonHelper { #region json转对象 /// <summary> /// json转对象 /// </summary> ...
Mysql昨天，上个月条件查询
1.查询昨日数据 SELECT * FROM test WHERE DATEDIFF(DATE_FORMAT(NOW(),'%Y%m%d'),DATE_FORMAT(created_time,'%Y% ...
[vite] Internal server error: Invalid end tag.
使用vue3+vite+ant搭建的前端框架在开发页面的时候发现了一直报错: [vite] Internal server error: Invalid end tag. 找也找不到为什么,网上查的 ...
html原声启动本地服务器，用http-server启动本地服务器
第一: 准备node.js环境: 打开cmd,输入:npm install http-server -g 第二: 安装 http-server npm install http-server -g 安 ...
protected virtual 使用
转载摘自:https://blog.csdn.net/qq_31116753/article/details/81203416 1.使用protected访问修饰符标记的方法或字段,只能在当前类及其子 ...
a 标签下载文件重命名文件失效
背景 : a标签下载cos桶文件download失效原因:下载的链接跨域,download 属性重命名文件失效,浏览器无法获取到文件,无法进行更改. 解决办法: downloadFile(url, ...
data_analysis:初识numpy
import numpy as npimport pandas as pd# """第一种,使用loadtxt"""# # 加载数据路径# ...
【GENERAL FRAMEWORK】总框架——持续更新
引: 鉴于目前挖的坑较多,未防止某些即将长期更新的博文出现烂尾,特设此框架 1.蓝桥杯(完结) 1.[蓝桥杯单片机组]LED.蜂鸣器与继电器--138-573的外设操作 ...
pytest（5）-自定义用例顺序(pytest-ordering)-后续学习
前言测试用例在设计的时候,我们一般要求不要有先后顺序,用例是可以打乱了执行的,这样才能达到测试的效果. 有些同学在写用例的时候,用例写了先后顺序, 有先后顺序后,后面还会有新的问题(如:上个用例返回 ...
vue动态切换图片
1.踩的一个坑是:直接获取对象,使用style改变其背景图地址或者对img标签改变src值因为经过vue经过打包编译后,图片地址已经被处理了,这时更新地址是无效的,会找不到图片. 所以可以用多个标签 ...

python如何提取word内的图片

解压.docx文件实现提取图片

前言

代码实现

利用三方库docx实现图片提取(推荐)

python如何提取word内的图片的更多相关文章

随机推荐

热门专题