第一节：python提取PDF文档中的图片

由于项目需要将PDF文档当中的图片转换成图片，所以参考了这篇文章https://blog.csdn.net/qq_15969343/article/details/81673302后项目得以解决。

1、安装第三方类库pymupdf：pip install pymupdf

2、安装完成后直接上代码，代码如下：

import fitz

import time

import re

import os

def pdf2pic(path, pic_path):

    t0 = time.clock()                          # 生成图片初始时间

    checkXO = r"/Type(?= */XObject)"           # 使用正则表达式来查找图片

    checkIM = r"/Subtype(?= */Image)"

    doc = fitz.open(path)                      # 打开pdf文件

    imgcount = 0                               # 图片计数

    lenXREF = doc._getXrefLength()             # 获取对象数量长度

    # 打印PDF的信息

    print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))

    # 遍历每一个对象

    for i in range(1, lenXREF):

        text = doc._getXrefString(i)            # 定义对象字符串

        isXObject = re.search(checkXO, text)    # 使用正则表达式查看是否是对象

        isImage = re.search(checkIM, text)      # 使用正则表达式查看是否是图片

        if not isXObject or not isImage:        # 如果不是对象也不是图片，则continue

            continue

        imgcount += 1

        pix = fitz.Pixmap(doc, i)               # 生成图像对象

        new_name = "图片{}.png".format(imgcount) # 生成图片的名称

        if pix.n < 5:                           # 如果pix.n<5,可以直接存为PNG

            pix.writePNG(os.path.join(pic_path, new_name))

        else:                                   # 否则先转换CMYK

            pix0 = fitz.Pixmap(fitz.csRGB, pix)

            pix0.writePNG(os.path.join(pic_path, new_name))

            pix0 = None

        pix = None                              # 释放资源

        t1 = time.clock()                       # 图片完成时间

        print("运行时间:{}s".format(t1 - t0))

        print("提取了{}张图片".format(imgcount))

if __name__=='__main__':

    path = r"C:\Users\lenovo\Desktop\数据.pdf"

    pic_path = r'C:\Users\lenovo\Desktop\图片'

    # 创建保存图片的文件夹

    if os.path.exists(pic_path):

        print("文件夹已存在，不必重新创建！")

        pass

    else:

        os.mkdir(pic_path)

    pdf2pic(path, pic_path)

3、运行结果

文件名:C:\Users\lenovo\Desktop\数据.pdf, 页数: 51, 对象: 156

运行时间:1.0037559488187855s

提取了1张图片

运行时间:1.9240614402553362s

提取了2张图片

运行时间:2.8580821293209087s

提取了3张图片

运行时间:3.59311390384999s

提取了4张图片

运行时间:4.055301359322903s

提取了5张图片

运行时间:4.861761705280556s

第一节：python提取PDF文档中的图片的更多相关文章

C# 提取Word文档中的图片
C# 提取Word文档中的图片图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
Aspose.Words提取word文档中的图片文件
/// <summary> /// 提取word中的图片 /// </summary> /// <param name="filePath">w ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...
python 操作pdf文档
简介在实际项目中,我们有可能需要提取当中的部分内容并导出,给PDF文件添加水印,合并多份PDF文件等等,而本文会着重用到PyPDF2模块来玩转PDF文档,以及tabula模块来对PDF文档中的表格数 ...
使用Java POI来选择提取Word文档中的表格信息
通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事 ...
Java 在PDF文档中绘制图形
本篇文档将介绍通过Java编程在PDF文档中绘制图形的方法.包括绘制矩形.椭圆形.不规则多边形.线条.弧线.曲线.扇形等等.针对方法中提供的思路,也可以自行变换图形设计思路,如菱形.梯形或者组合图形等 ...
python实用小技能分享，教你如何使用 Python 将 pdf 文档进行加密解密
上次说了怎么将word转换为pdf格式及实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行加密解密,哈哈哈希望帮到更多人! ...
如何突出显示PDF文档中的一些重要文本信息
PDF文档中如果存在着太多的文字时,阅读者会容易遗漏很多重要的信息.但如果,文档中存在着一些特殊标记的文字时,比如标黄.标红文本时,很多人都会给予特别关注. 因此,当大家在使用pdfFactory专业 ...
C# 在PDF文档中应用多种不同字体
在PDF文档中,可绘制不同字体样式.不同语言的文字,可通过使用Standard字体.TrueType字体.CJK字体或者自定义(私有)等字体类型.下面通过C#程序代码来展示如何实现使用以上类型的字体来 ...

随机推荐

codeforces 555B Case of Fugitive
题目连接: http://codeforces.com/problemset/problem/555/B 题目大意: 有n个岛屿(岛屿在一列上,可以看做是线性的,用来描述岛屿位置的是起点与终点),m个 ...
WebSphere中配置的数据源在Web应用中引用的写法
WebSphere中配置的数据源在Web应用中引用时名称一定要和数据源的JNDI名称保持一致,否则会出现无法找到数据源的错误. 引用WAS的数据源时只需要与JNDI名称保持一致即可. 引用Tomcat ...
overlaps the location of another project Zendstudio导入已经存在的目录
转 http://blog.csdn.net/kdchxue/article/details/50633745 最近弄zendstuido导入已经存在的项目,找了很多地方终于找到了导入的方法,特别记录 ...
SpringCloud开发学习总结（七）—— 声明式服务调用Feign（一）
在实践的过程中,我们会发现在微服务架构中实现客户端负载均衡的服务调用技术Spring Cloud Ribbon<SpringCloud开发学习总结(四)—— 客户端负载均衡Ribbon> ...
poj2573Bridge（过桥问题）
链接 A,B为最快和次快有两种方式可以使c,d过桥一是a与c一起走,a回来接d再与d一起走,一直到对岸人为0为止而是 a与b一起走 a回来送灯 c与d一起走 b回来送灯重复此过程. 只剩2人时 ...
行内元素对齐各种问题--从line-height和vertical-align的角度分析
最近研究行内元素的对齐问题,发现img不管怎么设置,下边都有一块留白,强迫症无法忍受未知,于是开始了查阅探索之旅. 辗转来到张鑫旭的博客,他对行内盒子模型做了详细的介绍,包括“幽灵节点”,“line- ...
简单探讨弹性布局flex
css 弹性布局: 盒子模型: box-sizing属性1.content-box 正常的普通的盒子模型用padding和border会使盒子变大:(向外扩张)2.border-box 盒子模型,pa ...
vba，设置，excel，wps ，页面设置
全面认识页面设置之 PageSetup 对象我们在写 VBA 代码时,特别是做小型程序开发时,经常会用 VBA 来设置“页面设置”中的选项,还可用要用 VBA 来实现一些特殊的效果,这就需要使用 Pa ...
BotFramework学习-01
微软在Build2016大会上表示,未来将是一个充满聊天机器人的世界,为此他们推出了微软Bot Framework,能够允许任何人制作自己的聊天机器人,微软则提供“cognitive microser ...
KMP中next数组的理解与应用
理解 1.next数组一直往前走 next数组一直往前走,得到的所有前缀也是当前主串的后缀,当然了,也是当前主串的前缀. 2.周期性字符串 1.周期性字符串$\Leftrightarrow n \,\ ...

第一节：python提取PDF文档中的图片

第一节：python提取PDF文档中的图片的更多相关文章

随机推荐

热门专题