【Python】PDF转WORD

注意，下文中的PDF文档是纯文字格式，而且非扫描版的PDF文件。

如果是扫描版或者带有图片的。可能转起来会出现排版异常并且图片无法保存到.doc文件中。

正文开始：

需要安装依赖包

pdfminer3k

pip install pdfminer3k -i https://pypi.tuna.tsinghua.edu.cn/simple

或者下载资源手动安装。任意选一种即可。

正文部分：

#!/usr/bin/python

# -*- coding: utf-8 -*-

import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import *

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''

解析pdf文件，获取文件中包含的各种对象

'''

# 解析pdf文件函数

def parse(pdf_path):

    fp = open(pdf_path, 'rb')  # 以二进制读模式打开

    # 用文件对象来创建一个pdf文档分析器

    parser = PDFParser(fp)

    # 创建一个PDF文档

    doc = PDFDocument()

    # 连接分析器 与文档对象

    parser.set_document(doc)

    doc.set_parser(parser)

    # 提供初始化密码

    # 如果没有密码 就创建一个空的字符串

    doc.initialize()

    # 检测文档是否提供txt转换，不提供就忽略

    if not doc.is_extractable:

        raise PDFTextExtractionNotAllowed

    else:

        # 创建PDf 资源管理器 来管理共享资源

        rsrcmgr = PDFResourceManager()

        # 创建一个PDF设备对象

        laparams = LAParams()

        device = PDFPageAggregator(rsrcmgr, laparams=laparams)

        # 创建一个PDF解释器对象

        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 用来计数页面，图片，曲线，figure，水平文本框等对象的数量

        num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0

        # 循环遍历列表，每次处理一个page的内容

        for page in doc.get_pages():  # doc.get_pages() 获取page列表

            num_page += 1  # 页面增一

            interpreter.process_page(page)

            # 接受该页面的LTPage对象

            layout = device.get_result()

            for x in layout:

                if isinstance(x, LTImage):  # 图片对象

                    num_image += 1

                if isinstance(x, LTCurve):  # 曲线对象

                    num_curve += 1

                if isinstance(x, LTFigure):  # figure对象

                    num_figure += 1

                if isinstance(x, LTTextBoxHorizontal):  # 获取文本内容

                    num_TextBoxHorizontal += 1  # 水平文本框对象增一

                    # 保存文本内容

                    with open(r'test.doc', 'a', encoding='utf-8') as f:  # 生成doc文件的文件名及路径

                        results = x.get_text()

                        f.write(results)

                        f.write('\n')

        print('对象数量：\n', '页面数：%s\n' % num_page, '图片数：%s\n' % num_image, '曲线数：%s\n' % num_curve, '水平文本框：%s\n'

              % num_TextBoxHorizontal)

if __name__ == '__main__':

    pdf_path = r'test.pdf'  # pdf文件路径及文件名

    parse(pdf_path)

将需要转换的PDF格式的文件命名为test.pdf，而且和这个.py文件在同一个文件夹下即可

点击运行，会在同级目录下自动生成test.doc文件。

转自：https://blog.csdn.net/Initiallysunny/article/details/79960838

【Python】PDF转WORD的更多相关文章

Python代码教你批量将PDF转为Word
很多时候在学习时发现许多文档都是PDF格式,PDF格式却不利于学习使用,因此需要将PDF转换为Word文件,但或许你从网上下载了很多软件,但只能转换前五页(如WPS等),要不就是需要收费,那有没有免费 ...
Python处理PDF和Word文档常用的方法
Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入. 打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReade ...
太方便了！利用Python对批量Pdf转Word
在wps或者office里面可以将pdf转word,不过只能免费转前面5页,超过5页就需要会员.今天教大家一个Python办公小技巧:批量Pdf转Word ,这样可以自由想转多少页都可以. 思路:这里 ...
CAJ Viewer安装流程以及CAJ或Pdf转换为Word格式
不多说,直接上干货! pdf转word格式,最简单的就是,实用工具 Adobe Acrobat DC 首先声明的是,将CAJ或者Pdf转换成Word文档,包括里面的文字.图片以及格式,根本不需 ...
媳妇儿让我给她找一个PDF转word免费工具，找了半天我决定给她写一个出来^-^
之前我媳妇儿让我给她找一个PDF转WORD的免费工具,在网上找了半天发现要不就是收费,要不就是转化的格式混乱.既然网上不能找到好用的免费工具那就直接来写一个吧.人生苦短,我用python. 万能的 ...
基于DevExpress实现对PDF、Word、Excel文档的预览及操作处理
http://www.cnblogs.com/wuhuacong/p/4175266.html 在一般的管理系统模块里面,越来越多的设计到一些常用文档的上传保存操作,其中如PDF.Word.Excel ...
一款免费支持PDF、word、excel、PPT、jpeg之间互转线上软件
偶然发现的一款免费支持PDF.word.excel.PPT.jpeg之间互转,支持合并pdf.加密解密PDF的线上软件,首先声明,不是广告党,我自己试用过,确实是目前我用过最好用的,如果有朋友有更好的 ...
pdf转word
一.刚需 pdf转word,这个需求肯定是有的.但是大家都知道,pdf是用来排版打印的,所以编辑起来会比较麻烦,所以,大家都会尝试将pdf的内容转成word,然后再进行编辑. 二.方法 1.用offi ...
15个最好的PDF转word的在线转换器，将PDF文件转换成doc文件
PDF是一种文件格式,包含文本,图像,数据等,这是独立于操作系统的文件类型.它是一个开放的标准,压缩,另一方面DOC文件和矢量图形是由微软文字处理文件.该文件格式将纯文本格式转换为格式化文档.它支持几 ...
iText导出pdf、word、图片
一.前言在企业的信息系统中,报表处理一直占比较重要的作用,本文将介绍一种生成PDF报表的Java组件--iText.通过在服务器端使用Jsp或JavaBean生成PDF报表,客户端采用超级连接显示或 ...

随机推荐

ADF 第四篇：管道的执行和触发器
Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime ...
unity入门—资源导入与场景创建
前言: 从这一篇章开始,我将会通过游戏实例来讲解如何使用unity制作一个标准的游戏,介绍的内容较多,需要整理的东西也多可能中途会有一两天的咕咕咕,预计想要完成两个游戏,一个射击类一个塔防类,从射击类 ...
linux下为什么每次修改完配置文件之后都需要重新加载配置文件
目录一.关于inode 二.inode的作用二.为什么每次修改完服务器配置文件之后,都需要重新加载一下配置文件? 一.关于inode 1.在linux下一切皆文件,linux文件由三部分组成:文件 ...
do while 后面要加分号，你大爷的
do { //do something } while (0) TSfree(url); 这个TSFree 正好是个宏,然后编译就提示错误: error: expected ';' before '_ ...
react第一单元（简介）
第一单元(react简介) 课程目标理解react这个框架在前端开发中的地位理解react诞生的原因和意义(react是一个用于快速构建前端视图的javaScript库) 理解什么是虚拟dom.原 ...
线段树入门详解，洛谷P3372 【模板】线段树 1
关于线段树: 本随笔参考例题 P3372 [模板]线段树 1 所谓线段树就是把一串数组拆分成一个一个线段形成的一棵树. 比如说像这样的一个数组1,2,3,4,5: 1 ~ 5 / ...
MySQL高可用（二）主备延时如何解决？
从上篇文章我们知道主备同步是依赖于 binlog,主库负责生产 binlog,备库负责消费 binlog,从而实现主备同步. 今天我们来学习一下主备同步里的一个重点的问题:主备延时. 主备延时,简单来 ...
python初学者-判断今天是今年的第几天代码
判断今天是今年的第几天源代码 import time date =time.localtime() year,month,day=date[:3] day_month=[31,28,31,30,31, ...
Apache Cassandra——可扩展微服务应用程序的持久数据存储
通过使用微服务,团队可以更快地响应变化,而无需改动整个应用程序.利用微服务,开发团队可以构建出具有鲁棒性和可扩展性的系统,从而适应当今应用程序的需求. 然而,使用微服务也带来了一系列挑战.在本文中 ...
JPA 缓存
JPA有两种类型的缓存: EntityManager自身就是一种缓存.事务中从数据库获取的和写入到数据库的数据会被缓存(什么样的数据会被缓存,在后面有介绍).在一个程序中也许会有很多个不同的Entit ...

【Python】PDF转WORD

【Python】PDF转WORD的更多相关文章

随机推荐

热门专题