媳妇儿让我给她找一个PDF转word免费工具,找了半天我决定给她写一个出来^-^
之前我媳妇儿让我给她找一个PDF转WORD的免费工具,在网上找了半天发现要不就是收费,要不就是转化的格式混乱。既然网上不能找到好用的免费工具那就直接来写一个吧。人生苦短,我用python。
万能的python肯定应该有关于这个第三方库,百度了一下果不其然——PDFminer3k(如果你用的是python2的话那你应该使用的是pdfminer)。
我们先上代码然后再分析吧。
# -*- coding:utf-8 -*-#author:菜鸟小白的学习分享from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfrom pdfminer.pdfinterp import PDFTextExtractionNotAlloweddef parse(DataIO, save_path):# 用文件对象创建一个PDF文档分析器parser = PDFParser(DataIO)# 创建一个PDF文档doc = PDFDocument()# 分析器和文档相互连接parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码,没有默认为空doc.initialize()# 检查文档是否可以转成TXT,如果不可以就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDF资源管理器,来管理共享资源rsrcmagr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()# 将资源管理器和设备对象聚合device = PDFPageAggregator(rsrcmagr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmagr, device)# 循环遍历列表,每次处理一个page内容# doc.get_pages()获取page列表for page in doc.get_pages():interpreter.process_page(page)# 接收该页面的LTPage对象layout = device.get_result()# 这里的layout是一个LTPage对象 里面存放着page解析出来的各种对象# 一般包括LTTextBox,LTFigure,LTImage,LTTextBoxHorizontal等等一些对像# 想要获取文本就得获取对象的text属性for x in layout:try:if (isinstance(x, LTTextBoxHorizontal)):with open('%s' % (save_path), 'a') as f:result = x.get_text()print(result)f.write(result + "\n")except:print("Failed")if __name__ == '__main__':# 解析同一文件夹下的PDF文件,保存到本地doc文件中with open(r'菜鸟小白.pdf', 'rb') as pdf_html:parse(pdf_html, r'11.doc')
分析过程
PDF没有WORD、Excel这样简单,可以直接去读取内容,读取PDF文件需要用程序以二进制的方式读取,然后转化成文字。而我们通过pdfminer的转化过程就好比是读取出来具体内容后猜测他们的布局,用于重建文字的结构,但是这个也无法保证100%能够工作。
代码中pdfminer调用的每个函数作用分别为:
DFParser(文档分析器)
PDFDocument(文档对象)
PDFResourceManager(资源管理器)
PDFPageInterpreter(解释器)
PDFPageAggregator(聚合器)
LAParams(参数分析器)
首先我们需要新建一个文档分析器和PDF文档,并且将PDF文档对象和文档分析器关联起来。
# 用文件对象创建一个PDF文档分析器parser = PDFParser(DataIO)# 创建一个PDF文档doc = PDFDocument()# 分析器和文档相互连接parser.set_document(doc)doc.set_parser(parser)
然后我们新建一个资源管理器和新建一个PDF参数对象
# 创建PDF资源管理器,来管理共享资源rsrcmagr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()
然后我们新建一个聚合器,用于接收资源管理器和参数对象;创建一个解释器,接收资源管理器和聚合器。
# 将资源管理器和设备对象聚合device = PDFPageAggregator(rsrcmagr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmagr, device)
然后使用get_pages()去获取所有的页面,用一个for循环遍历每一个页面,使用interperter页面解释器对页面进行逐一聚合,然后调用聚合器的get_result()获取到layout,layout中的每一个内容,只有文本内容才会被提取出来。
# 循环遍历列表,每次处理一个page内容# doc.get_pages()获取page列表for page in doc.get_pages():interpreter.process_page(page)# 接收该页面的LTPage对象layout = device.get_result()# 这里的layout是一个LTPage对象 里面存放着page解析出来的各种对象# 一般包括LTTextBox,LTFigure,LTImage,LTTextBoxHorizontal等等一些对像# 想要获取文本就得获取对象的text属性for x in layout:try:if (isinstance(x, LTTextBoxHorizontal)):with open('%s' % (save_path), 'a') as f:result = x.get_text()print(result)f.write(result + "\n")except:print("Failed")
最新实现效果
原始的PDF文档
转化后的word文档
缺陷
当前的代码仅能实现文字的提取,无法提取图片。后面我们再看看能否将图片也一起提取出来,有厉害的小伙伴也可以私信我。
最后我把这个从程序打包成了一个exe文件,只需要将你想要转化的PDF文档和exe文件放在同一个文件夹内就可以双击执行转化了。有需要的小伙伴可以私信菜鸟小白"PDFtoWORD"获取下载链接。
随机推荐
- cb37a-_c++_STL_算法_复制元素copy_copy_backward
cb37a-_c++_STL_算法_复制元素copy_copy_backward copy(),同一个容器内部区间的拷贝,或者容器与容器之间的拷贝copy_backward()//向后copy 注意: ...
- S7-200 PLC内部+5VDC电源的负载能力
S7-200 PLC内部+5VDC电源的负载能力 S7-200 CPU模块提供DC5V和24V电源:当有扩展模块时,CPU通过I/O总线为其提供5V电源,所有扩展模块的SV电源消耗之和不能超过该CPU ...
- 微信小程序-APP生命周期与运行机制
QQ讨论群:785071190 开发微信小程序之前需要先了解微信小程序运行机制以及其生命周期,小程序APP生命周期需要先从app.js这个文件开始. 阅读过"微信小程序-代码构成" ...
- Linux上的Systemctl命令
LinuxSystemctl是一个系统管理守护进程.工具和库的集合,用于取代System V.service和chkconfig命令,初始进程主要负责控制systemd系统和服务管理器.通过Syste ...
- [ C++ ] set_new_handler解析
当 operator new 中malloc返回值为0(NULL)时,表示分配内存失败(可能是因为内存不足), 此时会通过_callnewh()调用用户通过set_new_handler()设定的ne ...
- elasticSearch插件的安装以及使用nginx的modles收集nginx的日志
1.首先在windows环境上搭建es的集群 集群的配置如下 #node01的配置: cluster.name: es-itcast-cluster node.name: node01 node.ma ...
- JavaWeb网上图书商城完整项目--day02-27.查询所有分类功能之Servlet和Service层
我们在上面实现了数据库层的代码,现在我们来实现业务层和Servlet层的代码:业务层的代码如下: package com.weiyuan.goods.category.service; import ...
- 状态机模式 与 ajax 的结合运用
太神奇了,昨晚做了个梦,梦中我悟出一个道理:凡是涉及到异步操作而且需要返回值的函数,一定要封装成 Promise 的形式,假如返回值取决于多个异步操作的结果,那么需要对每个异步操作进行状态的设计,而且 ...
- zabbix4.4安装
本安装操作系统为centos7.5. 安装前准备: 1.1 安装依赖包: yum -y install wget net-snmp-devel OpenIPMI-devel httpd openssl ...
- mpvue实战-手势滑动导航栏
写点东西记录一下美好时光,上周学习了一下通过mpuve开发微信小程序,看完文档,就准备撸起袖子加油干的时候,一开始就被支持手势滑动的导航栏给搞懵逼了.求助一波百度和谷歌未果后,只能自己动脑动手!为了给 ...