Python读取PDF文档

 from pdfminer.converter import PDFPageAggregator

 from pdfminer.layout import LAParams

 from pdfminer.pdfparser import PDFParser

 from pdfminer.pdfparser import PDFDocument

 from pdfminer.pdfinterp import PDFResourceManager

 from pdfminer.pdfinterp import PDFPageInterpreter

 from pdfminer.pdfdevice import PDFDevice

 # 获取文档对象

 fp = open("banReport.pdf","rb")

 # 创建一个PDF文档解释器

 parser = PDFParser(fp)

 # PDF文档的对象

 doc = PDFDocument()

 #连接解释器和文档对象

 parser.set_document(doc)

 doc.set_parser(parser)

 # 初始化文档

 doc.initialize('')

 # 创建PDF资源管理器

 resource = PDFResourceManager()

 #参数分析器

 laparam = LAParams()

 # 创建一个聚合器

 device = PDFPageAggregator(resource,laparams=laparam)

 # 创建PDF页面解释器

 interpreter = PDFPageInterpreter(resource,device=device)

 # 使用文档对象得到页面的集合

 for page in doc.get_pages():

     # 使用页面解释器来读取

     interpreter.process_page(page)

     # 使用聚合器来获取内容

     layout = device.get_result()

     for out in layout:

         if hasattr(out,"get_text"):

             print(out.get_text())

Python读取PDF文档的更多相关文章

【转】Python读取PDF文档，输出内容
Python3读取pdf文档,输出内容(txt) from urllib.request import urlopen from pdfminer.pdfinterp import PDFResour ...
利用Python将PDF文档转为MP3音频
1. 转语音工具微信读书有一个功能,可以将书里的文字转换为音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多. 记得之前看到过Python有一个工具包,可以将文字转换为语音,支持英文和中文,而 ...
【Win10 开发】读取PDF文档
关于用来读取PDF文档的内容的API,其实在Win8.1的时候就有,不过没关系,既咱们讨论的是10的UAP,连同8.1的内容也包括进去,所以老周无数次强调:把以前的内容学好了,就可以在不学习任何新知识 ...
python实用小技能分享，教你如何使用 Python 将 pdf 文档进行加密解密
上次说了怎么将word转换为pdf格式及实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行加密解密,哈哈哈希望帮到更多人! ...
Python读取word文档内容
1,利用python读取纯文字的word文档,读取段落和段落里的文字. 先读取段落,代码如下: 1 ''' 2 #利用python读取word文档,先读取段落 3 ''' 4 #导入所需库 5 fro ...
Python读取word文档（python-docx包）
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
python 操作pdf文档
简介在实际项目中,我们有可能需要提取当中的部分内容并导出,给PDF文件添加水印,合并多份PDF文件等等,而本文会着重用到PyPDF2模块来玩转PDF文档,以及tabula模块来对PDF文档中的表格数 ...
java读取pdf文档
import java.io.*;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import o ...
第一节：python提取PDF文档中的图片
由于项目需要将PDF文档当中的图片转换成图片,所以参考了这篇文章https://blog.csdn.net/qq_15969343/article/details/81673302后项目得以解决. 1 ...

随机推荐

[转]各种开源协议介绍 BSD、Apache Licence、GPL V2 、GPL V3 、LGPL、MIT
现今存在的开源协议很多,而经过Open Source Initiative组织通过批准的开源协议目前有58种(http://www.opensource.org/licenses /alphabeti ...
【转】Ruby on Rails中select使用方法
在Ruby on Rails中真的有一堆Select helper可以用,我们经常容易混淆.常见的有三个..select, select_tag, collection_select(其余的什么sel ...
centos6 启动流程
具体过程:1)加载BIOS的硬件信息,执行BIOS内置程序.2)读取MBR(Master Boot Record)中Boot Loader中的引导信息.3)加载内核Kernel boot到内存中.4) ...
python 基础字符串格式化
print "hello %s %s" % ('wd','pc') c风格 print "hello {1} {0}".format("wd" ...
SpringMVC RESTful中文乱码
开发中常遇到各种中文乱码很少心烦,这里总结了各种中文乱码https://www.cnblogs.com/lwx521/p/9856186.html 下面以SpringMVC遇到的中文乱码为例详解首先 ...
Learning Python 007 基本语句
Python 基本语句 if - 条件判断没有什么好说的,直接上代码: age = 3 if age >= 18: print('adult') elif age >= 6: print ...
pig 入门教程（1）
出处:http://www.codelast.com/ 本文可以让刚接触pig的人对一些基础概念有个初步的了解. 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由 ...
Entity Framework Code-First（16）：Move Configurations
Move Configurations to Separate Class in Code-First: By now, we have configured all the domain class ...
Good Bye 2014 B. New Year Permutation（floyd ）
题目链接题意:给n个数,要求这n个数字小的尽量放到前面,求一个最小的. 给一个矩阵s[i][j]==1,表示位置 i 的数字可以和位置 j 的数字交换. 分析: 刚开始用的是3个循环,每次都找一个 ...
webconfig配置详解--转
花了点时间整理了一下ASP.NET Web.config配置文件的基本使用方法.很适合新手参看,由于Web.config在使用很灵活,可以自定义一些节点.所以这里只介绍一些比较常用的节点. <? ...

Python读取PDF文档

Python读取PDF文档的更多相关文章

随机推荐

热门专题