Python将PDF转为TXT

PDFMiner----python的PDF解析器和分析器

1.官方文档：http://www.unixuser.org/~euske/python/pdfminer/index.html

2.特征

完全使用python编写。（适用于2.4或更新版本）
解析，分析，并转换成PDF文档。
PDF-1.7规范的支持。（几乎）
中日韩语言和垂直书写脚本支持。
各种字体类型（Type1、TrueType、Type3，和CID）的支持。
基本加密（RC4）的支持。
PDF与HTML转换。
纲要（TOC）的提取。
标签内容提取。
通过分组文本块重建原始的布局。

3.安装

注：使用源码安装，并且处理中日韩语言的时候还需要一个额外的安装步骤

4.用法

4.1解析pdf文件用到的类：

PDFParser：从一个文件中获取数据
PDFDocument：保存获取的数据，和PDFParser是相互关联的
PDFPageInterpreter处理页面内容
PDFDevice将其翻译成你需要的格式
PDFResourceManager用于存储共享资源，如字体或图像。

PDFMiner的类之间的关系图：

4.2基本用法

4.2.1解析pdf文件

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

fp = open('mypdf.pdf', 'rb')

#创建一个PDF文档解析器对象

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

#提供密码初始化，没有就不用传该参数

document = PDFDocument(parser, password)

#检查文件是否允许文本提取

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

#创建一个PDF资源管理器对象来存储共享资源

rsrcmgr = PDFResourceManager()

#创建一个pdf设备对象

device = PDFDevice(rsrcmgr)

#创建一个PDF解析器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理文档当中的每个页面

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

当然这只是进行解析，还可进行布局分析，我的数据就是从这一步的到的

4.2.2布局分析

首先对第一步的代码进行修改和增加

from pdfminer.layout import LAParams

from pdfminer.converter import PDFPageAggregator

# 设定参数进行分析

laparams = LAParams()

# 创建一个PDF页面聚合对象

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

    # 接收该页面的LTPage对象

    layout = device.get_result()

布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象，形成一个树结构

如图所示：

LTPage :表示整个页。可能会含有LTTextBox，LTFigure，LTImage，LTRect，LTCurve和LTLine子对象。
LTTextBox:表示一组文本块可能包含在一个矩形区域。注意此box是由几何分析中创建，并且不一定
表示该文本的一个逻辑边界。它包含LTTextLine对象的列表。使用 get_text（）方法返回的文本内容。
LTTextLine :包含表示单个文本行LTChar对象的列表。字符对齐要么水平或垂直，取决于文本的写入模式。
get_text（）方法返回的文本内容。
LTChar
LTAnno:在文本中实际的字母表示为Unicode字符串（？）。需要注意的是，虽然一个LTChar对象具有实际边界，
LTAnno对象没有，因为这些是“虚拟”的字符，根据两个字符间的关系（例如，一个空格）由布局分析后插入。
LTImage:表示一个图像对象。嵌入式图像可以是JPEG或其它格式，但是目前PDFMiner没有放置太多精力在图形对象。
LTLine:代表一条直线。可用于分离文本或附图。
LTRect:表示矩形。可用于框架的另一图片或数字。
LTCurve:表示一个通用的Bezier曲线

4.2.3获得目录（纲要）

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

# Open a PDF document.

fp = open('mypdf.pdf', 'rb')

parser = PDFParser(fp)

document = PDFDocument(parser, password)

# Get the outlines of the document.

outlines = document.get_outlines()

for (level,title,dest,a,se) in outlines:

    print (level, title)

5.个人使用

# -*- coding: utf-8 -*-

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

from pdfminer.layout import *

from pdfminer.converter import PDFPageAggregator

import os

os.chdir(r'F:\test')

fp = open('python.pdf', 'rb')

#来创建一个pdf文档分析器

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

document = PDFDocument(parser)

# 检查文件是否允许文本提取

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

else:

    # 创建一个PDF资源管理器对象来存储共赏资源

    rsrcmgr=PDFResourceManager()

    # 设定参数进行分析

    laparams=LAParams()

    # 创建一个PDF设备对象

    # device=PDFDevice(rsrcmgr)

    device=PDFPageAggregator(rsrcmgr,laparams=laparams)

    # 创建一个PDF解释器对象

    interpreter=PDFPageInterpreter(rsrcmgr,device)

    # 处理每一页

    for page in PDFPage.create_pages(document):

        interpreter.process_page(page)

        # 接受该页面的LTPage对象

        layout=device.get_result()

        for x in layout:

            if(isinstance(x,LTTextBoxHorizontal)):

                with open('a.txt','a') as f:

                    f.write(x.get_text().encode('utf-8')+'\n')

　文章转自：http://www.bkjia.com/Pythonjc/1073800.html

Python将PDF转为TXT的更多相关文章

Python解析PDF三法
span{line-height:2em} --> 最近做调研想知道一些NZ当地的旅游信息,于是在NZ留学的友人自高奋勇地帮我去各个加油站拿了一堆旅游小册子,扫描了发给我. 但是他扫描出的高清图 ...
Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
python制作pdf电子书
python制作pdf电子书准备制作电子书使用的是python的pdfkit这个库,pdfkit是 wkhtmltopdf 的Python封装包,因此在安装这个之前要安装wkhtmltopdf 安 ...
Asp.net实现直接在浏览器预览Word、Excel、PDF、Txt文件（附源码）
功能说明输入文件路径,在浏览器输出文件预览信息,经测试极速(Chrome).IE9.Firefox通过分类文件及代码说明 DemoFiles 存放可测试文件 Default.aspx 启动页 ...
C# 如何将PDF转为多种图像文件格式（Png/Bmp/Emf/Tiff）
PDF是一种在我们日常工作学习中最常用到的文档格式之一,但常常也会因为文档的不易编辑的特点,在遇到需要编辑PDF文档内容或者转换文件格式的情况时让人苦恼.通常对于开发者而言,可选择通过使用组件的方式来 ...
C# 将PDF转为SVG的3种情况
PDF格式的文档广泛用于各种办公场所,在工作中难免会有将PDF文档转换为其他文档格式的需要.在本篇文档中,将介绍PDF转为SVG的方法.根据不同的转换需求,这里分三种情况进行讲述,即转PDF所有页为S ...
pdf转txt
ubuntu pdf转jpg或txt chenlei posted @ 2009年12月30日 17:22 inLinux , 1818 阅读呵呵,刚刚在网上定购了一款mp5,后来才发现它不支持PD ...
java通过url在线预览Word、excel、ppt、pdf、txt文档
java通过url在线预览Word.excel.ppt.pdf.txt文档中的内容[只获得其中的文字] 在页面上显示各种文档中的内容.在servlet中的逻辑 word: BufferedInputS ...
Python 由list转为dictionary
Python 由list转为dictionary 例如: 原始的 list 形式为: session_item_data=[[100, [10, 11], [12, 13]], [101, [11, ...

随机推荐

8. vue给标签动态绑定title
在利用vue开发时,如果标签宽度比较小,我们需要利用overflow:hidden;text-overflow:ellipsis;white-space: nowrap;对其进行隐藏,但隐藏后如何读其 ...
（十四）docker exec 详解
1. 作用在运行的容器中执行命令 2. 语法 docker exec [OPTIONS] CONTAINER COMMAND [ARG...] OPTIONS说明: -d :分离模式: 在后台运行 ...
如何使用natapp来实现内网穿透及案例
1. 业务场景当我们的项目是部署在本地的时候,如何让其他用户(不在同一个局域网之下)来进行调用呢?这时我们就可以使用内网穿透将自己的IP通过映射成相应的地址,然后再通过映射后的地址来进行访问本地的项 ...
mooc人大单元测试3
@font-face { font-family: Wingdings } @font-face { font-family: 宋体 } @font-face { font-family: " ...
让我们一起建设 Vue DevUI 项目吧！🥳
DevUI Design 是从华为云 DevCloud 众多业务孵化出来的一套设计体系,DevUI 倡导沉浸.灵活.至简的设计价值观,提倡设计者为真实的需求服务,为多数人进行设计,拒绝哗众取宠.取悦眼 ...
Unittest单元测试框架——BeautifulReport测试报告和Yagmail自动发送邮件
一.前言之前在做appium自动化的时候,已经提到过unittest框架的基本概念.用例执行,以及BeautifulReport测试报告的简单使用了(地址:https://www.cnblogs.c ...
thinkphp5 ztree树形菜单
教程:http://makaidong.com/zjfjava/4074_5873678.html 下载:https://github.com/zTree/zTree_v3
hdu4561 连续最大积
题意: 连续最大积 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) Total ...
CVE-2011-0104：Microsoft Office Excel 栈溢出漏洞修复分析
0x01 前言上一篇讲到了 CVE-2011-0104 漏洞的成因和分析的方法,并没有对修复后的程序做分析.之后在一次偶然的情况下,想看一看是怎么修复的,结果却发现了一些问题环境:修复后的 EXC ...
用户模式下的线程同步的分析（Windows核心编程）
线程同步同一进程或者同一线程可以生成许多不同的子线程来完成规定的任务,但是多个线程同时运行的情况下可能需要对某个资源进行读写访问,比如以下这个情况:创建两个线程对同一资源进行访问,最后打印出这个资源 ...

Python将PDF转为TXT

Python将PDF转为TXT的更多相关文章

随机推荐

热门专题