Python将PDF转为TXT

PDFMiner----python的PDF解析器和分析器

1.官方文档：http://www.unixuser.org/~euske/python/pdfminer/index.html

2.特征

完全使用python编写。（适用于2.4或更新版本）
解析，分析，并转换成PDF文档。
PDF-1.7规范的支持。（几乎）
中日韩语言和垂直书写脚本支持。
各种字体类型（Type1、TrueType、Type3，和CID）的支持。
基本加密（RC4）的支持。
PDF与HTML转换。
纲要（TOC）的提取。
标签内容提取。
通过分组文本块重建原始的布局。

3.安装

注：使用源码安装，并且处理中日韩语言的时候还需要一个额外的安装步骤

4.用法

4.1解析pdf文件用到的类：

PDFParser：从一个文件中获取数据
PDFDocument：保存获取的数据，和PDFParser是相互关联的
PDFPageInterpreter处理页面内容
PDFDevice将其翻译成你需要的格式
PDFResourceManager用于存储共享资源，如字体或图像。

PDFMiner的类之间的关系图：

4.2基本用法

4.2.1解析pdf文件

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

fp = open('mypdf.pdf', 'rb')

#创建一个PDF文档解析器对象

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

#提供密码初始化，没有就不用传该参数

document = PDFDocument(parser, password)

#检查文件是否允许文本提取

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

#创建一个PDF资源管理器对象来存储共享资源

rsrcmgr = PDFResourceManager()

#创建一个pdf设备对象

device = PDFDevice(rsrcmgr)

#创建一个PDF解析器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理文档当中的每个页面

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

当然这只是进行解析，还可进行布局分析，我的数据就是从这一步的到的

4.2.2布局分析

首先对第一步的代码进行修改和增加

from pdfminer.layout import LAParams

from pdfminer.converter import PDFPageAggregator

# 设定参数进行分析

laparams = LAParams()

# 创建一个PDF页面聚合对象

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

    # 接收该页面的LTPage对象

    layout = device.get_result()

布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象，形成一个树结构

如图所示：

LTPage :表示整个页。可能会含有LTTextBox，LTFigure，LTImage，LTRect，LTCurve和LTLine子对象。
LTTextBox:表示一组文本块可能包含在一个矩形区域。注意此box是由几何分析中创建，并且不一定
表示该文本的一个逻辑边界。它包含LTTextLine对象的列表。使用 get_text（）方法返回的文本内容。
LTTextLine :包含表示单个文本行LTChar对象的列表。字符对齐要么水平或垂直，取决于文本的写入模式。
get_text（）方法返回的文本内容。
LTChar
LTAnno:在文本中实际的字母表示为Unicode字符串（？）。需要注意的是，虽然一个LTChar对象具有实际边界，
LTAnno对象没有，因为这些是“虚拟”的字符，根据两个字符间的关系（例如，一个空格）由布局分析后插入。
LTImage:表示一个图像对象。嵌入式图像可以是JPEG或其它格式，但是目前PDFMiner没有放置太多精力在图形对象。
LTLine:代表一条直线。可用于分离文本或附图。
LTRect:表示矩形。可用于框架的另一图片或数字。
LTCurve:表示一个通用的Bezier曲线

4.2.3获得目录（纲要）

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

# Open a PDF document.

fp = open('mypdf.pdf', 'rb')

parser = PDFParser(fp)

document = PDFDocument(parser, password)

# Get the outlines of the document.

outlines = document.get_outlines()

for (level,title,dest,a,se) in outlines:

    print (level, title)

5.个人使用

# -*- coding: utf-8 -*-

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

from pdfminer.layout import *

from pdfminer.converter import PDFPageAggregator

import os

os.chdir(r'F:\test')

fp = open('python.pdf', 'rb')

#来创建一个pdf文档分析器

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

document = PDFDocument(parser)

# 检查文件是否允许文本提取

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

else:

    # 创建一个PDF资源管理器对象来存储共赏资源

    rsrcmgr=PDFResourceManager()

    # 设定参数进行分析

    laparams=LAParams()

    # 创建一个PDF设备对象

    # device=PDFDevice(rsrcmgr)

    device=PDFPageAggregator(rsrcmgr,laparams=laparams)

    # 创建一个PDF解释器对象

    interpreter=PDFPageInterpreter(rsrcmgr,device)

    # 处理每一页

    for page in PDFPage.create_pages(document):

        interpreter.process_page(page)

        # 接受该页面的LTPage对象

        layout=device.get_result()

        for x in layout:

            if(isinstance(x,LTTextBoxHorizontal)):

                with open('a.txt','a') as f:

                    f.write(x.get_text().encode('utf-8')+'\n')

　文章转自：http://www.bkjia.com/Pythonjc/1073800.html

Python将PDF转为TXT的更多相关文章

Python解析PDF三法
span{line-height:2em} --> 最近做调研想知道一些NZ当地的旅游信息,于是在NZ留学的友人自高奋勇地帮我去各个加油站拿了一堆旅游小册子,扫描了发给我. 但是他扫描出的高清图 ...
Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
python制作pdf电子书
python制作pdf电子书准备制作电子书使用的是python的pdfkit这个库,pdfkit是 wkhtmltopdf 的Python封装包,因此在安装这个之前要安装wkhtmltopdf 安 ...
Asp.net实现直接在浏览器预览Word、Excel、PDF、Txt文件（附源码）
功能说明输入文件路径,在浏览器输出文件预览信息,经测试极速(Chrome).IE9.Firefox通过分类文件及代码说明 DemoFiles 存放可测试文件 Default.aspx 启动页 ...
C# 如何将PDF转为多种图像文件格式（Png/Bmp/Emf/Tiff）
PDF是一种在我们日常工作学习中最常用到的文档格式之一,但常常也会因为文档的不易编辑的特点,在遇到需要编辑PDF文档内容或者转换文件格式的情况时让人苦恼.通常对于开发者而言,可选择通过使用组件的方式来 ...
C# 将PDF转为SVG的3种情况
PDF格式的文档广泛用于各种办公场所,在工作中难免会有将PDF文档转换为其他文档格式的需要.在本篇文档中,将介绍PDF转为SVG的方法.根据不同的转换需求,这里分三种情况进行讲述,即转PDF所有页为S ...
pdf转txt
ubuntu pdf转jpg或txt chenlei posted @ 2009年12月30日 17:22 inLinux , 1818 阅读呵呵,刚刚在网上定购了一款mp5,后来才发现它不支持PD ...
java通过url在线预览Word、excel、ppt、pdf、txt文档
java通过url在线预览Word.excel.ppt.pdf.txt文档中的内容[只获得其中的文字] 在页面上显示各种文档中的内容.在servlet中的逻辑 word: BufferedInputS ...
Python 由list转为dictionary
Python 由list转为dictionary 例如: 原始的 list 形式为: session_item_data=[[100, [10, 11], [12, 13]], [101, [11, ...

随机推荐

day7.文件处理
@字符编码见:https://zhuanlan.zhihu.com/p/108805502 一.文件基本操作 ''' 1.什么是文件文件是操作系统提供给用户或者应用程序的一种操作硬盘的 ...
kubectl 缩写和别名
Use "kubectl explain " for a detailed description of that resource (e.g. kubectl explain p ...
【Java】 Java中的浅拷贝和深拷贝
先抛出结论: 浅拷贝是引用拷贝,A对象拷贝B以后,A对象和B对象指向同一块内存地址,改变A对象的属性值会触发B对象属性的改变,有安全风险深拷贝是对象拷贝,A对象拷贝B以后,A对象和B对象指向不同的额 ...
hdu4585 STL水题
题意: 成立少林寺,刚开始有一个大师,id是1,攻击力是10E,现在陆续来人,每个人有自己的id,和自己的攻击力,但是每一个新来的要和之前的和尚pk,他必须选择和他攻击力差值最小的那个,如 ...
CVE-2017-11826：Office Open XML 标签嵌套解析混淆漏洞
\x01 前言 CVE-2017-11826 据说是 360 在 2017 年 9 月底发现的一个关于 XML 格式解析的一个漏洞,之后微软在 10 月份发布了关于 CVE-2017-11826 的补 ...
快速运行cmd
方法一运行 windows+r 输入cmd 指定要手动输入cd ...... 方法二文件地址栏在指定路径在文件地址栏前面输入cmd 方法三 shift+鼠标右键打开到指定文件夹,shift+鼠 ...
使用TK框架中updateByPrimaryKey与updateByPrimaryKeySelective区别
int updateByPrimaryKey(T var1); int updateByPrimaryKeySelective(T var1); updateByPrimaryKeySelective ...
SparkSQL电商用户画像(二)之如何构建画像
四. 如何构建电商用户画像 4.1 构建电商用户画像技术和流程构建一个用户画像,包括数据源端数据收集.数据预处理.行为建模.构建用户画像有些标签是可以直接获取到的,有些标签需要通过数据挖掘分析到! ...
Spring MVC工作原理及源码解析（二）DispatcherServlet实现原理及源码解析
1.DispatcherServlet 处理流程从上一篇文章中Spring MVC原理图中我们可以看出:DispatcherServlet 在 Spring MVC框架中处于核心位置,它负责协调和 ...
拿到列表的长度len(列表名)
拿到列表的长度len(列表名),即元素个数列表要放在括号里面

Python将PDF转为TXT

Python将PDF转为TXT的更多相关文章

随机推荐

热门专题