Python解析PDF三法

span{line-height:2em}
-->

最近做调研想知道一些NZ当地的旅游信息，于是在NZ留学的友人自高奋勇地帮我去各个加油站拿了一堆旅游小册子，扫描了发给我。

但是他扫描出的高清图全在一个pdf里，顺序也不对，于是我准备把pdf文件中的图单个取出转成jpg方便查看。

使用免费的Adobe Reader X虽然可以一张一张的把图拷贝下来，转存进mspaint，但是枯燥的过程不能满足我熊熊燃烧的程序员之魂。

由于空闲时间不多，先在网上搜到一堆胡里花哨的小软件，不是看介绍就觉得文不对题就是免费版的软件内部限定只能转第一张…

于是决定用python写个脚本跑批把图取出来，先选择了PdfMiner。

PdfMiner的demo：

#!/usr/bin/env python2

#-*-encoding:utf-8-*-

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

from pdfminer.layout import *

from pdfminer.converter import PDFPageAggregator

import urllib2

from cStringIO import StringIO

def Pdf2Txt(DataIO,Save_path):                     #来创建一个pdf文档分析器

    parser = PDFParser(DataIO)                     #创建一个PDF文档对象存储文档结构

    document = PDFDocument(parser)

    if not document.is_extractable:

        raise PDFTextExtractionNotAllowed

    else:

        #创建一个PDF资源管理器对象来存储共赏资源

        rsrcmgr=PDFResourceManager();            #设定参数进行分析

        laparams=LAParams();                    #创建一个PDF设备对象

        #device=PDFDevice(rsrcmgr)

        device=PDFPageAggregator(rsrcmgr,laparams=laparams);#创建一个PDF解释器对象

        interpreter=PDFPageInterpreter(rsrcmgr,device)

        #处理每一页

        for page in PDFPage.create_pages(document):

            interpreter.process_page(page);        #接受该页面的LTPage对象

            layout=device.get_result()

            for x in layout:

                try:

                    if(isinstance(x,LTTextBoxHorizontal)):

                        with open('%s'%(Save_path),'a') as f:

                            f.write(x.get_text().encode('utf-8')+'\n')

                except:

                    print "Failed!"

#convert online pdf

'''

url = "pdf url";

html = urllib2.urlopen(urllib2.Request(url)).read();

DataIO = StringIO(html.read());

Pdf2Txt(DataIO,r'C:\workspace\python\converter\resource\b2.txt');

'''

#convert local pdf

with open(r'C:\workspace\python\converter\resource\text.pdf','rb') as html:

    DataIO = StringIO(html.read())

    Pdf2Txt(DataIO,r'C:\workspace\python\converter\resource\b3.txt')

试用后发现PdfMiner更适合配合StringIO转出pdf文件中的文字类信息。这和我的需求不符，果断更换。

接着找到了PythonMagick，通过写demo发现能够顺利转出我需要的图，但是PythonMagick并没有方法可以获取pdf文件的页数，于是又找到了PyPdf2，PyPdf2的PdfFileReader中getNumPages()方法可以读取pdf文件页数。

PythonMagick的demo：

import PythonMagick;

from PyPDF2 import PdfFileReader;

C_RESOURCE_FILE=r'C:\workspace\python\converter\resource';

C_PDFNAME=r'6p.pdf';

C_JPGNAME=r'6p%s.jpg';

input_stream = file(C_RESOURCE_FILE+'\\'+C_PDFNAME, 'rb');

pdf_input = PdfFileReader(input_stream,strict=False);     #错误1

page_count = pdf_input.getNumPages();

img = PythonMagick.Image()    # empty object first

img.density('300');            # set the density for reading (DPI); must be as a string

for i in range(page_count):

    try:

        img.read(C_RESOURCE_FILE+'\\'+C_PDFNAME + ('[%s]'%i));     #分页读取 PDF

        imgCustRes = PythonMagick.Image(img);  # make a copy

        imgCustRes.sample('x1600');

        imgCustRes.write(C_RESOURCE_FILE+'\\'+(C_JPGNAME%i));

    except Exception, e:

        print e;

        pass;

print 'done';

运行时，碰到错误1：

PyPDF2.utils.PdfReadError: Multiple definitions in dictionary at byte 0x4717c2 f or key /Info

通过查询，将严格模式关闭，PdfFileReader(input_stream,strict=False)可以解决。

文中所用到的包如下：

PythonMagick可以通过lfd.edu提供的镜像下载whl文件，比如我用的python2.7，64位windows，下载对应的是PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl。

安装方法，cmd进入whl文件所在目录，运行：

pip install PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl

PyPdf2可以使用pip直接安装。

pip install PyPdf2

PdfMiner可以在github里搜一下，关键字排名第一有2k star那个的就是。

在搜索过程中，还发现另外一种方法，使用ImageMagick与命令行进行转换，需要安装ImageMagick，GhostScript，参照此文。

cmd进入pdf所在目录，运行：

magick convert 6p.pdf 6p.jpg

此方法能够将pdf自动按页转为jpg。

Reference：

Python使用PDFMiner解析PDF
PdfReadError: Multiple definitions in dictionary at byte 0x30b for key /Type #244
Convert PDF to IMAGE with perl/pythjon
Unofficial Windows Binaries for Python Extension Packages - PythonMagick
PDF to JPG Conversion with Python (for Windows)

Python解析PDF三法的更多相关文章

用python解析pdf中的文本与表格【pdfplumber的安装与使用】
我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等.pdf格式使得用机器从中提取信息格外困难. 为了解决这个问题,我找到了几种解决方案,最后选择了python上的p ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
Python使用PDFMiner解析PDF
近期在做爬虫时有时会遇到网站只提供pdf的情况,这样就不能使用scrapy直接抓取页面内容了,只能通过解析PDF的方式处理,目前的解决方案大致只有pyPDF和PDFMiner.因为据说PDFMiner ...
Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
python解析xml之lxml
虽然python解析xml的库很多,但是,由于lxml在底层是用C语言实现的,所以lxml在速度上有明显优势.除了速度上的优势,lxml在使用方面,易用性也非常好.这里将以下面的xml数据为例,介绍l ...
Python读取PDF内容
1,引言晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...
Python解析Wav文件并绘制波形的方法
资源下载 #本文PDF版下载 Python解析Wav文件并绘制波形的方法 #本文代码下载 Wav波形绘图代码 #本文实例音频文件night.wav下载音频文件下载 (石进-夜的钢琴曲) 前言在现在 ...
Python3.x：PDFMiner3k在线、本地解析pdf
Python3.x:PDFMiner3k在线.本地解析pdf 安装 pip install pdfminer3k 示例一:在线解析pdf ''' Demo:pdf2htmlex解析pdf Dateti ...

随机推荐

使用base64提升视觉效果体验
最近在做一个微信端的小项目,前端代码写完后,就放在手机端测试,没什么问题,但是页面在加载和渲染时的效果却让人有些不爽,虽然是个小项目,我大可不必做这些,但是看着页面的闪动,就忍不住想做些什么. 先说说 ...
关于STM32单片机的IAP实现
基于STM32F103单片机的IAP实现(虽然该篇文章不会详细写出实现细节,但是会从一个全局的角度讲述,实际的实现细节只需根据datasheet即可完成). 一.基础概念什么是IAP?IAP即在应用 ...
使用JS开发桌面端应用程序NW.js-3-开发问题小记
前言因为我们的项目是2C的,而XP系统是最大的用户量占比,所以只能使用nw开发而不能用Electron,本文谨记开发nw过程中遇到的各种问题以及解决方案. nw.Window.open打开新窗口不能 ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
“盛大游戏杯”第15届上海大学程序设计联赛夏季赛暨上海高校金马五校赛题解&&源码【A,水,B,水,C,水,D,快速幂,E,优先队列,F,暴力,G,贪心+排序,H,STL乱搞,I,尼姆博弈,J,差分dp,K,二分+排序,L,矩阵快速幂,M,线段树区间更新+Lazy思想,N,超级快速幂+扩展欧里几德,O,BFS】
黑白图像直方图发布时间: 2017年7月9日 18:30 最后更新: 2017年7月10日 21:08 时间限制: 1000ms 内存限制: 128M 描述在一个矩形的灰度图像上,每个 ...
如何使用OLAMI自然语言理解开放平台API制作自己的智能对话助手小程序
我们经常在电影中看到机器和人对答如流,随着越来越多自然语言开放平台的出现,IT爱好者制作一个自己的APP或者小玩具等逐渐可以变为现实. 自然语言对话即你的APP或者你制作的工具.机器人等能够对用户输入 ...
JavaScript 之 HelloWorld编写
HelloWorld.html 代码如下: <html><body><script type="text/javascript">documen ...
Work 1(导游类)(2017.06.27)
VerilogHDL概述与数字IC设计流程学习笔记
一.HDL的概念和特征 HDL,Hard Discrimination Language的缩写,翻译过来就是硬件描述语言.那么什么是硬件描述语言呢?为什么不叫硬件设计语言呢?硬件描述语言,顾名思义就是 ...
（转）CentOS6.5下Redis安装与配置
场景:项目开发中需要用到redis,之前自己对于缓存这块一直不是很理解,所以一直有从头做起的想法. 本文详细介绍redis单机单实例安装与配置,服务及开机自启动.如有不对的地方,欢迎大家拍砖o(∩_∩ ...

Python解析PDF三法

Python解析PDF三法的更多相关文章

随机推荐

热门专题