Python读取PDF内容

1，引言

晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。

2，把pdf转换成文本的Python源代码

下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)

    device.close()

    content = retstr.getvalue()

    retstr.close()

    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3，展望

这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。

4，集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

5，文档修改历史

2016-05-26：V2.0，增补文字说明
2016-05-29：V2.1，增加第六章：源代码下载源，并更换github源的网址

Python读取PDF内容的更多相关文章

【转】Python读取PDF文档，输出内容
Python3读取pdf文档,输出内容(txt) from urllib.request import urlopen from pdfminer.pdfinterp import PDFResour ...
读取pdf内容分页和全部
//读取pdf 全部内容public static String topdffile(String pdffile){ StringBuffer result = new StringBuffer() ...
Python读取文件内容与存储
Python读取与存储文件内容一..csv文件读取: import pandas as pd souce_data = pd.read_csv(File_Path) 其中File_path是文件的 ...
python读取pdf文件
pdfplumber简介 Pdfplumber是一个可以处理pdf格式信息的库.可以查找关于每个文本字符.矩阵.和行的详细信息,也可以对表格进行提取并进行可视化调试. 文档参考https://gith ...
Python读取PDF文档
from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer. ...
Python+Selenium中级篇之-Python读取配置文件内容
本文来介绍下Python中如何读取配置文件.任何一个项目,都涉及到了配置文件和管理和读写,Python支持很多配置文件的读写,这里我们就介绍一种配置文件格式的读取数据,叫ini文件.Python中有一 ...
[python] - 读取文件内容，并输出
1.读取文件,并逐行输出内容,代码如下: # coding=gbk import os path = 'E:\python_practice' os.chdir(path) fname = raw_i ...
PYTHON读取EXCEL内容再转变成HTML添加到OUTLOOK中
需求读取excel里的表格里的内容,然后打开本机的outlook.把excel里的内容添加到正文里,注意.这里是要添加到正文!正文!正文!而不是添加到附件里设计思路 1.excel处理打开exc ...
记一次为解决Python读取PDF文件的Shell操作
目录一.背景二.问题三.解决四.一顿分析及 Shell 操作五.后续一.背景本想将 PDF 文件转换为 Word 文档,然后网上搜索了一下发现有挺多转换的软件.有的是免费的.收费,咱也不 ...

随机推荐

node.js入门（二）第一个程序 Hello World
新建一个名为"hello.js"文本文件,然后输入如下内容 //载入http模块 var http = require('http'); //构建一个http服务器 var ser ...
Servlet 学习总结-2
#重定向与转发的区别开发Web应用中会遇到从一个页面跳转到另一个页面的问题,在JSP中有两种跳转方式: 1.重定向 2.转发(转向) 重定向:首先服务器受到浏览器客户端请求之后,服务器发送新的链接到 ...
.Net Service开发（一）
一, 新增一个服务项目
jquery 鼠标右键事件、左键单击事件判定
$(function(){ $('a').mousedown(function(e){ alert(e.which) // 1 = 鼠标左键 left; 2 = 鼠标中键; 3 = 鼠标右键 retu ...
浅析 C++里面的宏
说到宏,恐怕大家都能说出点东西来:一种预处理,没有分号(真的吗?).然后呢?嗯.......茫然中......好吧,我们就从这开始说起.最常见的宏恐怕是#include 了,其次就是#define 还 ...
Android之用PopupWindow实现弹出listview形式菜单
Android 4.0之前的菜单使用非常广泛,但是在android4.0之后,很少使用先前的菜单样式了.那如何实现下图的样式了? 我们简单模拟一下. (1)屏蔽系统弹出的菜单: 1.首先创建至少一个系 ...
Unable to execute dex: Multiple dex files define Lorg/ap (
解决这个问题的方法,直接把commons-collections.jar这个jar包删除,一定要删干净啊,各个地方看一下,再clean下,应该没问题了!根据这个英文的目录指示就是Unable to e ...
cdecl、pascal、stdcall、fastcall
Directive Parameter order Clean-up Passes parameters in registers?register Left-to-right ...
linux之SQL语句简明教程---LIKE
LIKE 是另一个在 WHERE 子句中会用到的指令.基本上,LIKE 能让我们依据一个套式 (pattern) 来找出我们要的资料.相对来说,在运用 IN 的时候,我们完全地知道我们需要的条件:在运 ...
微信小程序 app.json 配置
我们使用app.json文件来对微信小程序进行全局配置,决定页面文件的路径.窗口表现.设置网络超时时间.设置多 tab 等. 以下是一个包含了所有配置选项的简单配置app.json : { " ...

Python读取PDF内容

Python读取PDF内容的更多相关文章

随机推荐

热门专题