用python解析pdf中的文本与表格【pdfplumber的安装与使用】

我们接触到的很多文档资料都是以pdf格式存在的，比如：论文，技术文档，标准文件，书籍等。pdf格式使得用机器从中提取信息格外困难。

为了解决这个问题，我找到了几种解决方案，最后选择了python上的pdfplumber库，安装和使用都相对比较方便，效果也还不错，所以下面介绍这个库的安装与使用。

安装
我的电脑配置环境： Win10+python3.6
和许多库一样，其基本安装只需要pip就可以了。

pip install pdfplumber

不过本库还提供了图形Debug功能，可以获得PDF页面的截图，并且用方框框起识别到的文字或表格，帮助判断PDF的识别情况，并且进行配置的调整。【具体例子在后面附上。】

要使用这个功能，还需要安装ImageMagick （特别注意，是6.X版本而不是最新的7.X版本。下载地址如下：https://legacy.imagemagick.org/script/binary-releases.php#windows ）

按照官网的指示，理论上安装了这个就可以了，不过，我在使用to_image函数输出图片时，遇到了DelegateException。后来发现，还需要安装另一个软件才能够解决问题。
GhostScript: https://www.ghostscript.com/download/gsdnld.html 【注意，一定要下载32位版本，哪怕Windows和python的版本是64位的。】
然后就大功告成了！

基本使用
本库最重要的应用是提取页面上的文本和表格，用法如下：

import pdfplumber
import pandas as pd

with pdfplumber.open("path/to/file.pdf") as pdf:
first_page = pdf.pages[0]
# 获取文本，直接得到字符串，包括了换行符【与PDF上的换行位置一致，而不是实际的“段落”】
print(first_page.extract_texts())
# 获取本页全部表格，也可以使用extract_table()获得单个表格
for table in p0.extract_tables():
#得到的table是嵌套list类型，转化成DataFrame更加方便查看和分析
df = pd.DataFrame(table[1:], columns=table[0])
print(df)

pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息，具体可以看看官网的说明：https://github.com/jsvine/pdfplumber
---------------------
作者：blmoistawinde
来源：CSDN
原文：https://blog.csdn.net/blmoistawinde/article/details/82051915
版权声明：本文为博主原创文章，转载请附上博文链接！

用python解析pdf中的文本与表格【pdfplumber的安装与使用】的更多相关文章

java itext替换PDF中的文本
itext没有提供直接替换PDF文本的接口,我们可以通过在原有的文本区域覆盖一个遮挡层,再在上面加上文本来实现. 所需jar包: 1.先在PDF需要替换的位置覆盖一个白色遮挡层(颜色可根据PDF文字背 ...
使用itext直接替换PDF中的文本
直接说问题,itext没有直接提供替换PDF中文本的接口(查看资料得到的结论是PDF不支持这种操作),不过存在解决思路:在需要替换的文本上覆盖新的文本.按照这个思路我们需要解决以下几个问题: itex ...
C# 设置或验证 PDF中的文本域格式
概述 PDF中的文本域可以通过设置不同格式,用于显示数字.货币.日期.时间.邮政编码.电话号码和社保号等等.Adobe Acrobat提供了许多固定的JavaScripts用来设置和验证文本域的格式, ...
Python解析PDF三法
span{line-height:2em} --> 最近做调研想知道一些NZ当地的旅游信息,于是在NZ留学的友人自高奋勇地帮我去各个加油站拿了一堆旅游小册子,扫描了发给我. 但是他扫描出的高清图 ...
[译]使用BeautifulSoup和Python从网页中提取文本
如果您要花时间浏览网页,您可能遇到的一项任务就是从HTML中删除可见的文本内容. 如果您使用的是Python,我们可以使用BeautifulSoup来完成此任务. 设置提取首先,我们需要获取一些HT ...
Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...
Java 设置PDF中的文本旋转、倾斜
本文介绍通过Java程序在PDF文档中设置文本旋转.倾斜的方法.设置文本倾斜时,通过定义方法TransformText(page);并设置page.getCanvas().skewTransform( ...
Java 读取Word文本框中的文本/图片/表格
Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...
Java 在PDF中添加水印——文本/图片水印
水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...

随机推荐

Storm实时计算系统
来自知乎: 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样.更加便捷,同时对于信息的时效性要求也越来越高.举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希 ...
权力的游戏第七季/全集Game of Thrones迅雷下载
艾美及金球奖获奖HBO原创剧集<权力的游戏>第七季将于2016年夏天晚些时候开拍.新的一季共有七集,主要拍摄地为北爱尔兰,部分镜头也将在西班牙和冰岛取景.上映时间预计将略有推迟,至2017 ...
cocos2d-x中CCLabelAtlas的小图片拼接
美术在设计UI时,很多界面可能使用了数字图片来展示一些效果,比如CD或者 x1/x2等,一般她们都会切成很多单张小的图片,类似这样 cocox2d-x中CCLabelAtlas支持直接从图片中读取 ...
通过泛型来简化findViewById
我们一般写findViewById都要加个强制转换,感觉很麻烦,现在你可以在你的BaseActivity中写入如下方法: @SuppressWarnings(“unchecked”) public f ...
JAVA垃圾回收机制概要
垃圾回收是JAVA中的一个大知识点,也是一个著名知识点,毕竟JAVA号称自己先进性的时候总是会带上垃圾回收.于是,它也成了面试中的常客,面试官动不动的就要你解释下什么是垃圾回收,以及它的原理是什么.当 ...
[转]专访企业QQ SaaS团队，谈企业级LNMP架构设计
FROM : http://www.csdn.net/article/2014-08-20/2821302-interview-tencent-b-qq-shuai-wang 对比IaaS和PaaS, ...
Guava CharMatcher
概述 CharMatcher提供了多种对字符串处理的方法, 它的主要意图有: 1. 找到匹配的字符 2. 处理匹配的字符 CharMatcher内部主要实现包括两部分: 1. 实现了大量公用内部类, ...
java8 快速入门 lambda表达式 Java8 lambda表达式10个示例
本文由 ImportNew - lemeilleur 翻译自 javarevisited.欢迎加入翻译小组.转载请见文末要求. Java 8 刚于几周前发布,日期是2014年3月18日,这次开创性的发 ...
matlib实现梯度下降法(序一）
数据来源:http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据描述: 有四个输入特征,这些数据来自电厂,这四个特征和 ...
Asp.Net验证控件浅析
ASP.NET公有六种验证控件,分别如下: 控件名功能描叙 RequiredFieldValidator(必须字段验证) 用于检查是否有输入值 CompareValidato ...

用python解析pdf中的文本与表格【pdfplumber的安装与使用】

用python解析pdf中的文本与表格【pdfplumber的安装与使用】的更多相关文章

随机推荐

热门专题