pdfminer实现pdf布局分析 python （pdfminer realize layout analysis with PDF python）

使用pdfminer实现pdf文件的布局分析 python

参考资料：

https://stackoverflow.com/questions/22898145/how-to-extract-text-and-text-coordinates-from-a-pdf-file?noredirect=1

import cv2

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

from pdfminer.layout import LAParams

from pdfminer.converter import PDFPageAggregator

import pdfminer

import numpy as np

import matplotlib.pyplot as plt

from pdf2image import convert_from_path

image_path = 'literature.pdf'

layout_type = ['LTTextBox', 'LTFigure', 'LTImage', 'LTCurve', 'LTRect']

# Text：红色， Figure：绿色， Image：蓝色， Curve：黄色， Rect：紫色

color = [(255, 0, 0), (0, 255, 0), (0, 0, 255), (255, 255, 0), (160, 32, 240)]

draw_color = dict(zip(layout_type, color))

def parse_obj(lt_objs):

    boxs = {x: [] for x in layout_type}

    # loop over the object list

    for obj in lt_objs:

        if isinstance(obj, pdfminer.layout.LTTextBoxHorizontal):

            boxs['LTTextBox'].append(obj.bbox)

        elif isinstance(obj, pdfminer.layout.LTFigure):

            boxs['LTFigure'].append(obj.bbox)

        elif isinstance(obj, pdfminer.layout.LTImage):

            boxs['LTImage'].append(obj.bbox)

        elif isinstance(obj, pdfminer.layout.LTCurve):

            boxs['LTCurve'].append(obj.bbox)

        elif isinstance(obj, pdfminer.layout.LTRect):

            boxs['LTRect'].append(obj.bbox)

        else:

            raise

    return boxs

# Open a PDF file.

fp = open(image_path, 'rb')

# Create a PDF parser object associated with the file object.

parser = PDFParser(fp)

# Create a PDF document object that stores the document structure.

# Supply the password for initialization.

password = '123'

document = PDFDocument(parser, password)

# Check if the document allows text extraction. If not, abort.

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

# Create a PDF resource manager object that stores shared resources.

rsrcmgr = PDFResourceManager()

# Set parameters for analysis.

laparams = LAParams()

# Create a PDF page aggregator object.

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

interpreter = PDFPageInterpreter(rsrcmgr, device)

page_boxs = []

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

    # receive the LTPage object for the page.

    layout = device.get_result()

    # extract text from this object

    boxs = parse_obj(layout._objs)

    page_sized = tuple([round(i) for i in layout.bbox])

    page_boxs.append((page_sized, boxs))

    pass

image = convert_from_path(image_path)

assert len(image) == len(page_boxs), "The number of boxes doesn't match the number of pictures"

for i in range(len(image)):

    # 得到这一页图片

    image_pil = image[i]

    # 把这一页的图片格式转成numpy类型

    image_numpy = np.array(image_pil)

    # 得到这一页图片德国高度，为了之后得到实际的box

    page_boxs_height = page_boxs[i][0][3]

    print(page_boxs[i][1])

    # 遍历这一页的框

    for key, values in page_boxs[i][1].items():

        # 把实际的图片大小resize到页面的大小

        image_numpy = cv2.resize(image_numpy, page_boxs[i][0][2:4], interpolation=cv2.INTER_AREA)

        for value in values:

            # The y-coordinates are given as the distance from the bottom of the page.

            real_box = (value[0], page_boxs_height-value[3], value[2], page_boxs_height-value[1])

            real_box_integer = tuple([round(jj) for jj in real_box])

            # 画图

            cv2.rectangle(image_numpy, real_box_integer[:2], real_box_integer[2:], draw_color[key], 2)

    plt.figure(), plt.imshow(image_numpy)

    plt.show()

结果如下：

此代码只涉及到PDF文件的布局分析，没有涉及到PDF转成可编辑文档。供大家参考，有问题希望大家多多指正

pdfminer实现pdf布局分析 python （pdfminer realize layout analysis with PDF python）的更多相关文章

PDF格式分析
系列文章是csdn作者'秋风之刀'写的,我只是把目录列出来而已,感谢作者辛苦付出. PDF格式分析(一)简介 PDF格式分析(二)语法之对象 PDF格式分析(三)语法之Filter PDF格式分析(四 ...
Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
从PDF中提取信息----PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还 ...
Python代码教你批量将PDF转为Word
很多时候在学习时发现许多文档都是PDF格式,PDF格式却不利于学习使用,因此需要将PDF转换为Word文件,但或许你从网上下载了很多软件,但只能转换前五页(如WPS等),要不就是需要收费,那有没有免费 ...
JFS 文件系统概述及布局分析
JFS 文件系统概述及布局分析日志文件系统如何缩短系统重启时间如果发生系统崩溃,JFS 提供了快速文件系统重启.通过使用数据库日志技术,JFS 能在几秒或几分钟之内把文件系统恢复到一致状态,而非日 ...
Python核心编程第二版(中文).pdf 目录整理
python核心编程目录 Chapter1:欢迎来到python世界!-页码:7 1.1什么是python 1.2起源 :罗萨姆1989底创建python 1.3特点 1.3.1高级 1.3.2面向 ...
基于binlog来分析mysql的行记录修改情况（python脚本分析）
最近写完mysql flashback,突然发现还有有这种使用场景:有些情况下,可能会统计在某个时间段内,MySQL修改了多少数据量?发生了多少事务?主要是哪些表格发生变动?变动的数量是怎 ...
Python应用——自定义函数：分割PDF文件函数
案例将一个 pdf 文件按要求分割为几个部分.比如说一个pdf有20页,分成5个pdf文件,每个pdf文件包含4页.设计函数实现? Python代码 from PyPDF2 import PdfFi ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...

随机推荐

CF 936C Lock Puzzle——构造
题目:http://codeforces.com/contest/936/problem/C 玩了一个小时,只能想出 5*n 的方法. 经过一番观察?考虑这样构造:已经使得 A 串的一个后缀 = B ...
Redis集群的搭建【转】
redis集群的特点: 1.机器多,能够保证redis服务器出现问题后,影响较小 2.自备主从结构,自动的根据算法划分主从结构.动态的实现 3.能够根据主从结构自动的实现高可用 4.实现数据文件的备份 ...
[CSP-S模拟测试]:platform（后缀数组+二分+线段树）
题目传送门题目描述走过奈何桥有一个名叫望乡台的土台,望乡台有个名曰孟婆的老妇人在卖孟婆汤.一生爱恨情仇,一世浮沉得失,都可以随这碗孟婆汤遗忘得干干净净.现在有$n$碗孟婆汤摆成一排,汤的品种不超过 ...
JS基础入门篇（四）—this的使用，模拟单选框，选项卡和复选框
1.this的使用 this js中的关键字 js内部已经定义好了,可以不声明直接使用 this的指向问题 1. 在函数外部使用 this指向的是window 2. 在函数内部使用有名函数直接调 ...
python中chr()函数和ord（）函数的用法
一,chr()函数格式:Chr(<数值表达式>) 说明:函数返回值类型为String,其数值表达式值取值范围为0~255. 例如:Print Chr(78),结果显示:N. ...
北风设计模式课程---UML类图各符号含义
北风设计模式课程---UML类图各符号含义一.总结一句话总结: 用脑子,挺好记的:实线关系肯定比虚线重,箭头.三角形.菱形的关系肯定依次加重,三角形是继承和实现, 1.UML类图中线+箭头表示 ...
51单片机的idata,xdata,pdata,data的详解
data: 固定指前面0x00-0x7f的128个RAM,可以用acc直接读写的,速度最快,生成的代码也最小. bit :是指0x20-0x2f的可位寻址区idata:固定指前面0x00-0xff的2 ...
vijos 1243 生产产品
貌似两年前联赛复习的时候就看过这题然而当时大概看看了感觉太难便没有去做如今再去做的时候发现其实也并不容易 ------------------------------------------ ...
DB-概念-同义词：同义词/Synonym
ylbtech-DB-概念-同义词:同义词/Synonym 同义词的概念 :英文(synonym)是指向其它数据库表的数据库指针.同义词有私有(private)和公共(public)两种类型. 1.返 ...
Oracle -操作数据库
删除数据: delete:用delete删除记录,Oracle系统会产生回滚记录,所以这种操作可以使用ROLLBACK来撤销 truncate:删除数据时,不会产生回滚记录.所以执行速度相对较快些可 ...

pdfminer实现pdf布局分析 python （pdfminer realize layout analysis with PDF python）

pdfminer实现pdf布局分析 python （pdfminer realize layout analysis with PDF python）的更多相关文章

随机推荐

热门专题