#PDF解析与结构化提取
##PDF解析
对于PDF文档,我们选择用PDFMiner对其进行解析,得到文本。
###PDFMiner
PDFMiner使用了一种称作lazy parsing的策略,只在需要的时候才去解析,以减少时间和内存的使用。要解析PDF至少需要两个类:**PDFParser** 和 **PDFDocument**,PDFParser从文件中提取数据,PDFDocument保存数据。另外还需要PDFPageInterpreter去处理页面内容,PDFDevice将其转换为我们所需要的。PDFResourceManager用于保存共享内容例如字体或图片。
![](01.png)

##PDF结构化提取

对于解析得到的中间格式(json格式),我们根据文本的坐标以及位置等信息进行结构化提取。本项目做的主要是医疗报告单的解析与提取。
我们把每份报告单的内容分为四部分:title,head,body(table),bottom
对于我们通过解析拿到的中间格式,我们需要根据某些条件先对其进行分块,将起分为title,head,body(table),bottom这四块,然后再对每一块的信息进行操作处理。

###head_begin的确定

**依据**:
'姓名'所在的行定位head_begin,即head起始行,然后将从这一行开始往后的所有行记为lines,往后一次遍历这些行,找head_end.
**方法**:
从'姓名'行向下一次遍历,看各行是否同时满足如下两个条件:
1 is_base_info_line() #关键词数量大于1
2 not is_table_head() #所含表头常见的关键词数量是否大于2
当某行不同时满足这两个条件时,把该行后边的所有拿出来继续判断是否满足上述条件1,2。若满足,则仍然属于head,加上去;若不满足,则判断是不是body的基本信息

###body_begin

--is_body_base_info_line()#包含一个关键词且关键词第一个字符位于左半边;
若是body基本信息,则为body_begin;
否则,不符合head_end的那行就是hend_end,然后从剩下的行里边找:
bottom_tmp=new_lines[head_end:]
然后,
find_bottom_pos()#发现y坐标的2/3,即后1/3粗分为bottom(bottom_block_lines)行,之前从head_end到1/3为body
返回bottom_block_lines,body,y_last_line(后1/3处y)
最后,取后1/3*页纸张包含的行数与总行的1/3做比较,哪部分包含的行树多则取哪个行为起始行为新的bottom_block_lines开始向下遍历,前边的部分为body,即更加靠上边的部分作为body与bottom的分界。

###bottom_begin

block_y_width=45. #块间距
y_bottom=0.85 #整个pdf的后15%
然后从bottom_block_lines的第一行开始向下继续找关键词,如果满足:
1 is_base_info_line() or
2 len(key_tmp>0) and x>half_width. or
3 y>y_bottom and y-y_last_line>block_width. 即,当前距后1/3足够宽,足够靠下。
找到符合条件的就作为bottom_index,之后的为bottom,前边遍历过的行接到刚才的body部分作为body。
这样就把pdf文本分成了title,head,body(table),bottom四部分。

### 小结

这样就将一个pdf源文件进行了解析与结构化提取。当然,针对不同的pdf源文件的解析结果进行结构化提取时,需要做不同的处理与判定,但只要能通过解析获得中间的json格式,就可以通过坐标和字符的其他属性实现想要的功能。

pdf解析与结构化提取的更多相关文章

  1. spark 解析非结构化数据存储至hive的scala代码

    //提交代码包 // /usr/local/spark/bin$ spark-submit --class "getkv" /data/chun/sparktes.jar impo ...

  2. Attention-based Extraction of Structured Information from Street View Imagery:基于注意力的街景图像提取结构化信息

    基于注意力的街景图像提取结构化信息 一种用于真实图像文本提取问题的TensorFlow模型. 该文件夹包含在FSNS数据集数据集上训练新的注意OCR模型所需的代码,以在法国转录街道名称. 您还可以使用 ...

  3. [C++]深入解析结构化异常处理(SEH)

    http://www.cppblog.com/weiym/archive/2015/02/27/209884.html 尽管以前写过一篇SEH相关的文章<关于SEH的简单总结>, 但那真的 ...

  4. XHTML 结构化:使用 XHTML 重构网站

    http://www.w3school.com.cn/xhtml/xhtml_structural_01.asp 我们曾经为本节撰写的标题是:"XHTML : 简单的规则,容易的方针.&qu ...

  5. Python爬虫(九)_非结构化数据与结构化数据

    爬虫的一个重要步骤就是页面解析与数据提取.更多内容请参考:Python学习指南 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全 ...

  6. Solr系列四:Solr(solrj 、索引API 、 结构化数据导入)

    一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <gro ...

  7. spark结构化数据处理:Spark SQL、DataFrame和Dataset

    本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...

  8. Bigtable:一个分布式的结构化数据存储系统

    Bigtable:一个分布式的结构化数据存储系统 摘要 Bigtable是一个管理结构化数据的分布式存储系统,它被设计用来处理海量数据:分布在数千台通用服务器上的PB级的数据.Google的很多项目将 ...

  9. XHTML 结构化:使用 XHTML 重构网站 分类: C1_HTML/JS/JQUERY 2014-07-31 15:58 249人阅读 评论(0) 收藏

    http://www.w3school.com.cn/xhtml/xhtml_structural_01.asp 我们曾经为本节撰写的标题是:"XHTML : 简单的规则,容易的方针.&qu ...

随机推荐

  1. 关系型数据库工作原理-时间复杂度(翻译自Coding-Geek文章)

    本文翻译自Coding-Geek文章:< How does a relational database work>. 原文链接:http://coding-geek.com/how-dat ...

  2. Django admin 组件 原理分析与扩展使用 之 sites.py (一)

    一 . 前言 Django 提供了admin 组件 为项目提供基本的管理后台功能(对数据表的增删改查). 本篇文章通过 admin源码 简单分析admin 内部原理 ,扩展使用方式,为以后进行定制和自 ...

  3. OpenStack Paste.ini详解(二)

    接着OpenStack Paste.ini详解(一),接下来就分析request被paste.ini处理的流程 WSGI server接收到URL形式的request时,这些request首先会被Pa ...

  4. scala开发环境安装

    安装JDK    java 运行环境 ,这里不详说了,熟悉java的朋友应该都会,我们主要关注下Scala的安装. 安装scala    1.下载scala    http://yunpan.cn/c ...

  5. Problem : 1202 ( The calculation of GPA )

    Losers always whine about their best. Winners go home and fuck the prom queen. 很操蛋却非常有意思的题目,注意变量的类型, ...

  6. 回顾JS Date()对象

    突然想写一个日历插件发现Date对象的一些常识快忘光了,复习一下 new Date()返回当前时间 年月日 getFullYear() 返回年份 getMonth() 返回月份(因为从0开始算 所以要 ...

  7. 百度和谷歌的逆地址解析及GPS、谷歌地图和百度地图坐标之间的转换(python版)

    #!/usr/bin/env python # coding:utf-8 # @author: KaiVen """ GPS坐标转换: WGS-84:是国际标准,GPS坐 ...

  8. ajax 图片上传

    html 部分: <form action="" id='myForm' enctype="multipart/form-data"> <di ...

  9. 关于css选择器中有小数点的标签获取

    需求说明 因为项目中章节配置的时候有小数点,1,1.1,1.2,1.11的标题,这个时候每一行标题的id,class设置成标题号是独一无二的标记.但是,直接用js获取是获取不到的,例如$('#3.22 ...

  10. [poj2342]Anniversary party_树形dp

    Anniversary party poj-2342 题目大意:没有上司的舞会原题. 注释:n<=6000,-127<=val<=128. 想法:其实就是最大点独立集.我们介绍树形d ...