python数据处理（三）之处理pdf文件

代码以及资料 https://github.com/jackiekazil/data-wrangling

1.前言

尽可能地寻找可以替代pdf格式的数据

2.解析pdf的编程方法

安装slate

pip install slate
pip install pdfminer

2.1 利用slate库打开并读取PDF

import slate  #导入slate

pdf = 'EN-FINAL Table 9.pdf' # pdf文件名

with open(pdf) as f: # 打开pdf文件

    doc = slate.PDF(f) # 读取pdf文件

for page in doc[:2]: # 遍历文档doc的前两页并输出

    print(page)

2.2 将PDF转换成文本

转换文本代码 pdf2txt.py

pdf_txt = 'en-final-table9.txt'

openfile = open(pdf_txt, 'r')

country_line = total_line = False

previous_line = ''

countries = [] # 创建空的国家列表

totals = [] # 创建空的总数列表

double_lined_countries = [

    'Bolivia (Plurinational \n',

    'Democratic People\xe2\x80\x99s \n',

    'Democratic Republic \n',

    'Lao People\xe2\x80\x99s Democratic \n',

    'Micronesia (Federated \n',

    'Saint Vincent and \n',

    'The former Yugoslav \n',

    'United Republic \n',

    'Venezuela (Bolivarian \n',

]

def turn_on_off(line, status, start, prev_line, end='\n'):

    """

    This function checks to see if a line starts/ends with a certain

    value. If the line starts/ends with that value, the status is

    set to on/off (True/False).

    """

    if line.startswith(start):

        status = True

    elif status:

        if line == end and prev_line != 'and areas':

            status = False

    return status

def clean(line):

    """

    Cleans line breaks, spaces, and special characters from our line.

    """

    line = line.strip('\n').strip()

    line = line.replace('\xe2\x80\x93', '-')

    line = line.replace('\xe2\x80\x99', '\'')

    return line

for line in openfile:

    if country_line:  #如果包含国家则将国家添加到国家列表中

        if previous_line in double_lined_countries: # 名字占两行的国家

            line = ' '.join([clean(previous_line), clean(line)])

        countries.append(clean(line))

    elif total_line: #采集总数

        if len(line.replace('\n', '').strip()) > 0:

            totals.append(clean(line))

    country_line = turn_on_off(line, country_line, 'and areas', previous_line)

    total_line = turn_on_off(line, total_line, 'total', previous_line)

    previous_line = line

import pprint #导入pprint库

data = dict(zip(countries, totals)) #见国家和总数合并到一起，转换成字典

pprint.pprint(data)

3 利用pdfminer解析PDF

3.1 表格中的名字被分为两条记录

a.合并两行 b.手动添加国家名

4 学习解决问题的方法

4.1 使用表格提取 pdftables

from pdftables import get_tables

import pprint

headers = ['Country', 'Child Labor 2005-2012 (%) total',

           'Child Labor 2005-2012 (%) male',

           'Child Labor 2005-2012 (%) female',

           'Child Marriage 2005-2012 (%) married by 15',

           'Child Marriage 2005-2012 (%) married by 18',

           'Birth registration 2005-2012 (%)',

           'Female Genital mutilation 2002-2012 (prevalence), women',

           'Female Genital mutilation 2002-2012 (prevalence), girls',

           'Female Genital mutilation 2002-2012 (support)',

           'Justification of wife beating 2005-2012 (%) male',

           'Justification of wife beating 2005-2012 (%) female',

           'Violent discipline 2005-2012 (%) total',

           'Violent discipline 2005-2012 (%) male',

           'Violent discipline 2005-2012 (%) female']

all_tables = get_tables(open('EN-FINAL Table 9.pdf', 'rb'))

first_name = False

final_data = []

for table in all_tables:

    for row in table[5:]:

        if row[0] == '' or row[0][0].isdigit(): # 如果是空行或为数据 不是国名

            continue

        elif row[2] == '': # 缺失 可能是国名的前半部分

            first_name = row[0]

            continue

        if first_name: # 如果这一行有first_name, 那么在该行内将国名合并

            row[0] = u'{} {}'.format(first_name, row[0])

            first_name = False # 保证下一次迭代正常运行

        final_data.append(dict(zip(headers, row)))

        if row[0] == 'Zimbabwe':

                break

pprint.pprint(final_data)

4.2 手动清洗数据

4.3 使用Tabula

python数据处理（三）之处理pdf文件的更多相关文章

python基础三（集合、文件）
1.集合定义集合天生能去重,且与字典一样,无序.集合用大括号括起来,里面的元素之间用逗号分隔,要跟字典区分开. 集合定义方法:s=set() #定义一个空集合 s={'1','a','b','c', ...
【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件
1. 多个PDF文件合并1.1 需求描述有时候,我们下载了多个PDF文件, 但希望能把它们合并成一个PDF文件.例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF ...
另类爬虫：从PDF文件中爬取表格数据
简介本文将展示一个稍微不一样点的爬虫. 以往我们的爬虫都是从网络上爬取数据,因为网页一般用HTML,CSS,JavaScript代码写成,因此,有大量成熟的技术来爬取网页中的各种数据.这次, ...
PDF文件转换成Excel表格的操作技巧
我们都知道2007以上版本的Office文档,是可以直接将文档转存为PDF格式文档的.那么反过来,PDF文档可以转换成其他格式的文档吗?这是大家都比较好奇的话题.如果可以以其他格式进行保存,就可以极大 ...
轻松将CAD文件转为加密的PDF文件
对于从事设计相关工作的朋友来说,CAD肯定再熟悉不过了.一些有特殊要求的CAD文件,需要将其转换成为PDF文件以方便保存.传输.打印,同时还得保证设计图稿的安全性,所以将CAD文件直接转为加密的PDF ...
Python数据处理PDF
Python数据处理(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1h8a5-iUr4mF7cVujgTSGOA 提取码:6fsl 复制这段内容后打开百度网盘手机A ...
python数据处理excel和pdf，并打包成exe
之前零散的用过一点python做数据处理,这次又遇到一个数据处理的小功能,因此,记录一下整个流程,方便以后查阅. 功能要求:读取excel,找指定的PDF文件的页数是否与excel中记录的一致整个处 ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

随机推荐

【分区】使用 GPT 分区表分区并格式化 (FreeBSD 系统)
1. 查看磁盘列表使用命令 diskinfo -v /dev/vtbd1 查看磁盘设备列表. 2. 创建 GPT 分区 1). 执行命令 gpart create -s gpt vtbd1.2). ...
make & make install(make altinstall) 因动态库gcc版本问题
cc1: error: unrecognized command line option “-flot” 解决方式是:找到 configure之后的Makefile, 删除 -flot 原因是gcc ...
HttpClient 常用方法封装
简介在平时写代码中,经常需要对接口进行访问,对于 http 协议 rest 风格的接口请求,大多使用 HttpClient 工具进行编写,想着方便就寻思着把一些常用的方法进行封装,便于平时快速的使用 ...
伪造随机的User-Agent
写好爬虫的原则只有一条: 就是让你的抓取行为和用户访问网站的真实行为尽量一致 1.伪造UA字符串,每次请求都使用随机生成的UA 为了减少复杂度,随机生成UA的功能通过第三方模块库fake-userag ...
MFC编辑框接收数据动态更新与刷新方法代码示例-如何让编辑框内容实时更新
MFC编辑框接收数据动态更新与刷新方法代码示例-如何让编辑框内容实时更新关键代码: //发送数据通知 //from txwtech@163.com LRESULT CCommSampleDlg::O ...
[ C++ ] set_new_handler解析
当 operator new 中malloc返回值为0(NULL)时,表示分配内存失败(可能是因为内存不足), 此时会通过_callnewh()调用用户通过set_new_handler()设定的ne ...
SpringCloud之初识Feign
在前面的学习中,我们使用了Ribbon的负载均衡功能,大大简化了远程调用时的代码: String baseUrl = "http://user-service/user/"; Us ...
尚硅谷ajax视频教程2
7.7. 尚硅谷_佟刚_Ajax_典型应用_验证用户名是否可用整个项目的目录路径如下所示我们首先新建立一个web工程,在webroot下面新建立一个script的文件夹,导入jquer文件接下来 ...
HTML&CSS面试高频考点(一)
1. 行内元素/块级元素非替换元素/替换元素行内元素(内联元素):a, abbr(缩写), acronym(只取首字母缩写), b, bdo(文本方向), big, br, cite(引用), c ...
js事件入门（6）
7.事件冒泡机制 7.1.什么是事件冒泡当一个元素接收到一个事件以后,会将事件传播给它的父级元素,它的负级元素会一层一层往上传播,直到最顶层window,这种事件传播机制叫作事件冒泡. <!D ...

python数据处理（三）之处理pdf文件

python数据处理（三）之处理pdf文件的更多相关文章

随机推荐

热门专题