办公室文员必备python神器,将PDF文件表格转换成excel表格!
第三方库说明
# PDF读取第三方库
import pdfplumber
# DataFrame 数据结果处理
import pandas as pd
初始化DataFrame数据对象
# 初始化DataFrame数据对象、用于DataFrame数据保存
data_frame = pd.DataFrame()
读取PDF表格
# pdf 文件路径
pdf_file = '/usr/load/data.pdf'
# 读取pdf数据
pdf_data = pdfplumber.open(pdf_file)
# 遍历PDF数据
for page in pdf_data.pages:
# 每一页的Tbale表格数据
table = page.extract_table()
# 将每一页的数据写入一个DataFrame对象
data_frame_page = pd.DataFrame(table[1:], columns=table[0])
# 合并每一页的表格数据
data_frame = pd.concat([data_frame_page, data_frame], ignore_index=True)
# 简单的数据清洗、删除其中列值全部为Nan的数据列
data_frame.dropna(axis=1, how='all', inplace=True)
写入EXCEL表格
# excel 文件路径
excel_path = '/usr/load/data.pdf'
# 自定义列名
data_frame.columns = ['姓名', '年龄', '身份证号', '绩效考核']
# DataFrame数据保存到Excel数据表中
data_frame.to_excel(excel_writer=excel_path, index=False, encoding='utf-8')
【粉丝福利】关注公众号,获取全套视频资料,使用python的pdf读写功能模块,将从pdf读取的表格内容自定义转换后写入excel文件表格。喜欢小编点个 '关注' 吧!

【往期精选】
● python 中最好用的身份证规则解析工具,地区码、性别、出生年月、身份证编码等快速校验!
● os用法总结:python中必须掌握的内置模块os,实现与计算机操作系统的常规交互!
● python 实用技巧:几十行代码将照片转换成素描图、随后打包成可执行文件(源码分享)
● python十行代码实现文件去重,去除重复文件的脚本
● python的GUI框架tkinter,实现程序员的流氓式表白逻辑
● 探究python函数的不定长参数*args与**kwargs
● 没有深思过的python冷知识你知道几个?
● python图片处理,自动生成gif动态图片
● python-redis 的操作手法,相当简单的redis数据存储方式!
● python 日期、时间处理,各种日期时间格式/字符串之间的相互转换究竟是怎样的?
● python 内置的数据计数器Counter相当nice
● 几十行代码实现python发送邮件与接收邮件
● 没有开发工具,在服务器控制台如何进行python代码调试,高级编程pdb代码调试!
● 梳理python路线知识盲区,最全面、最详细的python知识体系框架思维导图终于出炉了!
本文由微信公众号【python 集中营】发布,更多精彩文章、视频资料即可领取!
办公室文员必备python神器,将PDF文件表格转换成excel表格!的更多相关文章
- 怎样将PDF文件转换成Excel表格
PDF文件怎样转换成Excel表格呢?因为很多的数据信息现在都是通过PDF文件进行传输的,所以很多时候,信息的接受者都需要将这些PDF文件所传输的数据信息转换成Excel表格来进行整理,但是我们应该怎 ...
- PDF文件转换成Excel表格的操作技巧
我们都知道2007以上版本的Office文档,是可以直接将文档转存为PDF格式文档的.那么反过来,PDF文档可以转换成其他格式的文档吗?这是大家都比较好奇的话题.如果可以以其他格式进行保存,就可以极大 ...
- 使用python读取京东pdf发票信息导出到excel表格中
代码 #!/usr/bin/env python # -*- coding: utf-8 -*- """ pip install pdfminer3k pip insta ...
- PDF文件怎么转换成PPT
在日常办公中大家都会发现PDF文件目前是比较常见的一种文件,有的时候大家会需要将PDF转换成PPT为了去更好的演示,毕竟PPT文件在演示方面具有着较好的特点,那如何将PDF文件转换成PPT文件呢,今天 ...
- PDF文件可以转换成txt文档吗
PDF是一种便携式的文件格式,传送和阅读都非常方便,是Adobe公司开发的跨平台文件格式,它无论在哪种打印机上都可以保证精确的颜色和准确的打印效果.可是有点遗憾的是PDF格式一般不能在手机上打开,或者 ...
- Python遍历路径下文件并转换成UTF-8编码
http://www.cnblogs.com/wuyuegb2312/archive/2013/01/11/2856772.html 开始学Python,这篇文章来自于应用需求. os.walk很方便 ...
- Python Json分别存入Mysql、MongoDB数据库,使用Xlwings库转成Excel表格
将电影数据 data.json 数据通过xlwings库转换成excel表格,存入mysql,mongodb数据库中.python基础语法.xlwings库.mysql库.pymongo库.mongo ...
- 个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息(图片、表格、文本等)
日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息 ...
- DWG文件怎么转换成PDF格式
在CAD中,设计师们绘制的图纸都是以dwg文件来进行保存的.Dwg文件是不能够直接进行打开查看的,就需要将其格式进行转换一下.将dwg文件转换为PDF格式的进行查看.那具体要怎么来进行操作呢?下面小编 ...
随机推荐
- C#曲线分析平台的制作(五,Sqldependency+Signalr+windows 服务 学习资料总结)
在前篇博客中,利用interval()函数,进行ajax轮询初步的实现的对数据的实时显示.但是在工业级别实时显示中,这并非是一种最好的解决方案.随着Html5 websocket的发展,这种全双工的通 ...
- 【Java经验分享篇01】小白如何开始学会看开源项目?
目录 前言 1.理解开源 1.1.什么是开源? 1.2.开源的定义 1.2.1.开源软件优点 1.2.2.经典开源软件案例 1.3.关于开源协议 1.3.1.如何选择开源协议 2.如何查找开源项目 2 ...
- Server-Speaks-First 有点坑,Linkerd 2.10 中的协议检测和不透明端口
协议检测(Protocol detection),顾名思义,允许 Linkerd 自动检测 TCP 连接中使用的协议. Linkerd 的设计原则之一是"just work",协议 ...
- Vue slot 插槽用法:自定义列表组件
Vue 框架的插槽(slot)功能相对于常用的 v-for, v-if 等指令使用频率少得多,但在实现可复用的自定义组件时十分有用.例如,如果经常使用前端组件库的话,就会经常看到类似的用法: < ...
- CRC校验原理和verilog实现方法(三)
1 代码生成 verilog实现CRC校验,可以充分发挥FPGA的硬件特性,即并行运算的能力. 具体实现方式,可以参考我上一篇博客,关键是用线性反馈移位寄存器表示出多项式,另外注意校验数据高位在先.然 ...
- 小白学习Vue第五天(v-model实用的地方)
用法一radio单选项 <!-- 添加name男女选项互斥 --> <label for="male"> <input type="radi ...
- 数据结构与算法-排序(六)堆排序(Heap Sort)
摘要 堆排序需要用到一种数据结构,大顶堆.大顶堆是一种二叉树结构,本质是父节点的数大于它的左右子节点的数,左右子节点的大小顺序不限制,也就是根节点是最大的值. 这里就是不断的将大顶堆的根节点的元素和尾 ...
- IP网络地址的计算
IP地址与子网掩码进行"与"运算,得到网络地址
- 题解 Six(留坑)
传送门 考场上搞了个三进制状压,结果正确性假了-- 有想到从约数下手,但觉得就光预处理约数复杂度就爆炸就没往这边想-- 首先是关于约数个数的证明,再一次感谢战神: 因为 \(n = \prod p_i ...
- 《手把手教你》系列技巧篇(二十一)-java+ selenium自动化测试-浏览器窗口的句柄(详细教程)
1.简介 今天本来就要分享和讲解三大延时等待的,但是在写作过程中发了问题,会用到这一个知识点,于是就提前介绍一下,以便后边用到了可以更好的理解和掌握.本文就是要介绍如何获得浏览器窗体的句柄或者叫编号, ...