camelot工具进行pdf表格解析重建

camelot内置生成html文件的方法，但表格数据转化成pandas.dataframe的过程中，丢失了跨行跨列的结构信息，故生成html的表格无跨行跨列结构。

于是我在输出部分选择直接手写html表格..

import camelot

import numpy as np

import matplotlib.pyplot as plt

import os

import pandas as pd

# def listdir(path, list_name):  # 传入存储的list

#     for file in os.listdir(path):

#         file_path = os.path.join(path, file)

#         if os.path.isdir(file_path):

#             listdir(file_path, list_name)

#         else:

#             list_name.append(file_path)

#批量文件

# filenames=[r'E:\pdf_download']

# listdir('E:\pdf_download',filenames)

# for onefile in filenames:

#     filename=onefile.split(".", )[0]

#单个文件

onefile=r'1202007288.pdf'

print("loading...", onefile)

tables = camelot.read_pdf(onefile,pages='',strip_text=' .\n',line_scale=80,split_text=True)

for onetable in tables:

    mask = np.zeros((len(onetable.rows)+1, len(onetable.cols)+1))

    colspan = np.ones((len(onetable.rows)+1, len(onetable.cols)+1))

    rowspan = np.ones((len(onetable.rows)+1, len(onetable.cols)+1))

    for onerow in onetable.cells:

        for onecell in onerow:

            thisrow = onetable.cells.index(onerow)

            thiscol = onerow.index(onecell)

            if mask[thisrow][thiscol] == 0:

                if not onecell.right:

                    for i in range(thiscol,len(onerow)-1):

                        if not onerow[i].right:

                            mask[thisrow][i + 1] = 1

                            colspan[thisrow][thiscol] += 1

                        else:

                            break

                if not onecell.bottom:

                    for i in range(thisrow,len(onetable.cells)-1):

                        if not onetable.cells[i][thiscol].bottom:

                            mask[i + 1][thiscol] = 1

                            rowspan[thisrow][thiscol] += 1

                        else:

                            break

    head='''<table border="1" class="dataframe">

  <tbody>'''

    f = open(onefile + '-page'+str(onetable.page) + '-table-'+str(onetable.order)+'.html', 'w')

    f.write(head)

    for onerow in onetable.cells:

        writerow = '''

    <tr>'''

        f.write(writerow)

        for onecell in onerow:

            thisrow = onetable.cells.index(onerow)

            thiscol = onerow.index(onecell)

            if mask[thisrow][thiscol] == 0:

                if int(colspan[thisrow][thiscol]) > 1:

                    Colspan = 'colspan=' + str(int(colspan[thisrow][thiscol]))

                else:

                    Colspan=''

                if int(rowspan[thisrow][thiscol]) > 1:

                    Rowspan = 'rowspan=' + str(int(rowspan[thisrow][thiscol]))

                else:

                    Rowspan = ''

                writecell = '''

                <td %s %s>%s</td>'''%(Colspan,Rowspan,onecell.text)

                f.write(writecell)

        writerow = '''

    </tr>'''

        f.write(writerow)

    f.close()

camelot工具进行pdf表格解析重建的更多相关文章

java(itext) 一个很简单的PDF表格生成工具
先上个效果图因为做的项目涉及到数据预测,其中有大量打印业务来支撑实体店的运营,因为注重的是数据,要求简洁,清晰,所以写了个很简单也很实用的工具类. 如果需要编写样式或者插入背景,都可以查阅itex官 ...
Java iText5.5.1 绘制PDF表格
iText下载链接:http://sourceforge.net/projects/itext/files/ 会有两个文件夹:extrajars中的extrajars-2.3.jar文件用于解决中文不 ...
Java添加条形码到PDF表格
条码的应用已深入生活和工作的方方面面.在处理条码时,常需要和各种文档格式相结合.当需要在文档中插入.编辑或者删除条码时,可借助于一些专业的类库工具来实现.本文,以操作PDF文件为例,介绍如何在编辑表格 ...
ITextSharp导出PDF表格和图片（C#）
文章主要介绍使用ITextSharp导出PDF表格和图片的简单操作说明,以下为ITextSharp.dll下载链接分享链接:http://pan.baidu.com/s/1nuc6glj 密码:3g ...
itextSharp 附pdf文件解析
一.PdfObject: pdf对象 ,有9种,对象是按照对象内涵来分的,如果按照对象的使用规则来说,对象又分为间接对象和直接对象.间接对象是PDF中最常用的对象,如前面对象集合里面的,所有对象都是间 ...
MVC 生成PDf表格并插入图片
最近做的项目中有一个功能,将最终的个人信息生成PDF表格,并插入图片.对于没接触过的程序员来说回一片茫然,网上有多种生成PDf的方法,我给大家介绍一下我认为比较简单,好操作的一种. iTextShar ...
Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
spring boot:用itextpdf处理pdf表格文件（spring boot 2.3.2）
一,什么是itextpdf? 1,itextpdf的用途 itextpdf是用来生成PDF文档的一个java类库, 通过iText可以生成PDF文档, 还可以把XML/Html文件转化为PDF文件 2 ...
Java 生成pdf表格文档
最近在工作做一个泰国的项目,应供应商要求,需要将每天的交易生成pdf格式的报表上传到供应商的服务器,特此记录实现方法.废话不多说,直接上代码: THSarabunNew.ttf该文件是泰国字体自行网上 ...

随机推荐

C基础的练习集及测试答案(40-50)
40.(课堂)打印杨辉三角型前10行 #if 0 40.(课堂)打印杨辉三角型前10行思路分析: 一.打印十行杨辉三角得第十行长度为十,所以建立一个长度为十的数组,作为每行的数据存储二.按 0-9 ...
World Wind Java开发之八——加载本地缓存文件构建大范围三维场景(
http://blog.csdn.net/giser_whu/article/details/42044599 上一篇博客主要是针对小文件直接导入WW中显示,然而当文件特别大时,这种方式就不太可行.因 ...
Wordpress菜单函数wp_nav_menu各参数详解及示例
Wordpress菜单函数wp_nav_menu各参数详解及示例注册菜单首先要注册菜单,将以下函数添加至function.php函数里 register_nav_menus(array( ...
基于supersocket、C#对JT808协议进行解析构建gps监控平台服务端
GPS监控平台.车联网.物联网系统中GPRS网络数据的并发通讯和处理解析,主要功能有socket的UDP和TCP链路建立和维持,网络数据协议包接收与解析,分发上传到其他业务规则服务器,在物联网以及位置 ...
【点分树】codechef Yet Another Tree Problem
已经连咕了好几天博客了:比较经典的题目题目大意给出一个 N 个点的树和$K_i$, 求每个点到其他所有点距离中第 $K_i$ 小的数值. 题目分析做法一:点分树上$\log^3$ 首先暴力做法: ...
pycharm 语言配置
在pycharm 安装所在位置找到 lib 文件夹打开后找到 rescources_**.jar 文件 **为语言类型,英语为en 中文为cn, 用相应语言文件替换,便可变成相应语言 https:/ ...
SpringBoot日志输出至Logstash
1.springboot项目pom.xml文件下添加如下配置 2.resources目录下创建logback-spring.xml文件 <?xml version="1.0" ...
php面向对象（2）构造和析构函数
一.构造方法构造方法是类中一个“特殊”的方法,作用是在实例化一个对象的同时,给该对象的属性赋值,使之创建完成的时就具有其本身的特有属性该方法固定格式:[访问修饰符] function _const ...
使用shell脚本添加用户
该文演示如何使用shell脚本完成添加用户,首先进行一个判断,如果用户存在,提示该用户已经存在,否则进行添加新的用户. 示例代码如下: #!/bin/bash grep_user() { R=`gre ...
day23-python之日志 re模块
1.logging import logging #-----------------------------------logging.basicConfig logging.basicConfig ...

camelot工具进行pdf表格解析重建

camelot工具进行pdf表格解析重建的更多相关文章

随机推荐

热门专题