分享一个电子发票信息提取工具(Python)

电子发票太多，想统计下总额异常困难，网上工具不好用，花了2个小时实现一份，测试过中石油、京东开具的电子发票还行，部分发票名称失败有问题不影响统计，有需要的小伙伴自己拿去改吧。



import cmd

import sys

import json

import pdfplumber

import os

from pprint import pprint

class FapiaoShell(cmd.Cmd):

    """ 发票 """

    intro = '欢迎使用发票提取工具，输入?(help)获取帮助消息和命令列表，CTRL+C退出程序。\n'

    prompt = '\n输入命令: '

    doc_header = "详细文档 (输入 help <命令>):"

    misc_header = "友情提示:"

    undoc_header = "没有帮助文档:"

    nohelp = "*** 没有命令(%s)的帮助信息 "

    def __init__(self):

        super().__init__()

    def do_load(self, arg):

        """ 加载发票 例如：load D:\ """

        if not os.path.isdir(arg):

            print('参数必须是目录!')

            return

        os.chdir(os.path.dirname(arg))

        pdfs = []

        for root, _, files in os.walk(arg):

            for fn in files:

                ext = os.path.splitext(fn)[1].lower()

                if ext != '.pdf':

                    continue

                fpth = os.path.join(root, fn)

                fpth = os.path.relpath(fpth)

                print(f'发现pdf文件: {fpth}')

                pdfs.append(fpth)

        pdf_ctxs = self._parse_pdfs(pdfs)

        total = {

            '内容': pdf_ctxs,

            '发票数': len(pdf_ctxs),

            '总计': 0,

        }

        for fpth, info in pdf_ctxs:

            total['总计'] += float(info['总计'])

        print('\n保存到 结果.json...')

        with open("结果.json", 'w', encoding='utf-8') as json_file:

            json.dump(total,

                      json_file,

                      ensure_ascii=False,

                      sort_keys=True,

                      indent=4,

                      separators=(', ', ': '))

        print('完成!')

    def _parse_pdfs(self, pdfs):

        """ 分析 """

        result = []

        for fpth in pdfs:

            info = {}

            with pdfplumber.open(fpth) as pdf:

                page = pdf.pages[0]

                if '增值税电子普通发票' not in ''.join(page.extract_text()):

                    result.append((fpth, {}))

                inf = self._extrace_from_words(page.extract_words())

                info.update(inf)

                inf = self._extrace_from_table(page.extract_tables()[0])

                info.update(inf)

            result.append((fpth, info))

        return result

    def _extrace_from_words(self, words):

        """ 从单词中提取 """

        info = {}

        lines = {}

        for word in words:

            top = int(word['top'])

            bottom = int(word['bottom'])

            pos = (top + bottom) // 2

            text = word['text']

            if pos not in lines:

                lines[pos] = [text]

            else:

                lines[pos].append(text)

        lines_pack = []

        last_pos = None

        for pos in sorted(lines):

            arr = lines[pos]

            if len(lines_pack) > 0 and pos - last_pos <= 10:

                lines_pack[-1] += arr

                continue

            lines_pack.append(arr)

            last_pos = pos

            continue

        for pack in lines_pack:

            for idx, line in enumerate(pack):

                if '电子普通发票' in line:

                    info['标题'] = line

                    continue

                if '发票代码:' in line:

                    info['发票代码'] = line.split(':')[1]

                    continue

                if '发票号码:' in line:

                    info['发票号码'] = line.split(':')[1]

                    continue

                if '开票日期:' in line:

                    year = line.split(':')[1]

                    month = [ln for ln in pack if ln.isdigit()][0]

                    day = [ln[:2] for ln in pack if '日' in ln][0]

                    info['开票日期'] = f'{year}-{month}-{day}'

                    continue

                if '机器编号:' in line:

                    info['机器编号'] = [ln for ln in pack if ln.isdigit()

                                    and len(ln) > 10][0]

                    continue

                if '码:' in line:

                    c1 = pack[idx].split(':')[1]

                    c2 = pack[idx+1]

                    c3 = pack[idx+2]

                    c4 = pack[idx+3]

                    info['校验码'] = f'{c1} {c2} {c3} {c4}'

                    continue

                if '收款人:' in line:

                    info['收款人'] = line.split(':')[1]

                    continue

                if '开票人:' in line:

                    info['开票人'] = line.split(':')[1]

                    continue

        return info

    def _extrace_from_table(self, table):

        """ 从表中提取 """

        info = {}

        if len(table) != 4:

            return None

        # 购买方

        for cell in table[0]:

            if not cell:

                continue

            lines = cell.splitlines()

            for line in lines:

                if '名        称:' in line:

                    info['购买方名称'] = line.split(':')[1]

                    continue

                if len(line) == 18 and line.isalnum():

                    info['购买方税号'] = line

                    continue

                if len(line) == 27:

                    if '密码' not in info:

                        info['密码'] = []

                    info['密码'].append(line)

                    continue

        # 详细

        for cell in table[1]:

            if not cell:

                continue

            lines = cell.splitlines()

            for line in lines:

                if '货物或应税劳务、服务名称' in line:

                    info['商品'] = lines[1:-1]

                    break

                if '金  额' in line:

                    info['总金额'] = lines[-1][1:]

                    break

                if '税  额' in line:

                    info['总税额'] = lines[-1][1:]

                    break

        # 合计

        for cell in table[2]:

            if not cell:

                continue

            lines = cell.splitlines()

            for line in lines:

                if '¥' in line:

                    info['总计'] = line[1:]

        # 销售方

        for cell in table[3]:

            if not cell:

                continue

            lines = cell.splitlines()

            for line in lines:

                if '名        称:' in line:

                    info['销售方名称'] = line.split(':')[1]

                    continue

                if len(line) == 18 and line.isalnum():

                    info['销售方税号'] = line

                    continue

        return info

if __name__ == '__main__':

    try:

        FapiaoShell().cmdloop()

    except KeyboardInterrupt:

        print('\n\n再见！')

分享一个电子发票信息提取工具(Python)的更多相关文章

分享一个获取代理ip的python函数
分享一个获取代理ip的python函数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 #coding:utf-8 from bs4 import Beaut ...
分享一个刷网页PV的python小脚本
下面分享一个小脚本,用来刷网页PV. [root@huanqiu ~]# cat www.py #!/usr/bin/python# coding: UTF-8import webbrowser as ...
分享一个内网穿透工具frp
首先简单介绍一下内网穿透: 内网穿透:通过公网,访问局域网里的IP地址与端口,这需要将局域网里的电脑端口映射到公网的端口上:这就需要用到反向代理,即在公网服务器上必须运行一个服务程序,然后在局域网中需 ...
工具类分享之获取Request/Response工具类《RequestContextHolderUtil》
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/aiyaya_/article/details/78975893前言在开发spring web项目时, ...
用 Python 制作一个艺术签名小工具，给自己设计一个优雅的签名
生活中有很多场景都需要我们签字(签名),如果是一些不重要的场景,我们的签名好坏基本无所谓了,但如果是一些比较重要的场景,如果我们的签名比较差的话,就有可能给别人留下不太好的印象了,俗话说字如其人嘛,本 ...
利用 Python 写一个颜值测试小工具
我们知道现在有一些利用照片来测试颜值的网站或软件,其实使用 Python 就可以实现这一功能,本文我们使用 Python 来写一个颜值测试小工具. 很多人学习python,不知道从何学起.很多人学习p ...
分享一个开源的网盘下载工具BaiduPCS-Go
大家在使用网盘的时候,一定忍受不了限速下载的速度.今天给大家分享一个开源的网盘下载项目BaiduPCS-Go.Go语言编写,仿 Linux shell 文件处理命令的百度网盘命令行客户端.多平台支持, ...
分享一个Snackbar工具类 SnackbarUtils；
分享一个Snackbar工具类,源代码也是在Github上面找的,自己做了一下修改: 功能如下: 1:设置Snackbar显示时间长短 1.1:Snackbar.LEN ...
[W3bsafe]分享一个爬SQL注入漏洞的工具
分享一个爬SQL注入的工具本文转自:i春秋社区由团队核心成员若间开发把工具放到E盘的一个文件夹他会自动生成一个文本文件 Result.txt 最大页数自己想弄填多少就填多少关键词注入点关键词 ...

随机推荐

Android targetSdkVersion 原理
前几天 Google 官方发布文章解析 compileSdkVersion.minSdkVersion 以及 targetSdkVersion 的含义,以及合理设置各个值的意义,原文 Picking ...
Jenkins执行selenium报错unknown error: cannot find Chrome binary
问题描述:在Pycharm中执行selenium测试用例,可以正常运行, 集成在Jenkins中,构建时,发现构建成功,但是查看Console Output,报错:unknown error: can ...
S5PV210定时器
在S5PV210内部,一共有4类定时器件.这4类定时器件的功能.特征是不同的. 1.PWM定时器(1)这种是最常用的,平时所说的定时器一般指的是这个.像简单单片机(譬如51单片机)中的定时器也是这类. ...
cocos2dx的addChild接口设计
addChild的几个重载函数挺容易用错的主要是因为cocos2dx用来给游戏对象设置标签时,用的是整型而不是字符串导致标签这个参数很容易和同样是使用整型的代表游戏对象的层级关系的参数混淆.
Android-FileIOUtils工具类
文件读写相关工具类 public final class FileIOUtils { private FileIOUtils() { throw new UnsupportedOperationExc ...
GPS模块输出的NMEA数据ddmm.mmmm转换成dd.ddddd并在google Earth Pro中描点
GPS模块输出的数据是NMEA格式,其中GPGGA字段包含我们需要的经纬度信息. 例:$GPGGA,092204.999,4250.5589,S,14718.5084,E,1,04,24.4,12 ...
chrome一个奇怪的问题
我去........... 这牢骚发完了才发现, 多谢了个e 呃................. ================================= 晚上用bootstrap搭建一 ...
jenkins-cli命令使用总结
jenkins-cli命令使用总结 1.在jenkins中查看Jenkins CLI的相关说明 jenkins-->系统管理-->Jenkins CLI:如下图下载:jenkins-cl ...
VUE 学习笔记三模板语法
1.插值 a.文本数据绑定最常见的形式就是使用“Mustache”语法 (双大括号) 的文本插值 <span>Message: {{ msg }}</span> v-once ...
c# 中 $符号的用法
var names = new List<string> { "jason", "Ana", "Felipe" }; forea ...

分享一个电子发票信息提取工具(Python)

分享一个电子发票信息提取工具(Python)的更多相关文章

随机推荐

热门专题