财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬,上市公司进入了中报披露高峰期。据东方财富Choice数据统计,截至8月14日数据,A股有超过1715只个股公布了2024年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。

随着人工智能技术的深入发展,部分企业和个人开始尝试用大模型进行财务报表分析。针对大模型“理解力”薄弱,数据读取错误等问题,合合信息大模型“加速器”方案优化升级了PDF文档解析技术,将非结构化的PDF内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。

PDF是主流的电子文件格式之一。文档解析技术可将PDF、图片等多种格式的文件解析为 Markdown 或 JSON 格式的文档,并以一种对大模型友好的方式呈现。

文档解析技术是大模型理解和处理文档的前提,相关能力的缺失,在理解版面不同区域的内容排列顺序、要点时遇到障碍,影响大模型的“理解力”,财务报表中的关键信息可能会丢失或被误解,这会导致模型生成的答案不够精准,无法正确回答用户的查询。

“人类阅读文章时可以自然地判断版面元素的作用,但机器要经历层层拆解的过程才能‘读懂’文章。”据合合信息技术团队成员介绍,财报、年报文件多以PDF格式为主,其中包含着各类复杂表格、图表、证照等元素。大模型现阶段存在的文档解析能力缺陷主要体现如下方面:

文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误;逻辑结构解析不完整也是核心问题之一,段落语义划分错误,会导致大模型回答不全面或出现总结性偏差的状况。

图 1:合合信息PDF文档解析技术在大模型表格解析中的效果

据了解,合合信息PDF文档解析技术具备具备多文档元素识别、版面分析能力,可以识别文档中的段落、公式、页眉、页脚等多种元素,并进行对应的处理。在应对财报中常见的无线表、合并单元格、不规则行距、跨段、跨页等障碍时,该技术也能做到准确还原各类表格结构。

为了让大模型像专业人士一样阅读文本,PDF文档解析技术可对各类学术文献进行版面元素的识别及阅读顺序的判定。该技术不仅能够准确定位文档中的关键信息段落,还能根据PDF文档的布局和格式,推断出人类阅读时的顺序,而非机械地判定为从左至右排序,避免把完整的段落文字“拦腰斩断”,真正做到了“所见即所得”。

图 2:合合信息PDF文档解析技术对双栏论文的解析效果
 

合合信息技术团队成员表示,上市公司年报页数大多集中在200至300页的范围内,一个熟练的分析师可能在几天到一周的时间内完成对年报的基本分析,PDF文档解析工具最快能在1.5秒完成百页文档的解析,按8小时为一日工作时间计算,解析工具可帮助大模型在一日内对数千家企业的年报数据进行精准分析。随着无纸化办公、数字化趋势发展,PDF文档解析技术有望被应用于更广泛的场景。

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报的更多相关文章

  1. mongodb底层存储和索引原理——本质是文档数据库,无表设计,同时wiredTiger存储引擎支持文档级别的锁,MMAPv1引擎基于mmap,二级索引(二级是文档的存储位置信息『文件id + 文件内offset 』)

    MongoDB是面向文档的数据库管理系统DBMS(显然mongodb不是oracle那样的RDBMS,而仅仅是DBMS). 想想一下MySQL中没有任何关系型数据库的表,而由JSON类型的对象组成数据 ...

  2. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  3. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  4. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  5. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  6. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

  7. 如何用代码读取Office Online Server2016的文档的备注信息

    前言 在一个项目上客户要求读取office online server 2016的对文档的备注信息,如下图: 以前思路老纠结在OOS这个在线上,总有以为这个信息存储在某个列表中,其实错了,这个备注信息 ...

  8. Altium Designer 文档信息设置以及模板制作

    原理图文档模板制作方法一.在DXP原理图设计环境下,新建一个自由原理图文档.单击:文件→新建→原理图,或者使用快捷键Ctrl+N打开Files资源面板,在“新建”项目下的选择“Schematic Sh ...

  9. 使用RAML描述API文档信息的一些用法整理

    RAML是Restful API Modeling Language的缩写,是用来描述API信息的文档. 创建一个.raml后缀的文件,用Atom打开. 基本用法 #%RAML 0.8 title: ...

  10. ERP系统上传文档信息下载(十八)

    下载的公用方法: /// <summary> /// 下载文档 /// </summary> /// <param name="TableName"& ...

随机推荐

  1. Spring的IOC容器类别概述

    Spring的IOC该如何理解呢? 平常在一个方法当中,若要用到外部另一个类里的非静态方法,首先,需要先通过new一个对象,再根据这个对象去调用其方法.若只需要一两个对象还好,一旦涉及的外部对象多了, ...

  2. 推荐王牌远程桌面软件Getscreen,所有的远程桌面软件中使用最简单的一个

    今天要推荐的远程桌面软件就是这款叫Getscreen的,推荐理由挺简单: 简单易用:只需要两步就能轻松连上远程桌面 第一步:在需要被远程连接的机器上下载它的Agent程序并启动,点击Send获得一个链 ...

  3. Spring Cloud微服务下如何配置I8n

    什么是I8n 国际化(I18n)指的是设计和开发产品的过程,使得它们能够适应多种语言和文化环境,而不需要进行大量的代码更改.这通常涉及到创建一个基础版本的产品,然后通过配置和资源文件来添加对不同语言和 ...

  4. 使用SVG做模型贴图的思路

    大多数情况下,三维模型使用PNG,JPG作为模型的贴图,当然为了性能优化,有时候也会使用压缩贴图来提高渲染效率和较少GPU压力. 今天提供一种新的思路,使用SVG作为模型的贴图,可以达到动态调整图片精 ...

  5. [oeasy]python0010 - python虚拟机解释执行py文件的原理

    ​ 解释运行程序 回忆上次内容 我们这次设置了断点 设置断点的目的是更快地调试 调试的目的是去除​​bug​​ 别害怕​​bug​​ 一步步地总能找到​​bug​​ 这就是程序员基本功 调试​​deb ...

  6. Vue Axios二次封装

    // axios二次封装 import axios from 'axios' import qs from 'qs' /*** *判断环境变量区分接口的默认地址 */ switch (process. ...

  7. java中的Context

    在java编程中,上下文(Context)是指程序运行时的环境和状态的集合.包括了类对象变量方法等运行时的相关数据 在类中,我们可以通过this获取当前类的变量.方法的上下文, 例如getset方法: ...

  8. Pulsar客户端消费模式揭秘:Go 语言实现 ZeroQueueConsumer

    前段时间在 pulsar-client-go 社区里看到这么一个 issue: import "github.com/apache/pulsar-client-go/pulsar" ...

  9. vue加载三维模型

    创建项目 我使用的是Vue CLI3,具体创建不再赘述,网上教程很多 下载SuperMap iClient3D for WebGL产品包 链接:http://support.supermap.com. ...

  10. 【Java】在树结构中给节点追加数据

    一.功能需求 有个树状组件,展示区域层级,每个区域节点需要展示该地区下的统计信息 从来没做过,给我整不会了属实是 二.功能分析 原型有功能和老系统代码,查看源码后发现的结构框架 1.树组件是自己用ul ...