数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。

人工智能技术的应用场景正在不断拓展,其发展也面临着产品能力参差不齐、缺乏行业基准和标杆、安全可信要求落实不明确等问题。中国信通院于2018年起逐步构建和完善“可信AI”评测体系,助力人工智能技术的发展和产业的健康成长,“智能文档处理”是近两年来新增的评测项目之一。

中国信通院智能文档处理系统评测体系介绍(图源:中国信通院)

国际数据公司(IDC)最新发布的预测数据显示,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度(CAGR)达到26.3%。其中,企业数据量占据70%,目前仅有24%的数据被用于分析或AI决策。由此可见,企业在经营中沉淀下来的数据,有大部分价值尚待释放。

计算机信息化系统中的数据分为结构化数据和非结构化数据,人们日常生活、工作中所接触到的各类办公文档、文本、图片、报表都属于非结构化数据。由于格式复杂、标准多样,非结构化数据处理起来既困难又耗时,智能文档处理技术可以把关键信息从半结构化/非结构化数据中提取出来,进一步实现业务流程的端到端自动化。IDC认为,智能文档处理技术是提升部分行业、业务、流程的核心生产要素,随着与应用和流程自动化的深度整合,潜在的应用场景广泛,普及空间较大。

目前,智能文档处理技术已被广泛应用于文档数字化管理、自动化流程、图文提取等业务场景,并加速渗透金融、政务、医疗、海关等垂直领域。中国信通院持续关注智能文档处理技术及应用的发展情况,依据《自然语言处理技术和产品评估方法 第8部分:智能文档处理系统》,全方位评估企业智能文档处理的技术先进度。

评估结果显示,合合信息智能文档处理产品在通用能力及AI核心能力方面均表现优异:

通用能力方面,合合信息产品在信息抽取、表格文字识别、版面分析等方面均获得5分评分。表格文字识别、版面分析是文档处理的难点,合合信息表格文字识别技术支持识别图片/PDF格式文档中的多类型表格内容。在财报相关表格识别测试中,合合信息有线表识别单元格结构准确率高于98%;无线表识别在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

合合信息“表格文字识别”处理效果展示

合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。

AI核心能力方面,合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分,并支持文本生成、事件抽取等高阶处理能力,其中准确率、召回率、F1值等指标评分总体较高。

合合信息创立于2006年,是一家人工智能及大数据科技企业。合合信息智能文档处理产品是一款集图像处理、文档质量判断、文档识别、版面分析、文档结构化信息抽取、存储、检索、管理等技术于一体的智能文档解决方案产品,旨在帮助个人和企业实现文档信息化管理。

技术发展之路上,安全是不可缺席的话题。本月,中国信通院携手合合信息启动了《文档图像篡改检测标准》制定工作,中国图象图形学学会、中国科学技术大学等知名学术机构参与联合编制。该检测标准将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别等行业焦点议题,凝聚行业共识,为中国“可信AI”在机器视觉、图像处理领域的体系建设提供有力支持。

通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估的更多相关文章

  1. 加速 Document AI (文档智能) 发展

    在企业的数字工作流中充满了各种文档,包括信件.发票.表格.报告.收据等,我们无法自动提取它们的知识.如今随着文本.视觉和多模态人工智能的进步,我们有可能解锁这些知识,这篇文章向你展示了你的团队该如何使 ...

  2. 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

    在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...

  3. MaltReport2:通用文档生成引擎

    UPDATED: 本文仅适用 MaltReport 2.x ,3.x 版本文档还在撰写当中,目前请参考项目中的 Samples. MaltReport 是我几年前写的开源单据.报表引擎,最近进行了较大 ...

  4. Java程序员的两项通用能力

    工作这几年来,经历了很多.从小白到中级(手机里有一款叫中国象棋的游戏,里面给对弈中电脑水平分为小白.菜鸟.新手.入门.初级.中级.高级.大师.特级大师,编程我暂且按照这样来区分). 学校教给我的是从小 ...

  5. NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具

    简介 NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具 作为国际领先的在线文档编辑和管理工具,Notion受到了广大用户的欢迎,尤其是程序员们.它不仅支持笔记. ...

  6. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  7. API的文档自动生成——基于CDIF的SOA基本能力

    当前,作为大部分移动app和云服务后台之间的标准连接方式,REST API已经得到了绝大部分开发者的认可和广泛的应用.近年来,在新兴API经济模式逐渐兴起,许多厂商纷纷将自己的后台业务能力作为REST ...

  8. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

  9. spring boot:用swagger3生成接口文档,支持全局通用参数(swagger 3.0.0 / spring boot 2.3.2)

    一,什么是swagger? 1,  Swagger 是一个规范和完整的文档框架, 用于生成.描述.调用和可视化 RESTful 风格的 Web 服务文档 官方网站: https://swagger.i ...

  10. AI剪辑和自定义UI,打造更智能的剪辑体验

    为满足开发者构建高效的应用内视频编辑能力,7月的HMS Core 6.0 推出了视频编辑服务(Video Editor Kit),一站式的视频处理能力获得了积极反响.同时,我们也关注到开发者需要集成丰 ...

随机推荐

  1. truncate table 与delete的区别

    1.DELETE ・DML语言 ・可以回退 ・可以有条件的删除 DELETE FROM 表名 WHERE 条件2.TRUNCATE TABLE ・DDL语言 ・无法回退 ・默认所有的表内容都删除 ・删 ...

  2. 在ubuntu16.04下,源码编译安装特定版本的MongoDB PHP扩展

    背景:我的php项目在连接其他mongo库时报:Server at xxx:27017 reports wire version 5, but this version of libmongoc re ...

  3. njs最详细的入门手册:Nginx JavaScript Engine

    原文链接:https://hi.imzlh.top/2024/07/08.cgi 关于njs 首先,njs似乎在国内外都不受关注,资料什么的只有 官网参考手册,出了个问题只能看到Github Issu ...

  4. 2024 暑假友谊赛-热身2 (7.12)zhaosang

    E-E https://vjudge.net/problem/AtCoder-diverta2019_b 给你 a, b, c ,n就是问你有多少(ia+jb+k*c)等于n的答案i,j,k任意几个都 ...

  5. redis复制replica

    通过查看log信息即可观察主机是否与从机正确连接,一般来说主机上有succeeded就是可以了 可以通过info replication查看自己的身份 role:master connected_sl ...

  6. 【Vue2】Router 路由

    1.什么是单页面应用程序 单页面应用程序(英文名: Single Page Application)简称SPA, 顾名思义,指的是一个Web网站中只有唯一-的一-个HTML页面, 所有的功能与交互都在 ...

  7. 【Vue】06 Webpack Part2 打包命令配置

    Webpack 配置: 入口 & 出口: 就是我们使用的打包命令: 一个是对什么文件执行,这就是入口 一个是输出到什么文件,这就是出口 每一次打包使用这个命令都必须指定这两个必要的参数 所以将 ...

  8. 【Spring】09 后续的学习补充 vol3

    原生JDBC事务: package dao; import cn.dzz.util.DruidUtil; import org.apache.commons.dbutils.QueryRunner; ...

  9. Asp.Net Core之Identity源码学习

    什么是Identity ASP.NET Identity是构建核心 Web 应用程序(ASP.NET.登录和用户数据)的成员系统.ASP.NET核心标识允许您向应用程序添加登录功能,并可以轻松自定义有 ...

  10. tmux开启鼠标模式

    在tmux的配置文件中进行配置: vim ~/.tmux.conf set -g mouse on