通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估
数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。
人工智能技术的应用场景正在不断拓展,其发展也面临着产品能力参差不齐、缺乏行业基准和标杆、安全可信要求落实不明确等问题。中国信通院于2018年起逐步构建和完善“可信AI”评测体系,助力人工智能技术的发展和产业的健康成长,“智能文档处理”是近两年来新增的评测项目之一。

中国信通院智能文档处理系统评测体系介绍(图源:中国信通院)
国际数据公司(IDC)最新发布的预测数据显示,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度(CAGR)达到26.3%。其中,企业数据量占据70%,目前仅有24%的数据被用于分析或AI决策。由此可见,企业在经营中沉淀下来的数据,有大部分价值尚待释放。
计算机信息化系统中的数据分为结构化数据和非结构化数据,人们日常生活、工作中所接触到的各类办公文档、文本、图片、报表都属于非结构化数据。由于格式复杂、标准多样,非结构化数据处理起来既困难又耗时,智能文档处理技术可以把关键信息从半结构化/非结构化数据中提取出来,进一步实现业务流程的端到端自动化。IDC认为,智能文档处理技术是提升部分行业、业务、流程的核心生产要素,随着与应用和流程自动化的深度整合,潜在的应用场景广泛,普及空间较大。
目前,智能文档处理技术已被广泛应用于文档数字化管理、自动化流程、图文提取等业务场景,并加速渗透金融、政务、医疗、海关等垂直领域。中国信通院持续关注智能文档处理技术及应用的发展情况,依据《自然语言处理技术和产品评估方法 第8部分:智能文档处理系统》,全方位评估企业智能文档处理的技术先进度。
评估结果显示,合合信息智能文档处理产品在通用能力及AI核心能力方面均表现优异:
通用能力方面,合合信息产品在信息抽取、表格文字识别、版面分析等方面均获得5分评分。表格文字识别、版面分析是文档处理的难点,合合信息表格文字识别技术支持识别图片/PDF格式文档中的多类型表格内容。在财报相关表格识别测试中,合合信息有线表识别单元格结构准确率高于98%;无线表识别在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

合合信息“表格文字识别”处理效果展示
合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。
AI核心能力方面,合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分,并支持文本生成、事件抽取等高阶处理能力,其中准确率、召回率、F1值等指标评分总体较高。
合合信息创立于2006年,是一家人工智能及大数据科技企业。合合信息智能文档处理产品是一款集图像处理、文档质量判断、文档识别、版面分析、文档结构化信息抽取、存储、检索、管理等技术于一体的智能文档解决方案产品,旨在帮助个人和企业实现文档信息化管理。
技术发展之路上,安全是不可缺席的话题。本月,中国信通院携手合合信息启动了《文档图像篡改检测标准》制定工作,中国图象图形学学会、中国科学技术大学等知名学术机构参与联合编制。该检测标准将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别等行业焦点议题,凝聚行业共识,为中国“可信AI”在机器视觉、图像处理领域的体系建设提供有力支持。
通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估的更多相关文章
- 加速 Document AI (文档智能) 发展
在企业的数字工作流中充满了各种文档,包括信件.发票.表格.报告.收据等,我们无法自动提取它们的知识.如今随着文本.视觉和多模态人工智能的进步,我们有可能解锁这些知识,这篇文章向你展示了你的团队该如何使 ...
- 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力
在日常生活中,用户会经常碰到很多复杂的规章制度.规则条款.比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等.在工作中,也会面对公司多样的规定制度和报销政策.比如:商业保险理赔需要什么材料 ...
- MaltReport2:通用文档生成引擎
UPDATED: 本文仅适用 MaltReport 2.x ,3.x 版本文档还在撰写当中,目前请参考项目中的 Samples. MaltReport 是我几年前写的开源单据.报表引擎,最近进行了较大 ...
- Java程序员的两项通用能力
工作这几年来,经历了很多.从小白到中级(手机里有一款叫中国象棋的游戏,里面给对弈中电脑水平分为小白.菜鸟.新手.入门.初级.中级.高级.大师.特级大师,编程我暂且按照这样来区分). 学校教给我的是从小 ...
- NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具
简介 NotionAI - 文档领域的ChatGPT,一款 AI 加持的在线文档编辑和管理工具 作为国际领先的在线文档编辑和管理工具,Notion受到了广大用户的欢迎,尤其是程序员们.它不仅支持笔记. ...
- 【前端优化之拆分CSS】前端三剑客的分分合合
几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...
- API的文档自动生成——基于CDIF的SOA基本能力
当前,作为大部分移动app和云服务后台之间的标准连接方式,REST API已经得到了绝大部分开发者的认可和广泛的应用.近年来,在新兴API经济模式逐渐兴起,许多厂商纷纷将自己的后台业务能力作为REST ...
- Tokyocabinet/Tokyotyrant文档大合集
1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...
- spring boot:用swagger3生成接口文档,支持全局通用参数(swagger 3.0.0 / spring boot 2.3.2)
一,什么是swagger? 1, Swagger 是一个规范和完整的文档框架, 用于生成.描述.调用和可视化 RESTful 风格的 Web 服务文档 官方网站: https://swagger.i ...
- AI剪辑和自定义UI,打造更智能的剪辑体验
为满足开发者构建高效的应用内视频编辑能力,7月的HMS Core 6.0 推出了视频编辑服务(Video Editor Kit),一站式的视频处理能力获得了积极反响.同时,我们也关注到开发者需要集成丰 ...
随机推荐
- Simple WPF: S3实现MINIO大文件上传并显示上传进度
最新内容优先发布于个人博客:小虎技术分享站,随后逐步搬运到博客园. 创作不易,如果觉得有用请在Github上为博主点亮一颗小星星吧! 目的 早两天写了一篇S3简单上传文件的小工具,知乎上看到了一个问题 ...
- 转载 | win11右键菜单改为win10的bat命令(以及恢复方法bat)
原文来自这里:https://blog.51cto.com/knifeedge/5340751 版权归:IT利刃出鞘 本质上就是写入注册表. 一.右键菜单改回Win10(展开) 1. 新建文件:win ...
- 当项目中使用到缓存,我们是选择 Redis 还是 Memcached ,为什么?
举一些场景: 一.比如实现一个简单的日志收集功能或发送大量短信.邮件的功能,实现方式是先将数据收集到队列中,然后有一个定时任务去消耗队列,处理该做的事情. 直接使用 Redis 的 lpush,rpo ...
- [oeasy]python0072_修改字体前景颜色_foreground_color_font
修改颜色 回忆上次内容 m 可以改变字体样式 0-9 之间设置的都是字体效果 0 重置为默认 1 变亮 2 变暗 3 斜体 4 下划线 5 慢闪 6 快闪 7 前景背景互换 8 隐藏 9 中划线 叠加 ...
- Python 结合opencv实现图片截取和拼接
实践环境 python 3.6.2 scikit-build-0.16.7 win10 opencv_python-4.5.4.60-cp36-cp36m-win_amd64.whl 下载地址: ht ...
- Python 使用Python操作xmind文件
使用Python操作xmind文件 by:授客 QQ:1033553122 测试环境 Win10 Python 3.5.4 XMind-1.2.0.tar.gz 下载地址: https://fil ...
- 计算机二级考试 C语言篇
本篇仅适用于计算机二级考试C语言篇 首先介绍一下二级考试时间问题(以本人考试2022年为例): 一. 2022年全国计算机二级考试时间 2022年全国计算机考试举办4次,(3月.5月.9月.12月 ...
- LeetCode122. 买卖股票的最佳时机 II
题目链接:https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-ii/description/ 题目叙述: 给你一个整数数组 pri ...
- Linux 有趣命令
代码雨 1.上传软件包 Linux 获取 wget https://jaist.dl.sourceforge.net/project/cmatrix/cmatrix/1.2a/cmatrix-1.2a ...
- top的wa,mpstat的%iowait以及pidstat的%wait
top的wa,mpstat的%iowait以及pidstat的%wait pidstat 中, %wait 表示进程等待 CPU 的时间百分比.等待 CPU 的进程已经在 CPU 的就绪队列中,处于运 ...