近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。

大会现场

行业的发展离不开信息传递,文档是信息传递最常见的载体之一。智能文档处理技术历来便是学术界重点关注的领域,多模态大模型可以利用大量的数据进行预训练,有效解决文档图像质量及自然语言处理技术限制问题。基于此,大会期间,中国人工智能学会(CAI)模式识别专委会与合合信息共同承办了《多模态大模型与文档图像智能理解》专题论坛,论坛主席为华南理工大学金连文教授、复旦大学邱锡鹏教授。来自清华大学、华中科技大学、复旦大学、百度、科大讯飞、合合信息等研究机构和企业的技术专家,围绕行业焦点议题展开探讨。

《多模态大模型与文档图像智能理解》专题论坛现场

“大模型的出现势必对行业带来巨大的影响,文档图像的分析、识别、理解与大模型技术间存在互补关系。”合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》分享中提到,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的‘token荒’的问题。

合合信息智能技术平台事业部副总经理、高级工程师丁凯博士进行《文档图像预训练模型的探索与思考》主题分享

文档图像技术已走过百年历程,但文档图像质量退化、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题如今仍是工业化落地中的难题。丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具有重要的研究价值。

“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析,理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。

合合信息-华南理工大学文档图像分析识别与理解联合实验室也对以下行业前沿问题进行了研究,包括如何将文档图像识别分析的各种任务定义为序列预测的形式,通过不同的AI提示词(prompt)引导模型完成不同的文档图像识别分析与理解任务,让模型更好地支持篇章级的文档图像识别分析。

大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。丁凯表示,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,在端到端提升文件处理效率、准确率的同时,有效保障用户及企业数据安全。

今年8月,合合信息战胜了来自全球的上千支参赛团队,获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持极低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案此前已在银行、证券、保险多个场景中应用。此前,合合信息曾获得ICPR、ICFHR 等十余项文档图像处理、文字识别领域国际竞赛冠军。

CIIS 2023 丨聚焦文档图像处理前沿领域,合合信息 AI 助力图像处理与内容安全保障的更多相关文章

  1. 如何突出显示PDF文档中的一些重要文本信息

    PDF文档中如果存在着太多的文字时,阅读者会容易遗漏很多重要的信息.但如果,文档中存在着一些特殊标记的文字时,比如标黄.标红文本时,很多人都会给予特别关注. 因此,当大家在使用pdfFactory专业 ...

  2. 【文档】七、Mysql Binlog不同事件类型的事件内容

    下面主要讲述了每个类型的事件中的固定和可变部分的数据. Start_log_event_v3/START_EVENT_V3 这个事件出现在v1或v3的binlog文件的开头部分.对于4.0和4.1版本 ...

  3. pytest文档53-命令行实时输出错误信息(pytest-instafail)

    前言 pytest 运行全部用例的时候,在控制台会先显示用例的运行结果(.或F), 用例全部运行完成后最后把报错信息全部一起抛出到控制台. 这样我们每次都需要等用例运行结束,才知道为什么报错,不方便实 ...

  4. C# 复制幻灯片(包括格式、背景、图片等)到同/另一个PPT文档

    C# 复制幻灯片(包括格式.背景.图片等)到同/另一个PPT文档 复制幻灯片是使用PowerPoint过程中的一个比较常见的操作,在复制一张幻灯片时一般有以下两种情况: 在同一个PPT文档内复制 从一 ...

  5. 『.NET Core CLI工具文档』(一).NET Core 命令行工具(CLI)

    说明:本文是个人翻译文章,由于个人水平有限,有不对的地方请大家帮忙更正. 原文:.NET Core Command Line Tools 翻译:.NET Core命令行工具 什么是 .NET Core ...

  6. 一起学微软Power BI系列-官方文档-入门指南(7)发布与共享-终结篇+完整PDF文档

    接触Power BI的时间也只有几个月,虽然花的时间不多,但通过各种渠道了解收集,谈不上精通,但对一些重要概念和细节还是有所了解.在整理官方文档的过程中,也熟悉和了解了很多概念.所以从前到后把微软官方 ...

  7. O365(世纪互联)SharePoint 之文档库使用小记

    前言 当O365越来越流行的时候,大家往往更多使用的是传统的Office功能,有太少订阅用户能触及到O365的一个非常棒的功能,叫做SharePoint online. 下面,我们就以图文并茂的方式, ...

  8. Sharepoint学习笔记—ECM系列--文档集(Document Set)的实现

    文档集是 SharePoint Server 2010 中的一项新功能,它使组织能够管理单个可交付文档或工作产品(可包含多个文档或文件).文档集是特殊类型的文件夹,它合并了唯一的文档集属性以及文件夹和 ...

  9. qt 工具下的dump工具导出文档出现异常解决方案

    今天一直认为qt环境下的dumpcpp 和dumpdoc两个导出工具很好用,可以今天在导出MSChart组件的类方法文档时,虽然导出成功了,但是导出的结果却是令人失望.自己也不知道如何能够正确导出,就 ...

  10. Markdown: 用写代码的思维写文档

    作者:吴香伟 发表于 2014/08/07 版权声明:可以任意转载,转载时务必以超链接形式标明文章原始出处和作者信息以及版权声明 本文不讲解Markdown的语法规则,只关注它带来的好处以及我使用的方 ...

随机推荐

  1. Solo 开发者周刊 (第 1 期):开源产品的探索之路

    产品推荐 如何着手将一个简单的想法转变为一个成熟的开源项目,以及如何在此过程中利用和贡献于开源社区.同时使其达到商业化的同时,保持原有的开源精神.这些是我们需要探索的. Spug 开源运维平台 Spu ...

  2. influxdb得导出与导入

    转载请注明出处: 1.备份元数据 基本语法: influxd backup <path-to-backup> 备份元数据,没有任何其他参数,备份将只转移当前状态的系统元数据到path-to ...

  3. 解决方案 | AutoCAD二次开发的ProgID一览表(AutoCAD2004 ~ AutoCAD2024)

    1 图片版本 2 文字版本 AutoCAD产品名 版本号 ProgID AutoCAD 2004 R16 AutoCAD.Application.16 AutoCAD 2005 R16.1 AutoC ...

  4. Windows在待机后重新进入桌面出现资源管理器无响应的解决方案

    问题 在日常使用Windows操作系统的过程中,我们可能会遇到一种较为特殊的情况--在系统待机后重新激活桌面时,资源管理器出现无响应现象.这一问题不仅影响用户体验,还可能导致剪切板功能异常,进而影响到 ...

  5. oeasy教您玩转vim - 29 - # 垂直翻页

    ​ 垂直翻页 回忆上节课内容 我们上次了解了横向滚动的相关信息 横滚幅度 - sidescroll 横滚留位 - sidescrolloff 自动换行 - wrap g j.g k 可以逐行上下移动 ...

  6. scratch少儿编程卡通三国背景72张全套素材包【免费下载】

    scratch卡通三国题材背景图片,共72张,让你轻松打造scratch三国世界! 免费下载地址:https://www.xiaohujing.com.cn 这套背景图片以卡通风格呈现,色彩鲜艳.造型 ...

  7. Windows cifs共享给linux

    Windows 搜索启用或关闭Windows功能 启用cifs 共享文件并添加普通用户 解禁guest用户和设置本地策略 右键计算机 win+r输入secpol.msc 将guest删除 修改网络访问 ...

  8. ComfyUI插件:ComfyUI layer style 节点(二)

    前言: 学习ComfyUI是一场持久战,而ComfyUI layer style 是一组专为图片设计制作且集成了Photoshop功能的强大节点.该节点几乎将PhotoShop的全部功能迁移到Comf ...

  9. web3 产品介绍 etherscan 区块链浏览器 将抽象的数据和理论可视化,小白也能看懂区块链

    Etherscan是一个广泛使用的以太坊区块链浏览器和分析平台,它为用户提供了全面的区块链数据查询和交易分析功能.在本文中,我们将介绍Etherscan的主要特点和功能,以及如何使用它来浏览以太坊区块 ...

  10. 【Java】Input,Output,Stream I/O流 02 文件流 & 缓冲流

    Reader & Writter 只适合文本的输入输出 [.txt .java .c .cpp] 传输文件,不能使用文本IO进行读写,需要使用文件输入输出流 public class IOTe ...