近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议由中国图象图形学学会(CSIG)主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。
 
当下,以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型,垂直领域大模型专注于特定场景的数据和知识,在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此,在主办单位中国图象图形学学会的指导下,合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》(简称“论坛”)。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家,共同分享前沿技术成果与实战思路,为大模型在垂直领域中的应用寻找新的落脚点。
 
文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下,版式丰富,文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月,继GPT-4后,Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”),具备突出的文档图像理解能力,引起行业广泛关注。
 
论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。
 
丁凯表示,GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地,GPT-4V在中文、手写公式,场景文字识别,表格识别上存在缺陷;面对多栏目、表格等复杂版式的文档时,大模型的处理效果距离当前SOTA(State Of The Art)的方法尚有较大差距。

 
 
 
“在智能文档处理领域,大模型支持识别和理解的文档元素类型远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不足在于,目前大模型的OCR精度距离领域最佳模型有较大差距,长文档依赖外部的文档解析引擎。”丁凯认为,技术公司可以把“感知”层面的事情做好,让大模型更好地去做“认知”,这种融合研究范式在智能文档处理领域中具有积极的意义。
 
目前,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究,相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外,实验室还通过创新的文档识别分析与LLM(自然语言模型)应用设计,充分利用序列预测的优势,更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。
 
合合信息是一家人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案,为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理(NLP)、计算机视觉(CV)、深度学习等人工智能技术,合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理,相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。

CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式的更多相关文章

  1. 微信小程序——demo合集及简单的文档解读【五】

    官方Demo https://github.com/wechat-miniprogram/miniprogram-demo 其他Demo https://www.cnblogs.com/ytkah/p ...

  2. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  3. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  4. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  5. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  6. 如何教你在NIPS会议上批量下载历年的pdf文档(另附04~14年NIPS论文下载链接)

    如何获得NIPS会议上批量下载的链接? NIPS会议下载网址:http://papers.nips.cc/ a.点击打开上述网站,进入某一年的所有会议,例如2014年,如下图 b.然后对着当前网页点击 ...

  7. 03-组合逻辑电路设计之译码器——小梅哥FPGA设计思想与验证方法视频教程配套文档

    芯航线——普利斯队长精心奉献 课程目标:    1. 再次熟悉Quartus II工程的建立以及完整的FPGA开发流程 2. 以译码器为例学会简单组合逻辑电路设计 实验平台:无 实验原理: 组合逻辑, ...

  8. 合工大OJ 1331 回文数

    Description 一个正整数,如果从左向右读(称之为正序数)和从右向左读(称之为倒序数)是一样的,这样的数就叫回文数. 任取一个正整数,如果不是回文数,将该数与他的倒序数相加,若其和不是回文数, ...

  9. 关于上架AppStore最后一步的“出口合规信息”、“内容版权”、“广告标识符”的选择(转)

    这里只当作记录:http://blog.csdn.net/ashimar_a/article/details/51745675

  10. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

随机推荐

  1. Solo 开发者周刊 (第 1 期):开源产品的探索之路

    产品推荐 如何着手将一个简单的想法转变为一个成熟的开源项目,以及如何在此过程中利用和贡献于开源社区.同时使其达到商业化的同时,保持原有的开源精神.这些是我们需要探索的. Spug 开源运维平台 Spu ...

  2. 原创软件 | 第3期:PDF合并分割助手V1.0(个人免费)

    这是一个短的"发布会". 01 基本介绍 近期开发了一个[PDF合并分割助手]. 它是一个实现pdf快速合并.分割的免费软件. 你拥有以下7种选项设置. >>合并选项& ...

  3. 网易数帆开源贡献获业界肯定,轻舟API网关获OSCAR尖峰开源技术创新奖

    2020年10月16日,由中国信息通信研究院主办的"2020开源产业大会"在北京线下与线上同步召开,主办方在会上公布了"OSCAR尖峰开源奖项"各个奖项的评选结 ...

  4. mysql 临时表的好处

    客户端新建了一个会话,这个会话只是服务器与客户端1对1的关系,客户端可能在服务端建立一个临时表,满足客户端处理某些事务的需求,当客户端退出会话后,这个临时表自动drop,没有任何数据信息占用数据库空间 ...

  5. oeasy教您玩转vim - 74 - # 功能键Fn映射map进阶

    ​ 映射map 回忆上次缩写的细节 上次了解到了:map映射 可以定义映射 :map ; : 查询映射 :map :map ; 还可以取消映射 :unmap 可以映射到指定的模式 :map 所有模式 ...

  6. [MAUI 项目实战] 笔记App:程序设计

    前言 有人说现在记事类app这么多,市场这么卷,为什么还想做一个笔记类App? 一来,去年小孩刚出生,需要一个可以记录喂奶时间的app,发现市面上没有一款app能够在两步内简单记录一个时间,可能iOS ...

  7. 关于异步编程中的bind(this)

    异步编程中的.bind(this)方法解决了异步执行后this指针指向全局函数的问题,主要可以通过以下两个场景加以说明:(本文所用例子基于React场景:为简便起见,仅在第一个例子中展示完整HTML代 ...

  8. 图灵课堂netty 仿微信开发

    通信的图文示例 以下是需要实现的前端界面, 准备工作:开始实现前需要技术关健字解释 第一步,这儿直接建一个maven 项目 就好,只要是可能用maven 管理包的环境就行,课程使用的版本是 java ...

  9. 假期小结4hive学习beeline

    学习Beeline是连接和管理Hive的一种有效方式.Beeline是一个用于与Hive交互的命令行工具,它支持通过JDBC连接到Hive服务器,并执行查询和管理Hive表等操作. 以下是一些关于Be ...

  10. 【JavaWeb】接口请求404的问题排查

    响应状态404:404 Page Not Found 根本原因: 服务器找不到这个地址描述的页面资源, 注意是页面资源 可能的出现的开发情况: 1.请求的资源可能真的不存在,是接口,也可以是页面 2. ...