近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议由中国图象图形学学会(CSIG)主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。
 
当下,以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型,垂直领域大模型专注于特定场景的数据和知识,在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此,在主办单位中国图象图形学学会的指导下,合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》(简称“论坛”)。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家,共同分享前沿技术成果与实战思路,为大模型在垂直领域中的应用寻找新的落脚点。
 
文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下,版式丰富,文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月,继GPT-4后,Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”),具备突出的文档图像理解能力,引起行业广泛关注。
 
论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。
 
丁凯表示,GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地,GPT-4V在中文、手写公式,场景文字识别,表格识别上存在缺陷;面对多栏目、表格等复杂版式的文档时,大模型的处理效果距离当前SOTA(State Of The Art)的方法尚有较大差距。

 
 
 
“在智能文档处理领域,大模型支持识别和理解的文档元素类型远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不足在于,目前大模型的OCR精度距离领域最佳模型有较大差距,长文档依赖外部的文档解析引擎。”丁凯认为,技术公司可以把“感知”层面的事情做好,让大模型更好地去做“认知”,这种融合研究范式在智能文档处理领域中具有积极的意义。
 
目前,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究,相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外,实验室还通过创新的文档识别分析与LLM(自然语言模型)应用设计,充分利用序列预测的优势,更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。
 
合合信息是一家人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案,为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理(NLP)、计算机视觉(CV)、深度学习等人工智能技术,合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理,相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。

CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式的更多相关文章

  1. 微信小程序——demo合集及简单的文档解读【五】

    官方Demo https://github.com/wechat-miniprogram/miniprogram-demo 其他Demo https://www.cnblogs.com/ytkah/p ...

  2. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  3. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  4. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  5. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  6. 如何教你在NIPS会议上批量下载历年的pdf文档(另附04~14年NIPS论文下载链接)

    如何获得NIPS会议上批量下载的链接? NIPS会议下载网址:http://papers.nips.cc/ a.点击打开上述网站,进入某一年的所有会议,例如2014年,如下图 b.然后对着当前网页点击 ...

  7. 03-组合逻辑电路设计之译码器——小梅哥FPGA设计思想与验证方法视频教程配套文档

    芯航线——普利斯队长精心奉献 课程目标:    1. 再次熟悉Quartus II工程的建立以及完整的FPGA开发流程 2. 以译码器为例学会简单组合逻辑电路设计 实验平台:无 实验原理: 组合逻辑, ...

  8. 合工大OJ 1331 回文数

    Description 一个正整数,如果从左向右读(称之为正序数)和从右向左读(称之为倒序数)是一样的,这样的数就叫回文数. 任取一个正整数,如果不是回文数,将该数与他的倒序数相加,若其和不是回文数, ...

  9. 关于上架AppStore最后一步的“出口合规信息”、“内容版权”、“广告标识符”的选择(转)

    这里只当作记录:http://blog.csdn.net/ashimar_a/article/details/51745675

  10. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

随机推荐

  1. 算法题练习,Solo和koko分糖 ,整数拆分, Cookies 分饼干

    目录 1. Candy Solo和koko分糖 2. 整数拆分 3=1+1+1 3=1+2 3=3 3. Cookies 分饼干 1. Candy Solo和koko分糖 如果可以分给弟弟,必定满足全 ...

  2. oeasy教您玩转vim - 55 - # 参数替换

    ​ [Github地址] (https://github.com/overmind1980/oeasyvim) [Gitee地址] (overmind1980/oeasyvim) [蓝桥实验楼 邀请码 ...

  3. vue小知识:多层数据双向相应之向上派发和向下派发($dispatch和$broadcast)

    注意:这两个实例已经在vue3中弃用啦!!!(所以不详细说了,封装知道怎么用就行了,作为了解) 都是在vue实例配置(main.js) 向上派发:$dispatch 注意,在相应后代组件中使用 thi ...

  4. Known框架实战演练——进销存业务单据

    本文介绍如何实现进销存管理系统的业务单据模块,业务单据模块包括采购进货单.采购退货单.销售出货单.销售退货单4个菜单页面.由于进销单据字段大同小异,因此设计共用一个页面组件类. 项目代码:JxcLit ...

  5. 加压测试TPS上不去的性能分析

    加压测试TPS上不去的性能分析 阶梯式加压测试接口异常可能存在的原因: 压力机本身性能测试的瓶颈 分析:单机负载能力有限,如果需要模拟的用户请求数超过其负载极限,也会间接影响TPS ,可以通过进行分布 ...

  6. CSS mask-image 实现边缘淡出过渡效果

    使用场景 在生产环境中,遇到一个需求,需要在一个深色风格的大屏页面中,嵌入 Google Maps.为了减少违和感,希望地图四边能够淡出过渡. 这里的"淡出过渡",关键是淡出,而非 ...

  7. 如何在mysql中删除重复数据

    #分组去重法 讲重复的列进行分组 之后用min(id) #取其中最小的保留,其余的删除 -- 步骤 1: 创建临时表,保存每组最小的ID CREATE TEMPORARY TABLE tmp_keep ...

  8. 【Tutorial C】01 概述

    历史 History 欢迎来到C语言的世界!C语言是一种强大的专业化编程语言,深受业余和专业编程人员的欢迎. 在学习之前先让我们了解和认识它! C语言的原型是A语言(ALGOL 60语言). 1963 ...

  9. 【JavaScript】无框架翻页处理

    这个业务太复杂了 输入框的东西要用接口查出来,居然不是用户手动输入 然后我就要做一个翻页的查询列表: <div form id="troublePartSearch" sty ...

  10. agnostic在计算机领域的常用翻译 —— location-agnostic deployment option

    关于agnostic的翻译: 例子: NVIDIA OSMO scales workloads across distributed environments. For robotics worklo ...