近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议由中国图象图形学学会(CSIG)主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。
 
当下,以大模型为代表的人工智能技术正重塑着千行百业。相较于通用大模型,垂直领域大模型专注于特定场景的数据和知识,在处理复杂、专业的场景问题时具有更高的准确性和效率。垂直领域大模型的作用与发展前景也成为了各界研究的重点。因此,在主办单位中国图象图形学学会的指导下,合合信息联合琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会共同承办了《垂直领域大模型论坛》(简称“论坛”)。论坛汇聚了高校及办公、医疗、工业等多个行业代表性企业的技术专家,共同分享前沿技术成果与实战思路,为大模型在垂直领域中的应用寻找新的落脚点。
 
文档处理是垂直领域大模型的重要研究方向。受制于图像质量低下,版式丰富,文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。2023年9月,继GPT-4后,Open AI发布了具有视觉功能的多模态模型GPT-4V(V即“Vision”),具备突出的文档图像理解能力,引起行业广泛关注。
 
论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。
 
丁凯表示,GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。相对应地,GPT-4V在中文、手写公式,场景文字识别,表格识别上存在缺陷;面对多栏目、表格等复杂版式的文档时,大模型的处理效果距离当前SOTA(State Of The Art)的方法尚有较大差距。

 
 
 
“在智能文档处理领域,大模型支持识别和理解的文档元素类型远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不足在于,目前大模型的OCR精度距离领域最佳模型有较大差距,长文档依赖外部的文档解析引擎。”丁凯认为,技术公司可以把“感知”层面的事情做好,让大模型更好地去做“认知”,这种融合研究范式在智能文档处理领域中具有积极的意义。
 
目前,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对大模型文档处理中的像素级OCR统一模型、OCR大一统模型等重点技术方向进行了深入研究,相关工作成果在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。此外,实验室还通过创新的文档识别分析与LLM(自然语言模型)应用设计,充分利用序列预测的优势,更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。
 
合合信息是一家人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案,为全球企业和个人用户提供创新的数字化、智能化服务。通过自然语言处理(NLP)、计算机视觉(CV)、深度学习等人工智能技术,合合信息智能文档处理系统可实现“文档导入-图像处理-文字检测与识别-信息抽取-数据验证-语义检索与摘要”全流程智能化处理,相关产品及解决方案已在全球范围内被应用于金融业、物流业、制造业等多个行业中。

CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式的更多相关文章

  1. 微信小程序——demo合集及简单的文档解读【五】

    官方Demo https://github.com/wechat-miniprogram/miniprogram-demo 其他Demo https://www.cnblogs.com/ytkah/p ...

  2. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  3. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  4. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  5. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  6. 如何教你在NIPS会议上批量下载历年的pdf文档(另附04~14年NIPS论文下载链接)

    如何获得NIPS会议上批量下载的链接? NIPS会议下载网址:http://papers.nips.cc/ a.点击打开上述网站,进入某一年的所有会议,例如2014年,如下图 b.然后对着当前网页点击 ...

  7. 03-组合逻辑电路设计之译码器——小梅哥FPGA设计思想与验证方法视频教程配套文档

    芯航线——普利斯队长精心奉献 课程目标:    1. 再次熟悉Quartus II工程的建立以及完整的FPGA开发流程 2. 以译码器为例学会简单组合逻辑电路设计 实验平台:无 实验原理: 组合逻辑, ...

  8. 合工大OJ 1331 回文数

    Description 一个正整数,如果从左向右读(称之为正序数)和从右向左读(称之为倒序数)是一样的,这样的数就叫回文数. 任取一个正整数,如果不是回文数,将该数与他的倒序数相加,若其和不是回文数, ...

  9. 关于上架AppStore最后一步的“出口合规信息”、“内容版权”、“广告标识符”的选择(转)

    这里只当作记录:http://blog.csdn.net/ashimar_a/article/details/51745675

  10. Tokyocabinet/Tokyotyrant文档大合集

    1. 前言 这里不是我个人原创,是我对网络上整理到的资料的再加工,以更成体系,更方便研究阅读.主要是对其中跟主题无关的文字删除,部分人称稍做修改;本人无版权,您可以将本页面视为对参考页面的镜像.第二部 ...

随机推荐

  1. P2918

    [USACO08NOV]Buying Hay S 题意描述 约翰的干草库存已经告罄,他打算为奶牛们采购 H(1 \leq H \leq 50000)H(1≤H≤50000) 磅干草. 他知道 N(1 ...

  2. 使用中台 Admin.Core 实现了一个Razor模板的通用代码生成器

    前言 前面使用 Admin.Core 的代码生成器生成了通用代码生成器的基础模块 分组,模板,项目,项目模型,项目字段的基础功能,本篇继续完善,实现最核心的模板生成功能,并提供生成预览及代码文件压缩下 ...

  3. 让你的vscode搭载ChatGPT获得来自 AI 的编程指导

    一直以来,VS Code 都是开发者心目中的生产力神器,它免费.开源且跨平台,被称为最好用的 IDE. 把 VS Code 和 ChatGPT 结合使用,用户将获得来自 AI 的编程指导,包括代码解释 ...

  4. oeasy教您玩转vim - 91 - # vim脚本编程展望

    ​ vim脚本编程展望 回忆 上次我们彻底研究了vim高亮的原理 各种语法项syntax item 关键字keyword 匹配模式match 区域region 定义好了之后还可以设置链接成组 hi d ...

  5. 2023HACSP-J补测

    都快忘了自己还打过这个比赛了,所以来补一下. 完整题目在这里查看. Day0 来到郑州,寻找考场.幸好提前来了,因为考场大门就 5m 宽(HA用不用这么穷啊喂,来JZYZ不好么),开车转了 20min ...

  6. C#封装HttpClient工具类库(.NET4.5以上)

    1.Json字符串实体转换扩展方法,依赖Json.Net包 /// <summary> /// Json扩展方法 /// </summary> public static cl ...

  7. 结构体_C

    // Code file created by C Code Develop #include "ccd.h" #include "stdio.h" #incl ...

  8. CF1950B Upscaling题解

    CF1950B Upscaling题解 题意 给予你一个正整数 \(n\),构造一个如图的字符矩阵. 思路 注意数据 \(1\le n \le 20\),可以发现数据很小,于是我们可以暴力模拟. 我们 ...

  9. 服务端渲染中的数据获取:结合 useRequestHeaders 与 useFetch

    title: 服务端渲染中的数据获取:结合 useRequestHeaders 与 useFetch date: 2024/7/24 updated: 2024/7/24 author: cmdrag ...

  10. 2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!

    Apache SeaTunnel 2.3.6 版本于近日正式发布,社区期待的 SeaTunnel Zeta Master/Worker 新架构.事件通知机制.支持动态编译的transform等新功能和 ...