PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术

近期,2023年中国模式识别与计算机视觉大会(PRCV)在厦门成功举行。大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办,是国内模式识别和计算机视觉领域的学术盛会。

本次大会通过聚焦中国模式识别与计算机视觉领域的最新理论和技术成果解读、分享,进一步加强产学研领域的学术交流和技术碰撞,促进模式识别与计算机视觉领域的协同合作与融合创新。大会邀请了徐宗本院士、张艳宁教授、李树涛教授、黄铁军教授、胡事民教授作主旨报告;参会人员包括来自清华大学、厦门大学、浙江大学、华中科技大学等高校的科研工作者,以及腾讯、美团、合合信息等科技企业的技术专家。

智能文档处理技术是学术界重点关注的领域,而随着信息渠道的多样化发展,异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点,天然具备多模态属性。在《视言碰撞:语言模型与视觉生态协同论坛》上,合合信息图像算法研发总监郭丰俊博士就文档图像前沿技术热点话题进行了分享。郭丰俊表示,多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。

合合信息图像算法研发总监郭丰俊博士进行《文档图像前沿技术探索——多模态及图像安全》主题分享

“从目前评测的情况来看,已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到,合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究,并在数据高效利用及垂直领域识别项目中取得了阶段性成果。

大模型技术的突破让生成式AI拥有了更广泛的落地空间,也让图片伪造的门槛变得更低,给了不法分子可乘之机。大会现场,郭丰俊对合合信息在AI图像安全方面的工作进行了分享。据介绍,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,图像篡改检测技术不仅能够应用于自然场景,还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假,合合信息基于空域与频域关系建模,利用多维度特征来分辨真实图片和生成式图片的细微差异,判断图片是否由AI生成。

今年8月,合合信息获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案已在银行、证券、保险多个场景中应用。

“目前,图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战,不断提升检测系统的鲁棒性和泛化能力,是学术界与企业界需要深入合作的重要方向。”郭丰俊表示,合合信息已联合中国信通院,发起了《文本图像篡改检测系统技术规范》标准制定,希望持续推动AI技术在图像安全领域的广泛应用,带给用户更加安全、高效的工作和生活体验。

PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术的更多相关文章

  1. java生态下的后端开发都有哪些技术栈?

    前言 我08年毕业,那时(2003-2010)C#还比较时髦的,大学跟着老师进修的,毕业后就从事winform窗体应用程序开发.慢慢的web网站兴起,就转到aps.net开发,再到后来就上了另一艘船( ...

  2. PCL—低层次视觉—点云分割(邻近信息)

    分割给人最直观的影响大概就是邻居和我不一样.比如某条界线这边是中华文明,界线那边是西方文,最简单的分割方式就是在边界上找些居民问:"小伙子,你到底能不能上油管啊?”.然后把能上油管的居民坐标 ...

  3. 分布式协同AI基准测试项目Ianvs:工业场景提升5倍研发效率

    摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...

  4. KubeEdge SIG AI发布首个分布式协同AI Benchmark调研

    摘要:AI Benchmark旨在衡量AI模型的性能和效能. 本文分享自华为云社区<KubeEdge SIG AI发布首个分布式协同AI Benchmark调研>,作者:KubeEdge ...

  5. 大数据与 AI 生态中的开源技术总结

    本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...

  6. Modelarts与无感识别技术生态总结(浅出版)

    [摘要] Modelarts技术及相关产业已成为未来AI与大数据重点发展行业模式之一,为了促进人工智能领域科学技术快速发展,modelarts现状及生态前景成为研究热点.笔者首先总结modelarts ...

  7. 【转】Unity中的协同程序-使用Promise进行封装(一)

    原文:http://gad.qq.com/program/translateview/7170767 译者:陈敬凤(nunu)    审校:王磊(未来的未来) 每个Unity的开发者应该都对协同程序非 ...

  8. 蚂蚁金服mPaaS 3.0发布 助力客户智能化构建超级App生态

    1月4日,蚂蚁金融科技宣布蚂蚁金服移动开发平台mPaaS(mobile Platform-as-a-Service)升级到3.0版本,“新版本以智能技术助力客户构建自己的超级 App,企业可以拥有等同 ...

  9. [转]语言模型训练工具SRILM

    SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现 ...

  10. Marr的视觉计算理论

            Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学.神经生理学.临床神经病理学等方面已取得的所有重要成果,是迄今为止最为系统的视觉理论.Marr 的视觉计算理论虽然在细节甚 ...

随机推荐

  1. Java开发工具和历史版本

    eclipse 的历史版本: 版本代号 平台版本 主要版本发行日期 SR1发行日期 SR2发行日期 SR3发行日期 代号名称 N/A 3.0 2004年6月21日 [2]  N/A N/A N/A N ...

  2. 解决方案 | pywintypes.com_error: (-2147418111, '被呼叫方拒绝接收呼叫。', None, None)

    解决方案:加一个time.sleep(1)即可

  3. CaiT:Facebook提出高性能深度ViT结构 | ICCV 2021

    CaiT通过LayerScale层来保证深度ViT训练的稳定性,加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能,值得看看 来源:晓飞的算法工程笔记 公众号 论文: ...

  4. 软件设计 软件设计模式之SOLID原则

    软件设计模式之SOLID原则 By:授客 QQ:1033553122 #单一职责原则(SRP) 定义:任何一个软件模块都只对某一类行为者负责 说明:这里"软件模块",在大部分情况下 ...

  5. C++如何在main函数开始之前(或结束之后)执行一段逻辑?

    1. 问题 2. 考察的要点 3. 解决策略 3.1. 方案一:使用GCC的拓展功能 3.2. 方案二:使用全局变量 3.3. 方案三:atexit 4. Demo测试 4.1. 测试代码 4.2. ...

  6. CFileViewer(文件浏览器)

    1 #pragma once 2 #include <afxwin.h> 3 #include <afxtempl.h> 4 5 class CFileViewer : pub ...

  7. 深入探讨Spring Boot中的参数传递

    深入探讨Spring Boot中的参数传递 在Spring Boot开发中,参数传递是一个非常常见且重要的操作.无论是处理HTTP请求,还是在方法之间传递数据,理解和掌握参数传递的各种方式都能让我们的 ...

  8. Linux podman容器实验

    要求 1.登录到指定的镜像仓库拉取镜像 2.以普通用户contsvc运行 3.配置 systemd-journald 服务,要求永久保留日志数据(物理机,创建文件mkdir /var/log/jour ...

  9. 通过程序名称kill掉所有的进程

    通过程序名称kill掉所有的进程 今天差点把服务器搞崩了. 脚本的循环条件有问题,结果起了无数的nslookup,用pkill杀不掉,只能用kill一个个解决,服务器还被搞得慢得要命. 还好又黄队长, ...

  10. 【JDBC】自定义事务注解实现

    参考自: https://blog.csdn.net/qq_28986619/article/details/94451889 数据源选型,我采用的是C3P0,下面是需要的依赖: <?xml v ...