PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
近期,2023年中国模式识别与计算机视觉大会(PRCV)在厦门成功举行。大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办,是国内模式识别和计算机视觉领域的学术盛会。
本次大会通过聚焦中国模式识别与计算机视觉领域的最新理论和技术成果解读、分享,进一步加强产学研领域的学术交流和技术碰撞,促进模式识别与计算机视觉领域的协同合作与融合创新。大会邀请了徐宗本院士、张艳宁教授、李树涛教授、黄铁军教授、胡事民教授作主旨报告;参会人员包括来自清华大学、厦门大学、浙江大学、华中科技大学等高校的科研工作者,以及腾讯、美团、合合信息等科技企业的技术专家。
智能文档处理技术是学术界重点关注的领域,而随着信息渠道的多样化发展,异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点,天然具备多模态属性。在《视言碰撞:语言模型与视觉生态协同论坛》上,合合信息图像算法研发总监郭丰俊博士就文档图像前沿技术热点话题进行了分享。郭丰俊表示,多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。

合合信息图像算法研发总监郭丰俊博士进行《文档图像前沿技术探索——多模态及图像安全》主题分享
“从目前评测的情况来看,已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到,合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究,并在数据高效利用及垂直领域识别项目中取得了阶段性成果。
大模型技术的突破让生成式AI拥有了更广泛的落地空间,也让图片伪造的门槛变得更低,给了不法分子可乘之机。大会现场,郭丰俊对合合信息在AI图像安全方面的工作进行了分享。据介绍,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,图像篡改检测技术不仅能够应用于自然场景,还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假,合合信息基于空域与频域关系建模,利用多维度特征来分辨真实图片和生成式图片的细微差异,判断图片是否由AI生成。
今年8月,合合信息获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案已在银行、证券、保险多个场景中应用。
“目前,图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战,不断提升检测系统的鲁棒性和泛化能力,是学术界与企业界需要深入合作的重要方向。”郭丰俊表示,合合信息已联合中国信通院,发起了《文本图像篡改检测系统技术规范》标准制定,希望持续推动AI技术在图像安全领域的广泛应用,带给用户更加安全、高效的工作和生活体验。
PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术的更多相关文章
- java生态下的后端开发都有哪些技术栈?
前言 我08年毕业,那时(2003-2010)C#还比较时髦的,大学跟着老师进修的,毕业后就从事winform窗体应用程序开发.慢慢的web网站兴起,就转到aps.net开发,再到后来就上了另一艘船( ...
- PCL—低层次视觉—点云分割(邻近信息)
分割给人最直观的影响大概就是邻居和我不一样.比如某条界线这边是中华文明,界线那边是西方文,最简单的分割方式就是在边界上找些居民问:"小伙子,你到底能不能上油管啊?”.然后把能上油管的居民坐标 ...
- 分布式协同AI基准测试项目Ianvs:工业场景提升5倍研发效率
摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...
- KubeEdge SIG AI发布首个分布式协同AI Benchmark调研
摘要:AI Benchmark旨在衡量AI模型的性能和效能. 本文分享自华为云社区<KubeEdge SIG AI发布首个分布式协同AI Benchmark调研>,作者:KubeEdge ...
- 大数据与 AI 生态中的开源技术总结
本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...
- Modelarts与无感识别技术生态总结(浅出版)
[摘要] Modelarts技术及相关产业已成为未来AI与大数据重点发展行业模式之一,为了促进人工智能领域科学技术快速发展,modelarts现状及生态前景成为研究热点.笔者首先总结modelarts ...
- 【转】Unity中的协同程序-使用Promise进行封装(一)
原文:http://gad.qq.com/program/translateview/7170767 译者:陈敬凤(nunu) 审校:王磊(未来的未来) 每个Unity的开发者应该都对协同程序非 ...
- 蚂蚁金服mPaaS 3.0发布 助力客户智能化构建超级App生态
1月4日,蚂蚁金融科技宣布蚂蚁金服移动开发平台mPaaS(mobile Platform-as-a-Service)升级到3.0版本,“新版本以智能技术助力客户构建自己的超级 App,企业可以拥有等同 ...
- [转]语言模型训练工具SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现 ...
- Marr的视觉计算理论
Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学.神经生理学.临床神经病理学等方面已取得的所有重要成果,是迄今为止最为系统的视觉理论.Marr 的视觉计算理论虽然在细节甚 ...
随机推荐
- SMOTE与SMOGN算法R语言代码
本文介绍基于R语言中的UBL包,读取.csv格式的Excel表格文件,实现SMOTE算法与SMOGN算法,对机器学习.深度学习回归中,训练数据集不平衡的情况加以解决的具体方法. 在之前的文章S ...
- 第四章:springboot整合mybatis
1,引入mybatis依赖 <dependency> <groupId>org.mybatis.spring.boot</groupId> <artifact ...
- Django template层之json报文遍历总结
Django template层之json报文遍历总结 by:授客 QQ:1033553122 测试环境 Win7 Django 1.11 实例 Views.py def home(request): ...
- 题解:P10537 [APIO2024] 九月
题解:P10537 [APIO2024] 九月 题意 在一个树上,在 \(k\) 天内有 \(n-1\) 个节点掉落,会有 \(m\) 个记录者记录掉落的情况,每一天每一个人会以任意的顺序记录当天的掉 ...
- java中使用jdbc连接数据库操作
先贴代码,在做说明 import java.sql.*; import java.util.ArrayList; import java.util.List; public class Conn { ...
- 再读vue
app.vue是项目的主组件,页面的入口文件 main.js是项目的入口文件 vue.config.js是vue-cli的配置文件//用这个配置代理,端口号 例如 const { defineConf ...
- ceph 001 存储类型 传统存储与分布式存储 分布式文件系统 集群与分布式
ceph 存储类型 块存储:裸磁盘 未被格式化的磁盘 DAS(直连存储,usb,硬盘插到电脑):scsi接口 接口数量有限 传输距离有限 SAN(存储区域网络):ip-san 网络(iscsi) 以太 ...
- 一键导入抓包数据生成HTTP请求
Jmeter一键导入抓包数据生成HTTP请求.路径:工具->Import from cURL 在弹框里粘贴cURL,点击"Create Test Plan"会自动生成HTTP ...
- 【Tycoon City New York】城市梦想家: 纽约 作弊键说明
这游戏是自带快捷键作弊功能的 [Ctrl] + [Alt] + A 加10,000人口 [Ctrl] + [Alt] + C 加$1,000,000资金 [Ctrl] + [Alt] + B 加100 ...
- 【微信小程序】 自定义组件
创建微信小程序组件 在小程序中创建组件: 1.项目根目录中创建[components]目录,存放自定义组件 2.进入components目录,给组件创建一个组件目录 3.右键组件目录,选择[创建Com ...