PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术

近期,2023年中国模式识别与计算机视觉大会(PRCV)在厦门成功举行。大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,多媒体可信感知与高效计算教育部重点实验室、厦门大学人工智能研究院、厦门大学信息学院承办,是国内模式识别和计算机视觉领域的学术盛会。

本次大会通过聚焦中国模式识别与计算机视觉领域的最新理论和技术成果解读、分享,进一步加强产学研领域的学术交流和技术碰撞,促进模式识别与计算机视觉领域的协同合作与融合创新。大会邀请了徐宗本院士、张艳宁教授、李树涛教授、黄铁军教授、胡事民教授作主旨报告;参会人员包括来自清华大学、厦门大学、浙江大学、华中科技大学等高校的科研工作者,以及腾讯、美团、合合信息等科技企业的技术专家。

智能文档处理技术是学术界重点关注的领域,而随着信息渠道的多样化发展,异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点,天然具备多模态属性。在《视言碰撞:语言模型与视觉生态协同论坛》上,合合信息图像算法研发总监郭丰俊博士就文档图像前沿技术热点话题进行了分享。郭丰俊表示,多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。

合合信息图像算法研发总监郭丰俊博士进行《文档图像前沿技术探索——多模态及图像安全》主题分享

“从目前评测的情况来看,已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到,合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究,并在数据高效利用及垂直领域识别项目中取得了阶段性成果。

大模型技术的突破让生成式AI拥有了更广泛的落地空间,也让图片伪造的门槛变得更低,给了不法分子可乘之机。大会现场,郭丰俊对合合信息在AI图像安全方面的工作进行了分享。据介绍,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,图像篡改检测技术不仅能够应用于自然场景,还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假,合合信息基于空域与频域关系建模,利用多维度特征来分辨真实图片和生成式图片的细微差异,判断图片是否由AI生成。

今年8月,合合信息获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案已在银行、证券、保险多个场景中应用。

“目前,图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战,不断提升检测系统的鲁棒性和泛化能力,是学术界与企业界需要深入合作的重要方向。”郭丰俊表示,合合信息已联合中国信通院,发起了《文本图像篡改检测系统技术规范》标准制定,希望持续推动AI技术在图像安全领域的广泛应用,带给用户更加安全、高效的工作和生活体验。

PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术的更多相关文章

  1. java生态下的后端开发都有哪些技术栈?

    前言 我08年毕业,那时(2003-2010)C#还比较时髦的,大学跟着老师进修的,毕业后就从事winform窗体应用程序开发.慢慢的web网站兴起,就转到aps.net开发,再到后来就上了另一艘船( ...

  2. PCL—低层次视觉—点云分割(邻近信息)

    分割给人最直观的影响大概就是邻居和我不一样.比如某条界线这边是中华文明,界线那边是西方文,最简单的分割方式就是在边界上找些居民问:"小伙子,你到底能不能上油管啊?”.然后把能上油管的居民坐标 ...

  3. 分布式协同AI基准测试项目Ianvs:工业场景提升5倍研发效率

    摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...

  4. KubeEdge SIG AI发布首个分布式协同AI Benchmark调研

    摘要:AI Benchmark旨在衡量AI模型的性能和效能. 本文分享自华为云社区<KubeEdge SIG AI发布首个分布式协同AI Benchmark调研>,作者:KubeEdge ...

  5. 大数据与 AI 生态中的开源技术总结

    本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...

  6. Modelarts与无感识别技术生态总结(浅出版)

    [摘要] Modelarts技术及相关产业已成为未来AI与大数据重点发展行业模式之一,为了促进人工智能领域科学技术快速发展,modelarts现状及生态前景成为研究热点.笔者首先总结modelarts ...

  7. 【转】Unity中的协同程序-使用Promise进行封装(一)

    原文:http://gad.qq.com/program/translateview/7170767 译者:陈敬凤(nunu)    审校:王磊(未来的未来) 每个Unity的开发者应该都对协同程序非 ...

  8. 蚂蚁金服mPaaS 3.0发布 助力客户智能化构建超级App生态

    1月4日,蚂蚁金融科技宣布蚂蚁金服移动开发平台mPaaS(mobile Platform-as-a-Service)升级到3.0版本,“新版本以智能技术助力客户构建自己的超级 App,企业可以拥有等同 ...

  9. [转]语言模型训练工具SRILM

    SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现 ...

  10. Marr的视觉计算理论

            Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学.神经生理学.临床神经病理学等方面已取得的所有重要成果,是迄今为止最为系统的视觉理论.Marr 的视觉计算理论虽然在细节甚 ...

随机推荐

  1. move语义和完美转发

    move语义 值类别(value category)如下: lvalue:左值,在内存中有地址,可被程序员访问,可以放在赋值运算符左侧,也可以放在赋值运算符右侧,常见的左值有普通变量.字符串字面值&q ...

  2. DSCL:已开源,北京大学提出解耦对比损失 | AAAI 2024

    监督对比损失(SCL)在视觉表征学习中很流行.但在长尾识别场景中,由于每类样本数量不平衡,对两类正样本进行同等对待会导致类内距离的优化出现偏差.此外,SCL忽略了负样本之间的相似关系的语义线索.为了提 ...

  3. fasterWhisper和MoneyPrinterPlus无缝集成

    MoneyPrinterPlus之前使用的是各种云厂商的语音识别服务来进行语音的视频和字幕的识别工作. 但是很多小伙伴说云服务用不起. 那么没办法,MoneyPrinterPlus上线最新版本,支持f ...

  4. Vue入门记录(一)

    效果 本文为实现如下前端效果的学习实践记录: 实践 入门的最佳实践我觉得是先去看官网,官网一般都会有快速入门指引. 根据官网的快速上手文档,构建一个新的Vue3+TypeScript,查看新建的项目结 ...

  5. 2023/4/14 SCRUM个人博客

    1.我昨天的任务 初步了解项目的整体框架,并对接下来的人脸识别库以及组件有基本了解和安装 2.遇到了什么困难 ------------ 3.我今天的任务 获得了人脸识别作弊检测和绘制界面的分工,准备先 ...

  6. 【ElasticSearch】04 Spring-Data-ElasticSearch

    官方网站: https://spring.io/projects/spring-data-elasticsearch 对应 Elasticsearch7.6.2,Spring boot2.3.x 一般 ...

  7. 【微信小程序】 分包

    1. 什么是分包 分包指的是把一-个完整的小程序项目,按照需求划分为不同的子包, 在构建时打包成不同的分包,用户在使用时按需进行加载. 2. 分包的好处 对小程序进行分包的好处主要有以下两点: ● 可 ...

  8. 个人的谷歌学术主页:https://scholar.google.co.kr/citations?user=jHvm-VAAAAAJ&hl=en

    主页地址: https://scholar.google.co.kr/citations?user=jHvm-VAAAAAJ&hl=en

  9. 网络问题解决:Ubuntu连接局域网中Windows主机上的v2r报错:rejected core/proxy/socks: unknown Socks version: 67

    参考: https://github.com/2dust/v2rayN/issues/3916 https://www.eolink.com/news/post/30941.html ======== ...

  10. AQS源码深度解析之cancelAcquire方法解读

    1.背景 2.源码解读 调用该方法的地方 方法源码解读 /** * 取消获取资源(异常处理时都需要用到) * 方法主要功能: * 1.处理当前取消节点的状态: * 2.将当前取消节点的前置非取消节点和 ...