中电金信多模态鉴伪技术抵御AI造假威胁
AI换脸技术,属于深度伪造最常见方式之一,是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法,可以将一个人的面部特征映射到另一个人的面部,创造出看似真实的伪造内容。近年来,以AI换脸为代表的AIGC技术被用于诈骗活动呈显著增长趋势,给金融行业带来了巨大的安全风险。
注:图左为AI分身
如上述画面,领英创始人里德·霍夫曼用LLM创建了自己的AI分身,并接受了其AI分身的采访,整场采访的效果极为逼真,难辨真假。
而在近期,GitHub上的一个名为Deep-Live-Cam的项目爆火,更让人感受到AI技术的出神入化。通过这款工具随意使用一张他人的照片,就能实现在直播流中的实时换脸。
国外网友(图右)使用了一张埃隆·马斯克的照片映射在自己脸上,即使在昏暗的灯光下表情也很生动。
目前,Deep-Live-Cam完全开源,对于很多网友来说是多了一个娱乐或者研究项目,但是对于不法分子来说,他们伪造欺诈的手段也会“更上一层楼”!
新型金融诈骗重灾区:AI换脸拟声
近年来,以身份验证环节的人脸识别安全为例,AI换脸诈骗作为一种新兴的“AIGC”诈骗攻击手段,已经对金融业务安全构成了严重威胁,同时,通过换脸伪装成亲友,以紧急情况为由借钱,让受害者在毫无防备的情况下遭受资金损失的案例也很多,比如:
01
对于不法分子来说,最关键的是破解线上银行的人脸核验系统。要突破人脸验证,还必须经历金融机构风控的多个环节,比如验证码、密码等环节攻破,这也意味着整个线上验证系统都会经历不同程度的攻击。而一旦进入人脸核验环节,不法分子便可通过表情、实时换脸等驱动让照片做出“张嘴、眨眼、点头、摇头”等指令性动作,再让智能设备不启动摄像头,直接底层注入合成的动态人脸视频,绕过动作等活体检测,便可顺利破解人脸识别。不法分子在掌握用户个人信息后便可轻易实施银行卡盗转盗刷,或者是引诱转账、实施敲诈等作案行为。
02
伪造他人身份通话、视频,骗取转账。不法分子首先会通过各种公开的渠道获取受害人的个人肖像或视频,然后利用AI技术,对这些照片中的面容特征进行学习,从而模仿眨眼、摇头等动作,实现以假乱真的效果,然后在微信等即时通信或者社交软件上伪装成他人,以紧急情况为由借钱,开展相应的金融诈骗活动,而受害人在视频通话中看到了熟悉的亲友样貌,打消了顾虑,向对方发起转账汇款等行为,最终造成经济损失。
多模态智能鉴伪AI造假
随着图像、视频、音频等媒体伪造所造成的威胁不断增长,许多检测方法已经出现。早期的伪造检测方法主要关注单个模态,如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快,但场景泛化性能有限,无法同时检测多个模态的真伪。为了解决上述问题,多模态鉴伪方法应用而生。现有的多模态鉴伪方法仅在小样本数据集上进行训练,并且忽略了身份信息,难以得到泛化性能较好的模型。为了提升鉴伪模型的泛化能力,中电金信联合复旦大学提出了参照辅助的多模态鉴伪方法,相关论文已被多媒体领域顶级国际会议ACM MultiMedia 2024接收,并将在该大会上进行口头报告(Oral 接收率仅3.97%)。
核心技术介绍
R-MFDN方法创新性地利用丰富的身份信息,挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成,多模态特征提取模块、特征信息融合模块和伪造鉴别模块。多模态特征提取模块包含视频编码部分和音频编码部分。视频编码部分通过ResNet实现。对于输入的视频帧序列,模型从该序列等步长地采样4个分组,每个分组中包含连续的4帧。对于采样的16帧,模型使用ResNet提取对应的图像级特征。然后每个分组的特征通过时序Transformer模型得到一个分组级特征。最后通过对4个分组级特征进行平均池化得到视觉特征。音频编码部分使用音频频谱图Transformer提取音频的高级特征。然后,这些特征作为特征信息融合模块的输入。在特征信息融合模块中,视觉特征先经过自注意力层处理,然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中,进行类别判断。
为了监督R-MFDN模型的训练,我们使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配,从而使特征学习过程能够在特征空间中对齐不同模态的信息。具体而言,源于同一个视频的不同模态特征被视作正样本对,不同源的则被视作负样本对。正样本对的特征应该尽可能接近,负样本对则应该疏远。此外在匹配过程中,涉及伪造信息的匹配亦对被视为负样本对,以增强特征学习过程对伪造的敏感性。这不仅提升了模型的判别能力,还使其在现实世界的多模态深度伪造场景中实现更准确的检测。第三个损失函数是身份驱动的对比学习损失函数,旨在使相同身份的相同模态特征尽可能靠近,而不同身份的特征则尽量远离。尽管训练与测试数据中每个身份涉及多个视频和场景,表现形式各异,鉴伪模型仍能学习到身份敏感的特征,从而在AI换脸拟声等身份伪造场景中具备更强的鉴别能力。
此外, 由于多模态伪造视频鉴别领域目前没有大规模高质量的开源数据集,研究团队还构建了一个高质量的AI换脸拟声数据集——IDForge。该数据集包含针对54位名人讲话的249,138个视频片段,其中包括169,311个伪造视频片段,模拟了当下文本、音频和视频多模态的全方位伪造。文本伪造使用大语言模型和文本替换策略生成语义不同但风格相似的新句子,以模拟大语言模型被滥用传播虚假信息的情境。音频伪造使用了TorToiSe、RVC和音频替换策略生成与说话人声音相似的新音频片段,并通过随机替换相同性别的音频来制造伪造效果。视频伪造采用了社区和学界大量采用的ROOP、SimSwap和InfoSwap三种换脸方法,并使用高分辨率版本的Wav2Lip模型进行口型同步,以确保伪造视频的高质量和自然性。与现有数据集不同,IDForge还提供了一个额外的参考数据集,该数据集包含214,438个真实视频片段。这些片段来自另外926个完整的YouTube视频,作为每位说话人的身份先验信息。这一设计的出发点是,当观众面对可能存在伪造迹象的视频时,通常会凭借记忆中对该说话人的印象或对照已有的音视频,以判断视频的真实性。因此,研究团队额外提供了参考数据集部分,作为检测网络中可用的先验信息。先前的身份信息检测方法由于缺乏类似设计的数据集,受到了诸多限制。数据集目前已在Github上开源
https://github.com/xyyandxyy/IDForge.
研究团队通过在提出的权威评测数据集IDForge的大量实验,证明了R-MFDN在多媒体检测任务上的有效性。
注:R-MFDN的性能在每个评估指标上都取得了最好的成绩,实现了92.90%的高准确率,分别比RealForensics、VFD、CDCN、RawNet2高出了3.72%, 6.69%, 13.02%,和13.69%。
基于此项技术,中电金信推出了多模态深度伪造检测产品,通过先进的多模态内容理解与对齐技术,预测图像、音频、视频真实采集的置信度,鉴别 Al 生成内容,防范身份盗用、侵权欺诈等风险,可广泛应用在金融身份认证、视频会议核身认证、网络视频电话防欺诈等场景。目前,双模态篡改检出率已达到99.9%以上,单模态篡改检出率达到96%以上。
如上图,回到开头领英创始人里德·霍夫曼的AI分身视频,以此为素材,通过中电金信的多模态深度伪造检测能够对真伪视频立马见分晓。
利用AI换脸视频或合成声音来实施诈骗的确让人防不胜防,有关部门也正在积极开发相关的反制技术和手段。比如,《互联网信息服务深度合成管理规定》提出了算法备案、安全评估的手段,要求深度合成服务提供者对深度合成的内容添加显式或隐式水印。与此同时,也要加强对个人隐私的保护,不轻易提供人脸、指纹等个人生物信息给他人。
中电金信多模态鉴伪技术抵御AI造假威胁的更多相关文章
- 测者的测试技术手册:AI的自动化单元测试
测者的测试技术手册:AI的自动化单元测试 谈新技术:AI的自动化单元测试
- 初识-Android之智能短信项目相关技术整理
标签页切换采用传统的TabHost: 采用TabActivty实现TabHost. 效果图-后补: 相关技术详解推荐: http://blog.csdn.net/zhouli_05/article/d ...
- 用百度大脑技术让AI做回新闻主播!
实现效果: 利用百度新闻摘要能力和微信小程序,快速抽取新闻摘要内容并进行语音播报,让AI做回新闻主播!本文主要介绍小程序功能开发实现过程,分享主要功能实现的子程序模块,都是干货哦!! 想了解pytho ...
- 使用Azure Congnitive Services 技术制作AI故事机
引言 前一段时间有幸参加了微软MVP的AI方面的学习挑战赛,对于AI 这个新的领域的技术瞬间勾起了我的学习兴趣. 最近几年,不管是国内还是国外,AI都是一个异常火热的词.比如现在的自动驾驶技术,其实就 ...
- LeetCode--383--赎金信
问题描述: 给定一个赎金信 (ransom) 字符串和一个杂志(magazine)字符串,判断第一个字符串ransom能不能由第二个字符串magazines里面的字符构成.如果可以构成,返回 true ...
- C#LeetCode刷题之#383-赎金信(Ransom Note)
问题 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3937 访问. 给定一个赎金信 (ransom) 字符串和一个杂志 ...
- 肖sir_ 杭州_阿里和蚂蚁和菜鸟和支付宝面试题集锦
2023-2-7 支付宝蚂蚁保险-第3面1.自我介绍2.你会Java是吧,有用过spring框架开发过工具吗3.那你用Java来干嘛的?做接口自动化用了哪些库和插件,除了testng还用了什么单元测试 ...
- 蚂蚁金服首席数据科学家漆远:AI技术开放,与业界融合共创
小蚂蚁说: 11月8日,在第五届世界互联网大会-<人工智能:融合发展新机遇>论坛上,蚂蚁金服副总裁.首席数据科学家漆远认为AI具有控制风险.降本增效和提升用户体验三大作用. 11月8日,第 ...
- 独家 | 蚂蚁金服TRaaS技术风险防控平台解密
小蚂蚁说: 在金融行业,风险防控能力的重要性不言而喻.而蚂蚁金服可实现高达99.999%的异地多活容灾,千亿级资金秒级实时核对“账.证.实”等能力也让业界有目共睹. 今年位于杭州的蚂蚁金服ATEC科技 ...
- 胡喜:从 BASIC 到 basic ,蚂蚁金服技术要解决两个基本的计算问题
摘要: 揭开 BASIC College 神秘面纱,蚂蚁金服首次揭秘人才培养机制. 导读:5 月 6 日,蚂蚁金服副 CTO 胡喜在 2019 年 QCon 上做了<蚂蚁金服十五年技术架构演进之 ...
随机推荐
- 能用到“退休”的 600条 Linux 命令,可以解决日常99%的问题~
1.基本命令 uname -m 显示机器的处理器架构 uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 (SMBIOS / DMI) hdparm -i /dev/ ...
- Android usb广播 ACTION_USB_DEVICE_ATTACHED流程源码分析
整体流程图 大概意思就是UsbHostManager启动监控线程,monitorUsbHostBus会调用usb_host_run函数(使用inotify来监听USB设备的插拔)不停的读取bus总线, ...
- 干货必收藏!墨天轮最受DBA欢迎的250份学习文档合集
作为一个DBA,必须要精通SQL命令.各种数据库架构.数据库管理和维护.数据库调优,必要的时候,还需要为开发人员搭建一个健壮.结构良好.性能稳定的数据库环境. 技术也是不断进步的,社会的发展要求DBA ...
- 轨道控制器 threejs
就是一个可以360转动的相机,通过不断的改变相机的参数 然后渲染达到效果. // 引入相机控件 -- 轨道控制器 // console.log('OrbitControls',OrbitContro ...
- Android复习(三)清单文件中的元素——> activity
转自: https://developer.android.google.cn/guide/topics/manifest/activity-element <activity> 语法: ...
- (系列六).net8 全局异常捕获机制
说明 该文章是属于OverallAuth2.0系列文章,每周更新一篇该系列文章(从0到1完成系统开发). 该系统文章,我会尽量说的非常详细,做到不管新手.老手都能看懂. 说明:OverallAuth2 ...
- 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-3-启动浏览器(详细教程)
1.简介 通过前边两篇文章跟随宏哥学习想必到这里已经将环境搭建好了,今天就在Java项目搭建环境中简单地实践一下: 启动两大浏览器.按市场份额来说,全球前三大浏览器是:IE.Firefox.Chrom ...
- .NET 隐藏/自定义windows系统光标
本文介绍如何操作windows系统光标.正常我们设置/隐藏光标,只能改变当前窗体或者控件范围,无法全局操作windows光标.接到一个需求,想隐藏windows全局的鼠标光标显示,下面讲下如何操作 先 ...
- AWS服务 简介
1 Amazon Elastic Compute Cloud (Amazon EC2) 是一种提供可调节计算容量的 Web 服务 – 简单来说,就是 Amazon 数据中心里的服务器 – 您可以使用它 ...
- Machine Learning Week_1 Model and Cost Function 1-4
目录 2 Model and Cost Function 2.1 Video: Model Representation unfamiliar words 2.2 Reading: Model Rep ...