祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking
从LLMs到MLLMs:探索多模态越狱攻击的前景
禁止盗用,侵权必究!!!欢迎大家积极举报



①脆弱性代表:越狱攻击(恶意指令/训练&解码干预)。
②最近的越狱攻击:
整体说:构建越来越复杂场景的评估基准,提出先进的攻击方法和相应的防御策略。
攻击类:探索不同领域&不同任务格式中各种类型的伤害的越狱数据集;调查越狱提示、微调和解码的各种机制。
防御类:有害查询的预检测;有害输出的后处理;通过SFT或RLHF实施的安全对齐增强LLMs对对抗性攻击的抵抗力。

与对LLMs越狱攻击和防御的广泛研究相比,MLLMs越狱仍处于探索阶段。








碎碎念:增强的指令遵循能力增加了双重用途风险,使这些模型容易滥用。
"长尾"领域(Long-tail Domains):通常指的是在数据分布中,那些出现频率非常低但种类繁多的数据类别。在机器学习和人工智能领域,"长尾"领域指的是那些在训练数据中不常见或被低估的类别或场景。这些领域可能因为数据稀缺、多样性不足或缺乏关注而难以被模型充分学习和泛化。eg.自然语言处理中,可能包括罕见的语言、方言或特定领域的专业术语。在多模态大型语言模型(MLLMs)中,可能涉及不常见的图像类型或与图像相关的特定任务。
碎碎念:
不匹配的泛化案例:例如,将指令编码为Base64,将每个数据字节转换为三个文本字符,可以使LMs混淆,从而偏离安全指导方针并产生不期望的输出。



















“影响了有害查询的识别和过滤”我感觉是这样的,因为目前有研究表明,LLM只会检查输出是否合规,而LLM在输出中有复述输入的趋势。
“增加了生成有害响应的可能性”因为不会阻断有害响应生成,所以生成有害内容的可能性也增加了。










“基于图像的域转移”(Image-based Domain Transfer) 是一种攻击策略,它涉及到将图像从一个领域(或上下文)转移到另一个领域,以绕过或干扰模型的安全机制。
领域 的理解:在机器学习和人工智能中,领域(Domain)指的是数据的来源或类型,上下文(Context)指的是数据出现的环境或场景。例如,一个模型可能在一个领域(如医疗图像)上训练得很好,但在另一个领域(如交通监控图像)上可能就不太有效。
域转移的动机: 攻击者可能会尝试将图像从一个领域转移到另一个领域,以测试或绕过模型的安全限制。例如,一个在安全领域(如文本处理)训练有素的模型可能没有针对特定类型的图像内容(如恶意图像)建立足够的防御机制。
扩散模型(Diffusion Models) 是一类生成模型,它们通过模拟一个过程,在这个过程中,数据的某些特征逐渐被噪声“扩散”或覆盖,然后学习如何逆转这一过程来生成数据。这种模型最近在生成图像、音频和其他类型的数据方面取得了显著的进展。

检索增强生成(Retrieval-Augmented Generation)
检索增强生成是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。这种方法的核心思想是利用检索系统从大量数据中找到与当前任务相关的信息,然后将这些信息用于生成模型,以产生更加准确和丰富的输出。
基于多模态输入的工具使用场景
基于多模态输入的工具使用场景涉及到处理和分析和整合多种类型的数据(如文本、图像、声音等)的应用。在这些场景中,系统需要理解和处理不同类型的输入,以提供更加丰富和有效的输出。











祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking的更多相关文章
- 圣诞快乐!OIer挂分小技巧
OIer常犯错误 自己的错误 循环里套return 线段树求和 int 定义,下传 int 定义 cmp<,>号分不清 主观行为举动错误 踢电源线,注意安全(_Destiny) TLE 大 ...
- java时间处理,获取当前时间的小时,天,本周周几,本周周一的日期,本月一号的日期
1.时间转时间戳 public static long strToTimestamp(String dateTimeStr) throws Exception { Timestamp time = T ...
- java版的下雪,大家圣诞快乐
1. [代码][Java]代码 package com.yk.tools.game; import java.applet.AudioClip;import java.awt.Dimension ...
- 自己动手,实现一种类似List<T>的数据结构(二)
前言: 首先,小匹夫要祝各位看官圣诞快乐,新年愉快-.上一篇文章<自己动手,实现一种类似List<T>的数据结构(一)> 介绍了一下不依靠List<T>实现的各种接 ...
- Sqlserver语句获取本周、上一周、本月数据
sql语句获取本周.上一周.本月数据 获取周数据 1 本周 2 select * from table1 where datediff(week,时间字段,getdate()) = 0 3 上周 4 ...
- MySQL查询今天/本周/上周/本月/上个月份的数据
MySQL查询的方式很多,下面为您介绍的MySQL查询实现的是查询本周.上周.本月.上个月份的数据,如果您对MySQL查询方面感兴趣的话,不妨一看. 查询当前今天的数据 SELECT name,sub ...
- 第23/24周 临时数据库(TempDb)
在今天的性能调优培训里我们讨论下TempDb——SQL Server的公共厕所,在SQL Server里我是这样描述它的.我们的每个人都会经常使用TempDb.有些人直接使用它,有些人不直接使用它.今 ...
- JavaEDU614 团队第三周项目总结
JavaEDU614 团队第三周项目总结 本周,根据项目计划完成模块的设计代码 本项目主要是完成俄罗斯方块的基本操作.用户可以自己练习和娱乐.需要满足以下几点要求. (1)界面控制游戏开始.暂停和结束 ...
- 201521123014 java第一周总结
201521123014 java第一周总结 1.本周学习总结 刚认识这一门新语言,我就充满了好奇心,想看看Java和学过C语言,C++有什么区别.在这一周的学习中,我认识到,对于初学者而言,Java ...
- 学习HTML5的第二周
---恢复内容开始--- 这是我学习H5的第二周,在本周,我独立完成了一个网站的首页和一个二级页,虽然在做网页的时候我遇到了许多问题,但我自己想办法解决了其中的大部分,只留下了一小部分没有头绪的问题等 ...
随机推荐
- day16-break,continue,goto
break,continue,goto break在任何循环语句的主体部分,均可用break控制循环的流程.break用于强行退出循环,不执行循环中剩余的语句.(break语句也在switch选择语句 ...
- 在 openEuler 22.03 上安装 KubeSphere 实战教程
作者:老 Z,中电信数智科技有限公司山东分公司运维架构师,云原生爱好者,目前专注于云原生运维,云原生领域技术栈涉及 Kubernetes.KubeSphere.DevOps.OpenStack.Ans ...
- IO体系
IO,即in和out,也就是输入和输出,指应用程序和外部设备之间的数据传递,常见的外部设备包括文件.管道.网络连接. Java 中是通过流处理IO 的,那么什么是流? 流(Stream),是一个抽象的 ...
- [图像处理] 基于CleanVision库清洗图像数据集
CleanVision是一个开源的Python库,旨在帮助用户自动检测图像数据集中可能影响机器学习项目的常见问题.该库被设计为计算机视觉项目的初步工具,以便在应用机器学习之前发现并解决数据集中的问题. ...
- 关于sizeof、strlen的理解与辨析以及strlen的模拟实现
关于sizeof.strlen的理解与辨析以及strlen的模拟实现 1. sizeof() sizeof的作用: 计算变量所占内存内存空间大小,单位是字节. 注意事项: ① 首先要明确的一点是:si ...
- DRF-Version组件源码分析
1. 版本管理组件源码分析 注意点: 不同的versioning_class区别:实例化后得到的对象versioning_scheme里面的方法不同(函数同名,但是处理逻辑不同) def determ ...
- CommonsBeanUtils1(基于ysoserial)
环境准备 JDK1.8(8u421) JDK8的版本应该都没什么影响,这里直接以我的镜像为准了.commons-beanutils:commons-beanutils:1.9.2.commons-co ...
- 数字IC知识点:处理多个时钟
1. 多时钟域 图1.多时钟域 对于工程师来说,开发含多个时钟(见图1)的设计是一种挑战. 这样的设计中可能有以下任何一个,或者全部类型的时钟关系: 时钟的频率不同 时钟频率相同,但相位不同 以上两种 ...
- Java Collections Framework的Fail Fast机制及代码导读
本文章主要抽取了Java Collections Framework中的Collection接口.List接口.AbstractCollection抽象类.AbstractList抽象类和具体的Arr ...
- pve 下的群晖虚拟机硬盘空间扩容的记录
pve下,105号群晖虚拟机,btrfs系统,sata硬盘. 虚拟机容量硬盘130G,扩展至140G,还需要命令行和网页存储管理器界面操作,以实现扩容的目的. df -h Filesystem Siz ...