祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking
从LLMs到MLLMs:探索多模态越狱攻击的前景
禁止盗用,侵权必究!!!欢迎大家积极举报



①脆弱性代表:越狱攻击(恶意指令/训练&解码干预)。
②最近的越狱攻击:
整体说:构建越来越复杂场景的评估基准,提出先进的攻击方法和相应的防御策略。
攻击类:探索不同领域&不同任务格式中各种类型的伤害的越狱数据集;调查越狱提示、微调和解码的各种机制。
防御类:有害查询的预检测;有害输出的后处理;通过SFT或RLHF实施的安全对齐增强LLMs对对抗性攻击的抵抗力。

与对LLMs越狱攻击和防御的广泛研究相比,MLLMs越狱仍处于探索阶段。








碎碎念:增强的指令遵循能力增加了双重用途风险,使这些模型容易滥用。
"长尾"领域(Long-tail Domains):通常指的是在数据分布中,那些出现频率非常低但种类繁多的数据类别。在机器学习和人工智能领域,"长尾"领域指的是那些在训练数据中不常见或被低估的类别或场景。这些领域可能因为数据稀缺、多样性不足或缺乏关注而难以被模型充分学习和泛化。eg.自然语言处理中,可能包括罕见的语言、方言或特定领域的专业术语。在多模态大型语言模型(MLLMs)中,可能涉及不常见的图像类型或与图像相关的特定任务。
碎碎念:
不匹配的泛化案例:例如,将指令编码为Base64,将每个数据字节转换为三个文本字符,可以使LMs混淆,从而偏离安全指导方针并产生不期望的输出。



















“影响了有害查询的识别和过滤”我感觉是这样的,因为目前有研究表明,LLM只会检查输出是否合规,而LLM在输出中有复述输入的趋势。
“增加了生成有害响应的可能性”因为不会阻断有害响应生成,所以生成有害内容的可能性也增加了。










“基于图像的域转移”(Image-based Domain Transfer) 是一种攻击策略,它涉及到将图像从一个领域(或上下文)转移到另一个领域,以绕过或干扰模型的安全机制。
领域 的理解:在机器学习和人工智能中,领域(Domain)指的是数据的来源或类型,上下文(Context)指的是数据出现的环境或场景。例如,一个模型可能在一个领域(如医疗图像)上训练得很好,但在另一个领域(如交通监控图像)上可能就不太有效。
域转移的动机: 攻击者可能会尝试将图像从一个领域转移到另一个领域,以测试或绕过模型的安全限制。例如,一个在安全领域(如文本处理)训练有素的模型可能没有针对特定类型的图像内容(如恶意图像)建立足够的防御机制。
扩散模型(Diffusion Models) 是一类生成模型,它们通过模拟一个过程,在这个过程中,数据的某些特征逐渐被噪声“扩散”或覆盖,然后学习如何逆转这一过程来生成数据。这种模型最近在生成图像、音频和其他类型的数据方面取得了显著的进展。

检索增强生成(Retrieval-Augmented Generation)
检索增强生成是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。这种方法的核心思想是利用检索系统从大量数据中找到与当前任务相关的信息,然后将这些信息用于生成模型,以产生更加准确和丰富的输出。
基于多模态输入的工具使用场景
基于多模态输入的工具使用场景涉及到处理和分析和整合多种类型的数据(如文本、图像、声音等)的应用。在这些场景中,系统需要理解和处理不同类型的输入,以提供更加丰富和有效的输出。











祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking的更多相关文章
- 圣诞快乐!OIer挂分小技巧
OIer常犯错误 自己的错误 循环里套return 线段树求和 int 定义,下传 int 定义 cmp<,>号分不清 主观行为举动错误 踢电源线,注意安全(_Destiny) TLE 大 ...
- java时间处理,获取当前时间的小时,天,本周周几,本周周一的日期,本月一号的日期
1.时间转时间戳 public static long strToTimestamp(String dateTimeStr) throws Exception { Timestamp time = T ...
- java版的下雪,大家圣诞快乐
1. [代码][Java]代码 package com.yk.tools.game; import java.applet.AudioClip;import java.awt.Dimension ...
- 自己动手,实现一种类似List<T>的数据结构(二)
前言: 首先,小匹夫要祝各位看官圣诞快乐,新年愉快-.上一篇文章<自己动手,实现一种类似List<T>的数据结构(一)> 介绍了一下不依靠List<T>实现的各种接 ...
- Sqlserver语句获取本周、上一周、本月数据
sql语句获取本周.上一周.本月数据 获取周数据 1 本周 2 select * from table1 where datediff(week,时间字段,getdate()) = 0 3 上周 4 ...
- MySQL查询今天/本周/上周/本月/上个月份的数据
MySQL查询的方式很多,下面为您介绍的MySQL查询实现的是查询本周.上周.本月.上个月份的数据,如果您对MySQL查询方面感兴趣的话,不妨一看. 查询当前今天的数据 SELECT name,sub ...
- 第23/24周 临时数据库(TempDb)
在今天的性能调优培训里我们讨论下TempDb——SQL Server的公共厕所,在SQL Server里我是这样描述它的.我们的每个人都会经常使用TempDb.有些人直接使用它,有些人不直接使用它.今 ...
- JavaEDU614 团队第三周项目总结
JavaEDU614 团队第三周项目总结 本周,根据项目计划完成模块的设计代码 本项目主要是完成俄罗斯方块的基本操作.用户可以自己练习和娱乐.需要满足以下几点要求. (1)界面控制游戏开始.暂停和结束 ...
- 201521123014 java第一周总结
201521123014 java第一周总结 1.本周学习总结 刚认识这一门新语言,我就充满了好奇心,想看看Java和学过C语言,C++有什么区别.在这一周的学习中,我认识到,对于初学者而言,Java ...
- 学习HTML5的第二周
---恢复内容开始--- 这是我学习H5的第二周,在本周,我独立完成了一个网站的首页和一个二级页,虽然在做网页的时候我遇到了许多问题,但我自己想办法解决了其中的大部分,只留下了一小部分没有头绪的问题等 ...
随机推荐
- 云原生周刊:Gateway API 1.0.0 发布 | 2023.11.6
开源项目推荐 Kueue Kueue 是一套用于作业队列的 API 和控制器.它是作业级管理器,可决定何时允许作业启动(如创建 pod),何时停止作业(如删除活动 pod). Reloader 一个 ...
- 听说过Paas、Saas和Iaas,那你听说过Apaas吗?
互联网行业就喜欢搞一些单词的缩写,在云计算行业,前者有SaaS.PaaS.IaaS,最近两三年APaaS的概念又开始被关注.APaaS到底是什么意思,有什么用,与前三者的区别是什么?本文将对这些问题进 ...
- direasch目录扫描
direasch目录扫描工具 安装: 1.github源码下载解压 使用 git 安装:(推荐git clone https://github.com/maurosoria/dirsearch.git ...
- Next.js 实战开发入门 1 开发环境部署 - 曲速引擎 Warp Drive
开发目标 我们将构建一个简化版本的财务仪表板,其内容包括:公共主页.登录页面.受身份验证保护的仪表板页面.用户可以添加.编辑和删除发票 开发环境配置 开发客户端 Windows 10 (不限系统,兼容 ...
- 远程连接Docker服务
背景 本地开发了一个SpringBoot项目,想通过Docker部署起来,我本地是Window10系统,由于某些原因不能虚拟化并且未安装Docker-Desktop,所以我在想有没有办法本地不需要虚拟 ...
- 异步编程在ArkTS中具体怎么实现?
大家好,我是 V 哥,很好奇,在ArkTS中实现异步编程是怎样的,今天的内容来聊聊这个问题,总结了一些学习笔记,分享给大家,在 ArkTS中实现异步编程主要可以通过以下几种方式: 1. 使用async ...
- dotnet学习笔记-专题06-过滤器和中间件-01
1. 基本概念 在ASP.NET Core中,中间件和过滤器都是处理HTTP请求的重要组件,但它们在应用中的位置.作用范围以及使用方式有所不同. 1.1 中间件和过滤器的区别 1.1.1 中间件 位置 ...
- 淘宝长仁:JVM性能指标的理论极限和衡量方法(TaobaoJVM)
在2013年阿里巴巴集团主办的ADC•阿里技术嘉年华,这是一场专属于<互联网工程师>的"技术盛宴",倡导<干货分享>的大会上,51CTO记者有幸采访到了阿里 ...
- Java垃圾回收器总结
什么是Java垃圾回收器 Java垃圾回收器是Java虚拟机(JVM)的三个重要模块(另外两个是解释器和多线程机制)之一,为应用程序提供内存的自动分配(Memory Allocation).自动回收( ...
- 运维工具之saltstack
参考:https://www.cnblogs.com/xintiao-/p/10380656.html saltstack是由thomas Hatch于2011年创建的一个开源项目,设计初衷是为了实现 ...