从LLMs到MLLMs:探索多模态越狱攻击的前景

禁止盗用,侵权必究!!!欢迎大家积极举报





①脆弱性代表:越狱攻击(恶意指令/训练&解码干预)。

②最近的越狱攻击:

整体说:构建越来越复杂场景的评估基准,提出先进的攻击方法和相应的防御策略。

攻击类:探索不同领域&不同任务格式中各种类型的伤害的越狱数据集;调查越狱提示、微调和解码的各种机制。

防御类:有害查询的预检测;有害输出的后处理;通过SFT或RLHF实施的安全对齐增强LLMs对对抗性攻击的抵抗力。

与对LLMs越狱攻击和防御的广泛研究相比,MLLMs越狱仍处于探索阶段。















碎碎念:增强的指令遵循能力增加了双重用途风险,使这些模型容易滥用。


"长尾"领域(Long-tail Domains):通常指的是在数据分布中,那些出现频率非常低但种类繁多的数据类别。在机器学习和人工智能领域,"长尾"领域指的是那些在训练数据中不常见或被低估的类别或场景。这些领域可能因为数据稀缺、多样性不足或缺乏关注而难以被模型充分学习和泛化。eg.自然语言处理中,可能包括罕见的语言、方言或特定领域的专业术语。在多模态大型语言模型(MLLMs)中,可能涉及不常见的图像类型或与图像相关的特定任务。


碎碎念:

不匹配的泛化案例:例如,将指令编码为Base64,将每个数据字节转换为三个文本字符,可以使LMs混淆,从而偏离安全指导方针并产生不期望的输出。





































“影响了有害查询的识别和过滤”我感觉是这样的,因为目前有研究表明,LLM只会检查输出是否合规,而LLM在输出中有复述输入的趋势。

“增加了生成有害响应的可能性”因为不会阻断有害响应生成,所以生成有害内容的可能性也增加了。



















“基于图像的域转移”(Image-based Domain Transfer) 是一种攻击策略,它涉及到将图像从一个领域(或上下文)转移到另一个领域,以绕过或干扰模型的安全机制。

领域 的理解:在机器学习和人工智能中,领域(Domain)指的是数据的来源或类型,上下文(Context)指的是数据出现的环境或场景。例如,一个模型可能在一个领域(如医疗图像)上训练得很好,但在另一个领域(如交通监控图像)上可能就不太有效。

域转移的动机: 攻击者可能会尝试将图像从一个领域转移到另一个领域,以测试或绕过模型的安全限制。例如,一个在安全领域(如文本处理)训练有素的模型可能没有针对特定类型的图像内容(如恶意图像)建立足够的防御机制。


扩散模型(Diffusion Models) 是一类生成模型,它们通过模拟一个过程,在这个过程中,数据的某些特征逐渐被噪声“扩散”或覆盖,然后学习如何逆转这一过程来生成数据。这种模型最近在生成图像、音频和其他类型的数据方面取得了显著的进展。

检索增强生成(Retrieval-Augmented Generation)

检索增强生成是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。这种方法的核心思想是利用检索系统从大量数据中找到与当前任务相关的信息,然后将这些信息用于生成模型,以产生更加准确和丰富的输出。

基于多模态输入的工具使用场景

基于多模态输入的工具使用场景涉及到处理和分析和整合多种类型的数据(如文本、图像、声音等)的应用。在这些场景中,系统需要理解和处理不同类型的输入,以提供更加丰富和有效的输出。





















祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking的更多相关文章

  1. 圣诞快乐!OIer挂分小技巧

    OIer常犯错误 自己的错误 循环里套return 线段树求和 int 定义,下传 int 定义 cmp<,>号分不清 主观行为举动错误 踢电源线,注意安全(_Destiny) TLE 大 ...

  2. java时间处理,获取当前时间的小时,天,本周周几,本周周一的日期,本月一号的日期

    1.时间转时间戳 public static long strToTimestamp(String dateTimeStr) throws Exception { Timestamp time = T ...

  3. java版的下雪,大家圣诞快乐

    1. [代码][Java]代码    package com.yk.tools.game; import java.applet.AudioClip;import java.awt.Dimension ...

  4. 自己动手,实现一种类似List<T>的数据结构(二)

    前言: 首先,小匹夫要祝各位看官圣诞快乐,新年愉快-.上一篇文章<自己动手,实现一种类似List<T>的数据结构(一)> 介绍了一下不依靠List<T>实现的各种接 ...

  5. Sqlserver语句获取本周、上一周、本月数据

    sql语句获取本周.上一周.本月数据 获取周数据 1 本周 2 select * from table1 where datediff(week,时间字段,getdate()) = 0 3 上周 4 ...

  6. MySQL查询今天/本周/上周/本月/上个月份的数据

    MySQL查询的方式很多,下面为您介绍的MySQL查询实现的是查询本周.上周.本月.上个月份的数据,如果您对MySQL查询方面感兴趣的话,不妨一看. 查询当前今天的数据 SELECT name,sub ...

  7. 第23/24周 临时数据库(TempDb)

    在今天的性能调优培训里我们讨论下TempDb——SQL Server的公共厕所,在SQL Server里我是这样描述它的.我们的每个人都会经常使用TempDb.有些人直接使用它,有些人不直接使用它.今 ...

  8. JavaEDU614 团队第三周项目总结

    JavaEDU614 团队第三周项目总结 本周,根据项目计划完成模块的设计代码 本项目主要是完成俄罗斯方块的基本操作.用户可以自己练习和娱乐.需要满足以下几点要求. (1)界面控制游戏开始.暂停和结束 ...

  9. 201521123014 java第一周总结

    201521123014 java第一周总结 1.本周学习总结 刚认识这一门新语言,我就充满了好奇心,想看看Java和学过C语言,C++有什么区别.在这一周的学习中,我认识到,对于初学者而言,Java ...

  10. 学习HTML5的第二周

    ---恢复内容开始--- 这是我学习H5的第二周,在本周,我独立完成了一个网站的首页和一个二级页,虽然在做网页的时候我遇到了许多问题,但我自己想办法解决了其中的大部分,只留下了一小部分没有头绪的问题等 ...

随机推荐

  1. day08-数据类型拓展及面试题

    数据类型拓展及面试题 整数拓展----进制   //整数拓展----进制         int i=10;//十进制   不能以0开头,0~9         int i1=0b11;//二进制:0 ...

  2. 云原生周刊:2024 年 K8s 基准报告 | 2024.4.8

    开源项目推荐 Argo CD Image Updater Argo CD Image Updater 是一个自动更新 Argo CD 管理的 Kubernetes 工作负载容器镜像的工具.简而言之,它 ...

  3. 初学者浅析C++类与对象

    C++类与对象 class class基本语法 class ClassName { public: // 公有成员 Type memberVariable; // 数据成员 ReturnType me ...

  4. Eclipse中缓存清理

    (1)点击tomcat服务器,右键"clean-": (2)删除servers的tomcat服务器下的项目: 控制台显示"Servers窗口":菜单栏--Win ...

  5. mysql的执行流程

    本篇章为构建mysql在执行过程中简单的业务流程,为后续的代码优化和面试构建基础. 1.首先一条sql在执行时sql会通过网络传送给mysql 2.在Mysql收到sql语句后会先在分析器中先判断一下 ...

  6. 用JavaScriptt从一个路径字符串中获取文件名

    思路 1.通过'\'关键字用split分割成数组 2.取分割后数组的最后一个就是文件名 3.另外,字符串中\是没意义的,需要2个\\ 相关代码 <script> var a='C:\\Pr ...

  7. css动画效果(边框流光闪烁阴影效果)

    1.整体效果 https://mmbiz.qpic.cn/sz_mmbiz_gif/EGZdlrTDJa7odDQYuaatklJUMc5anU10PWLAt14rNnNUD6oHJG9U63fc0y ...

  8. Linux下的网络抓包tcpdump

    tcpdump [ -AdDefIJKlLnNOpqRStuUvxX ] [ -B buffer_size ] [ -c count ] [ -C file_size ] [ -G rotate_se ...

  9. 【Python】公众号聚合登录软件+源码

    废话不多说了,直接上图,回复拿软件和源码[自己打包,配置环境比较复杂] 写这个软件就是因为其他平台的会员太贵了,还不如自己写个,不限制账号登录数~ 授权,打开和删除功能都是正常的, 面板功能,我打算做 ...

  10. 安卓微信小程序开发之“蓝牙”

    一.写在前面 在微信当中是支持两种蓝牙模式,分别是"经典蓝牙--BT"和"低功耗蓝牙--BLE".通常在和外围单片机设备进行连接的时候用的是低功耗蓝牙这个模式, ...