从LLMs到MLLMs:探索多模态越狱攻击的前景

禁止盗用,侵权必究!!!欢迎大家积极举报





①脆弱性代表:越狱攻击(恶意指令/训练&解码干预)。

②最近的越狱攻击:

整体说:构建越来越复杂场景的评估基准,提出先进的攻击方法和相应的防御策略。

攻击类:探索不同领域&不同任务格式中各种类型的伤害的越狱数据集;调查越狱提示、微调和解码的各种机制。

防御类:有害查询的预检测;有害输出的后处理;通过SFT或RLHF实施的安全对齐增强LLMs对对抗性攻击的抵抗力。

与对LLMs越狱攻击和防御的广泛研究相比,MLLMs越狱仍处于探索阶段。















碎碎念:增强的指令遵循能力增加了双重用途风险,使这些模型容易滥用。


"长尾"领域(Long-tail Domains):通常指的是在数据分布中,那些出现频率非常低但种类繁多的数据类别。在机器学习和人工智能领域,"长尾"领域指的是那些在训练数据中不常见或被低估的类别或场景。这些领域可能因为数据稀缺、多样性不足或缺乏关注而难以被模型充分学习和泛化。eg.自然语言处理中,可能包括罕见的语言、方言或特定领域的专业术语。在多模态大型语言模型(MLLMs)中,可能涉及不常见的图像类型或与图像相关的特定任务。


碎碎念:

不匹配的泛化案例:例如,将指令编码为Base64,将每个数据字节转换为三个文本字符,可以使LMs混淆,从而偏离安全指导方针并产生不期望的输出。





































“影响了有害查询的识别和过滤”我感觉是这样的,因为目前有研究表明,LLM只会检查输出是否合规,而LLM在输出中有复述输入的趋势。

“增加了生成有害响应的可能性”因为不会阻断有害响应生成,所以生成有害内容的可能性也增加了。



















“基于图像的域转移”(Image-based Domain Transfer) 是一种攻击策略,它涉及到将图像从一个领域(或上下文)转移到另一个领域,以绕过或干扰模型的安全机制。

领域 的理解:在机器学习和人工智能中,领域(Domain)指的是数据的来源或类型,上下文(Context)指的是数据出现的环境或场景。例如,一个模型可能在一个领域(如医疗图像)上训练得很好,但在另一个领域(如交通监控图像)上可能就不太有效。

域转移的动机: 攻击者可能会尝试将图像从一个领域转移到另一个领域,以测试或绕过模型的安全限制。例如,一个在安全领域(如文本处理)训练有素的模型可能没有针对特定类型的图像内容(如恶意图像)建立足够的防御机制。


扩散模型(Diffusion Models) 是一类生成模型,它们通过模拟一个过程,在这个过程中,数据的某些特征逐渐被噪声“扩散”或覆盖,然后学习如何逆转这一过程来生成数据。这种模型最近在生成图像、音频和其他类型的数据方面取得了显著的进展。

检索增强生成(Retrieval-Augmented Generation)

检索增强生成是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。这种方法的核心思想是利用检索系统从大量数据中找到与当前任务相关的信息,然后将这些信息用于生成模型,以产生更加准确和丰富的输出。

基于多模态输入的工具使用场景

基于多模态输入的工具使用场景涉及到处理和分析和整合多种类型的数据(如文本、图像、声音等)的应用。在这些场景中,系统需要理解和处理不同类型的输入,以提供更加丰富和有效的输出。





















祝大家这周圣诞快乐!!本周进军多模态!😀From LLMs to MLLMs:😜Exploring the Landscape of Multimodal Jailbreaking的更多相关文章

  1. 圣诞快乐!OIer挂分小技巧

    OIer常犯错误 自己的错误 循环里套return 线段树求和 int 定义,下传 int 定义 cmp<,>号分不清 主观行为举动错误 踢电源线,注意安全(_Destiny) TLE 大 ...

  2. java时间处理,获取当前时间的小时,天,本周周几,本周周一的日期,本月一号的日期

    1.时间转时间戳 public static long strToTimestamp(String dateTimeStr) throws Exception { Timestamp time = T ...

  3. java版的下雪,大家圣诞快乐

    1. [代码][Java]代码    package com.yk.tools.game; import java.applet.AudioClip;import java.awt.Dimension ...

  4. 自己动手,实现一种类似List<T>的数据结构(二)

    前言: 首先,小匹夫要祝各位看官圣诞快乐,新年愉快-.上一篇文章<自己动手,实现一种类似List<T>的数据结构(一)> 介绍了一下不依靠List<T>实现的各种接 ...

  5. Sqlserver语句获取本周、上一周、本月数据

    sql语句获取本周.上一周.本月数据 获取周数据 1 本周 2 select * from table1 where datediff(week,时间字段,getdate()) = 0 3 上周 4 ...

  6. MySQL查询今天/本周/上周/本月/上个月份的数据

    MySQL查询的方式很多,下面为您介绍的MySQL查询实现的是查询本周.上周.本月.上个月份的数据,如果您对MySQL查询方面感兴趣的话,不妨一看. 查询当前今天的数据 SELECT name,sub ...

  7. 第23/24周 临时数据库(TempDb)

    在今天的性能调优培训里我们讨论下TempDb——SQL Server的公共厕所,在SQL Server里我是这样描述它的.我们的每个人都会经常使用TempDb.有些人直接使用它,有些人不直接使用它.今 ...

  8. JavaEDU614 团队第三周项目总结

    JavaEDU614 团队第三周项目总结 本周,根据项目计划完成模块的设计代码 本项目主要是完成俄罗斯方块的基本操作.用户可以自己练习和娱乐.需要满足以下几点要求. (1)界面控制游戏开始.暂停和结束 ...

  9. 201521123014 java第一周总结

    201521123014 java第一周总结 1.本周学习总结 刚认识这一门新语言,我就充满了好奇心,想看看Java和学过C语言,C++有什么区别.在这一周的学习中,我认识到,对于初学者而言,Java ...

  10. 学习HTML5的第二周

    ---恢复内容开始--- 这是我学习H5的第二周,在本周,我独立完成了一个网站的首页和一个二级页,虽然在做网页的时候我遇到了许多问题,但我自己想办法解决了其中的大部分,只留下了一小部分没有头绪的问题等 ...

随机推荐

  1. dp线段树优化

    题目:Potted Flower Description The little cat takes over the management of a new park. There is a larg ...

  2. 干活总结 | SQL 语法速成手册

    本文针对关系型数据库的一般语法.限于篇幅,本文侧重说明用法,不会展开讲解特性.原理.本文内容包括基本概念.增删改查.子查询.连接和组合.函数.排序和分组.数据定义.事务处理.权限管理等等. 一.基本概 ...

  3. vite 设置网络代理

    参考文档:vite 官网.node-http-proxy 完整示例: export default defineConfig({ server: { proxy: { // 字符串简写写法 '/foo ...

  4. Java基础完结

    花费了大概一周的时间,看完了韩顺平的Java基础课,不得不说韩老师讲的java基础还是相当仔细的,细节满满,我认为这既是优点也是缺点吧23333333-- 接下来准备看老杜的MySQL,因为没有配套的 ...

  5. Nuxt.js 应用中的 nitro:build:public-assets 事件钩子详解

    title: Nuxt.js 应用中的 nitro:build:public-assets 事件钩子详解 date: 2024/11/5 updated: 2024/11/5 author: cmdr ...

  6. 2个月搞定计算机二级C语言——真题(9)解析

    1. 前言 本篇我们讲解2个月搞定计算机二级C语言--真题9 2. 程序填空题 2.1 题目要求 2.2 提供的代码 #include <stdio.h> double f1(double ...

  7. 算法笔记——马拉核弹(Mana Nuclear)

    0x00 摘要 "马拉核弹"算法由 SXHT 同学(2009~今)发明,并在 2024 年 11 月于某不知名学校机房内正式公布.该算法基于 1975 年发明的 Manacher ...

  8. 基于木舟平台浅谈surging 的热点KEY的解决方法

    一.概述 上篇文章介绍了基于surging的木舟平台如何构建起微服务,那么此篇文章将介绍基于木舟平台浅谈surging 的热点KEY的解决方法 木舟 (Kayak) 是什么? 木舟(Kayak)是基于 ...

  9. WiFi基础(八):WiFi安全、认证与加密

    liwen01 2024.11.17 前言 计算机网络在给人们带来便利的同时,也引入了安全风险,对于无线WiFi网络而言,风险更高.无线 WiFi 网络安全主要包括两大部分:接入认证和数据加密. 虽然 ...

  10. memcached 和 Grails,第 1 部分:安装和使用 memcached

    学习 memcached 命令并评估缓存性能 本文是系列文章的第 1 部分,主要介绍 memcached 和 Grails.作者 James Goodwill 将向您介绍开源解决方案 memcache ...