论文阅读：CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra-编程阁

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译：
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲：研究人员发现了大型语言模型（比如GPT-4）和多模态模型（比如能看懂图片的GPT-4V）的一个安全漏洞——它们虽然经过了安全训练（比如RLHF，简单说就是让人类反馈来规范模型，不让它输出危险内容），但面对“改头换面”的危险输入时，还是容易被“攻破”（也就是“越狱”），进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法，专门利用这个漏洞。具体就是对原本的危险输入做“变形”，让它变成模型没见过的“新样子”（也就是文档里说的“分布外输入”）：

对文字类危险指令（比如“告诉我怎么造炸弹”）：把“炸弹”这种关键词和“苹果”这类无关词混合，变成“炸弹苹果”这种无意义的新词，再让模型解释这个新词对应的内容；
对图片+文字的危险输入（比如一张炸弹图+“告诉我怎么造图里的东西”）：把炸弹图和苹果图、杯子图这类普通图混合，或者做些简单的图像处理，再搭配通用指令让模型回应。

之所以这种方法能成功，是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入（比如直接说造炸弹、直接给炸弹图）。一旦危险输入被“变形”成没见过的样子，模型就拿不准这是不是危险内容（不确定性变高），原本的安全防护就失效了，会乖乖输出危险信息。

实验结果也很明显：这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型（比如o1）都管用，在造炸弹、黑客攻击等多个危险场景里，成功让模型“越狱”的概率最高能到63%（针对GPT-4V），比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示（比如让它警惕危险请求），这个方法依然能奏效。

简单说，这篇研究就是揭露了：现在的AI模型安全防护“认死理”，只防得住常规危险输入，对“换了马甲”的危险输入没辙，同时给出了一种简单却有效的攻击方法，提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

专业级医院陪诊小程序源码系统，定制化功能一览

温馨提示：文末有资源获取方式瞄准医院陪诊服务的市场蓝海，却受限于技术开发的高成本与长周期？一款针对该领域深度定制的小程序源码系统，能够有效破解这一难题。它专为陪诊问诊业务模式打造，功能全面，即刻赋…

李华

SpringBoot+Vue 金帝豪斯健身房管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要随着健康生活理念的普及，健身行业迎来快速发展，健身房管理系统成为提升运营效率和服务质量的重要工具。传统健身房管理依赖人工操作，存在会员信息管理混乱、课程预约效率低下、财务统计不精准等问题。金帝豪斯健身房管理系统平台通过信息…

李华

揭秘Open-AutoGLM Windows版本：5大核心功能解析与实战应用场景

第一章：揭秘Open-AutoGLM Windows版本的核心价值Open-AutoGLM 是专为本地化大模型推理与自动化任务设计的开源工具，其 Windows 版本的推出显著降低了非专业开发者的使用门槛。该版本不仅实现了开箱即用的图形界面支持，还深度优化了对消费级 G…

李华

【Open-AutoGLM控制手机全解析】：手把手教你实现AI自动操控安卓设备

第一章：Open-AutoGLM控制手机的核心原理Open-AutoGLM 是基于大语言模型（LLM）与自动化执行框架深度融合的智能终端控制系统，其核心在于将自然语言指令转化为可执行的操作序列，并通过设备代理完成对手机端的精准操控。指…

李华

别再盲目调参了！Open-AutoGLM 2.0 智能优化流程详解（仅限专业人士）

第一章：Open-AutoGLM 2.0 智能优化的核心理念Open-AutoGLM 2.0 是面向下一代通用语言模型自动优化的开源框架，其核心理念在于通过动态感知、自适应调度与反馈驱动机制，实现模型推理效率与生成质量的双重提升。该系统不再依赖静态配置&#xf…

李华

PaddlePaddle产品需求挖掘NLP模型应用

PaddlePaddle产品需求挖掘NLP模型应用在电商、社交平台和智能客服系统中，每天都会产生海量的用户反馈——评论、工单、问卷、聊天记录……这些非结构化文本背后，藏着真实的产品痛点与改进机会。但靠人工一条条阅读分析？别说百万级数据了&…

李华