news 2026/4/16 17:24:20

通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

摘要

本文提出了一种新方法–Rank-One Safety Injection (ROSI),以提高 LLM 的安全性。

近年来,LLM 已被广泛应用,但防止生成危险内容的 "安全对齐 "已成为一项挑战。

然而,据报道,这种机制很容易被越狱攻击(越狱)攻破。

以往的研究表明,安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。

本研究采用了相反的思路,开发了一种轻量级、可解释的方法,通过增强 "拒绝方向 "来提高安全性。
ROSI 只需对模型的权重矩阵进行秩 1 更新,无需重新训练或大量调整。

实验证实,ROSI 提高了对有害请求的拒绝率,同时几乎不影响正常任务的性能,并表明它可以重新应用于故意去除安全性的模型。

建议的方法

ROSI 是一种简单的机制,它利用 LLM 内部的线性表示来提取与安全相关的方向,并将其纳入模型的权重中。

首先,对模型在响应无害指令和有害指令时的激活情况进行比较,然后根据差异得出 “安全方向向量”。
该向量被定义为无害和有害响应集群之间的中心差,代表了模型拒绝的一维特征。

根据该方向向量,秩 1 修正被添加到写入残差流的输出矩阵中。
具体来说,更新的目的是在矩阵中添加一个安全方向,使模型的输出始终向剔除方向略微倾斜。

这种更新非常轻便,即使大规模应用于所有层,也无需重新训练即可高效运行。
与传统的推理时操作(激活转向)不同,ROSI 可以进行永久性的、可解释的修改,从根本上稳定模型的行为。

实验

作者在多个实验中测试了 ROSI 的有效性。

首先,他们将 ROSI 应用于一组安全对齐模型(如 LLaMA、Qwen、Gemma 和 Yi),并观察到对不利指令的拒绝率显著提高。
原本较弱的模型的拒绝率提高了 13 到 18 个百分点。

此外,它们还显著提高了对越狱攻击(DAN、Harmbench、WildGuardTest 等)的抵抗能力,将攻击成功率降低了一半以下。
另一方面,MMLU 和 HellaSwag 等基准得分基本保持不变,表明正常任务的实用性得以保持。

接下来,ROSI 还被应用于 “未删减模型”(Dolphin 系统),在该模型中,安全被刻意删除,而重新注入安全方向后,拒绝率提高了 30% 以上,安全恢复到了 100%。
此外,几乎没有观察到性能下降,这证明了其作为后处理 "最后一英里安全方法 "的有效性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 16:09:51

基于Spring Boot和Dubbox的分布式API接口与后台管理系统设计与实现

基于Spring Boot和Dubbox的分布式API接口与后台管理系统设计与实现 基于Spring Boot和Dubbox的分布式API接口与后台管理系统:毕业设计的完美解决方案 在当今快速发展的互联网时代,分布式系统和微服务架构已成为企业级应用开发的主流趋势。对于计算机科学…

作者头像 李华
网站建设 2026/4/16 14:21:03

CSS计算函数:calc(), min(), max(), clamp()实用指南

CSS计算函数:calc(), min(), max(), clamp()实用指南 在响应式网页设计中,CSS计算函数已成为开发者实现动态布局的核心工具。这些函数通过数学运算和条件判断,让元素尺寸、间距、字体等属性能够根据视口变化自动调整,显著提升了开…

作者头像 李华
网站建设 2026/4/16 12:46:14

百考通AI:告别繁琐,一键生成专业问卷,让调研效率飙升!

在信息爆炸的时代,数据是决策的基石,而问卷调查则是获取一手数据最直接、最有效的工具。然而,设计一份逻辑严谨、问题精准、能真正洞察用户心声的问卷,往往需要耗费大量时间与精力,从确定目标、构思问题到排版优化&…

作者头像 李华
网站建设 2026/4/15 15:56:32

基于springboot + vue健康管理系统(源码+数据库+文档)

健康管理 目录 基于springboot vue奶茶点餐小程序系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue健康管理系统 一、前言 博主介绍&#xff1a…

作者头像 李华
网站建设 2026/4/16 13:01:22

选产康门店管理系统别乱挑!玄微云 3 大核心优势,从业者必看

随着大健康产业的细分发展,产康行业在迎来规模化增长的同时,门店运营管理的复杂性也同步提升。从会员生命周期管理、服务项目调度,到技师绩效核算、经营数据复盘,传统人工管理模式早已难以适配行业发展需求,专业的产康…

作者头像 李华