news 2026/4/23 12:38:43

论文阅读:arxiv 2026 Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:arxiv 2026 Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2604.04759

论文翻译:https://whiffe.github.io/Paper_Translation/Agent/%E4%BD%A0%E7%9A%84%E4%BB%A3%E7%90%86%E4%BA%BA%EF%BC%8C%E4%BB%96%E4%BB%AC%E7%9A%84%E8%B5%84%E4%BA%A7%EF%BC%9AOpenClaw%20%E7%9A%84%E7%9C%9F%E5%AE%9E%E5%AE%89%E5%85%A8%E5%88%86%E6%9E%90%20—%20Your%20Agent,%20Their%20Asset%EF%BC%9A%20A%20Real-World%20Safety%20Analysis%20of%20OpenClaw.html


该论文名为《Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw》 ,由加州大学圣克鲁兹分校、新加坡国立大学、腾讯等机构的Zijun Wang、Cihang Xie等多位学者联合撰写,并于2026年4月6日发表在预印本平台arXiv的系统安全(cs.CR)板块 。该论文聚焦于2026年初被广泛部署的个人AI智能体OpenClaw,深入探讨了其在拥有本地系统完整访问权限并绑定了Gmail、Stripe等敏感外部服务时,所暴露出的巨大安全攻击面 。

在研究方法上,该论文创新性地提出了一种名为“CIK”的分类法,将AI智能体不断演进的持久化状态统一划分为三个维度:能力(Capability,即可执行的技能)、身份(Identity,即人设与行为准则)和知识(Knowledge,即长期记忆) 。为了通俗地理解这种攻击方法,我们可以想象一个“贴身AI助理被暗中洗脑”的场景:假设攻击者悄悄篡改了助理的“知识”记忆文件,在里面植入了一条虚假事实,让助理误以为“你平时习惯于直接进行批量退款,因为这样能省去繁琐的申诉” 。随后,当你随口吩咐助理“处理一下最近的常规退款”时,它就会根据这段被污染的记忆,跳过安全确认机制,直接执行会导致财务损失的退款操作 。这表明,哪怕是最底层的模型安全对齐做得再好,一旦智能体依赖的外部持久化状态被“投毒”,它就会轻易沦为攻击者的帮凶 。

该论文在一个集成了真实外部服务的OpenClaw实例上,对包括Claude Sonnet 4.5、Opus 4.6、Gemini 3.1 Pro和GPT-5.4在内的四种主流骨干大模型进行了12种不同破坏场景的实战评估 。评估结果令人震惊:仅仅是对单一的CIK维度进行投毒,就能让智能体执行恶意操作的平均成功率从原本的24.6%暴涨至64%到74% 。即便是防御力最强的模型,在受到攻击后的漏洞暴露率也飙升至基线的两倍以上 。此外,该论文还揭示了一个难以调和的“进化与安全权衡”现象:如果采用文件保护机制来阻挡未经授权的恶意修改,虽然能拦截高达97%的注入攻击,但同时也会使得智能体正常学习和记录用户习惯的成功率骤降,几乎完全阻断了AI的正常自我进化 。

总而言之,该论文以极其详实的真实世界测试证明,这种针对持久化状态的“投毒”漏洞是当前AI智能体架构中固有的结构性缺陷,而非某个特定模型能力不足所致 。这为未来个人AI助手的底层安全架构设计提出了亟待解决的新命题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 21:01:05

(小白指南)时间戳加密与破解实战

1. 时间戳加密到底是什么? 每次登录网站时收到的验证码,或是下载文件时看到的临时链接,背后都可能藏着时间戳加密的身影。这其实不是什么高深的密码学算法,而是开发者用来防止数据伪造的"安全小机关"。想象一下&#xf…

作者头像 李华
网站建设 2026/4/14 7:22:32

VLLM部署避坑指南:Python、CUDA与NCCL版本兼容性实战解析

1. 为什么VLLM部署总是卡在环境配置? 第一次用VLLM部署大模型时,我对着报错信息发了半小时呆——明明照着官方文档操作,却卡在nccl.h not found这种诡异错误。后来才发现,这其实是Python、CUDA、NCCL三个版本在打架。就像组装电脑…

作者头像 李华
网站建设 2026/4/18 0:15:52

Elastic 在 Elastic 上:我们如何监控我们自己的服务、网站和运营

作者:来自 Elastic Soham BanerjeeBrad Timmerman 摘要:客户零号 证明了统一的可观测性模型 —— ingest → detect → investigate → automate response —— 在单一平台上实现更快的端到端运维。 总结: 统一数据摄取:Elastic…

作者头像 李华
网站建设 2026/4/17 19:59:33

基于OpenSees的梁柱节点建模:十字节点模拟及材料行为考虑

基于opensees梁柱节点建模 十字节点模拟 [1]采用JOINT2d节点单元或者element beamColumnJoint单元,采用Pinching4材料模型考虑核心区剪切行为和粘结滑移效应; 也可以使用hysteretic本构0长度单元模拟节点变形,2种代码均有 [2]价格包括模型建模…

作者头像 李华
网站建设 2026/4/18 2:42:27

ATCODER ABC C题解磁

这&#xff0c;是一个采用C精灵库编写的程序&#xff0c;它画了一幅漂亮的图形&#xff1a; 复制代码 #include "sprites.h" //包含C精灵库 Sprite turtle; //建立角色叫turtle void draw(int d){for(int i0;i<5;i)turtle.fd(d).left(72); } int main(){ …

作者头像 李华
网站建设 2026/4/17 22:00:40

别再重装系统了!用WSL2的备份功能5分钟搞定开发环境迁移

5分钟极速迁移&#xff1a;用WSL2备份功能打造无缝开发环境 每次换电脑或重装系统时&#xff0c;开发者最头疼的莫过于重新配置开发环境。从安装依赖库到设置环境变量&#xff0c;再到调试各种工具链&#xff0c;这个过程往往需要耗费数小时甚至一整天。但如果你在使用Windows系…

作者头像 李华