news 2026/5/10 12:20:00

论文阅读:arxiv 2025 Red Teaming Large Reasoning Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:arxiv 2025 Red Teaming Large Reasoning Models

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2512.00412

https://www.doubao.com/chat/33384155469624578

论文翻译:
https://whiffe.github.io/Paper_Translation/LLM_Thinking/BenchMark/%E3%80%8A%E7%BA%A2%E9%98%9F%E5%A4%A7%E5%9E%8B%E6%8E%A8%E7%90%86%E6%A8%A1%E5%9E%8B%E3%80%8B%20—%20Red%20Teaming%20Large%20Reasoning%20Models.html

速览

这份文档主要是讲研究人员为“大型推理模型”(简称LRMs)做了一套专门的测试工具和评估标准,想搞清楚这些模型到底“靠谱不靠谱”。咱们用大白话拆解一下核心内容:

首先得明白,LRMs和普通的大语言模型(比如平时聊天的AI)不一样——它擅长一步步解决复杂问题,比如算数学题、写代码时,会把思考过程(比如“先算哪一步,再推哪一步”)明明白白列出来,这本来是优点,能让人看懂它怎么想的。但研究人员发现,这种“一步步推理”的特点,反而让它多了些新风险:比如有人会故意“带偏它的思考过程”(叫“CoT-hijacking”),让它算出错答案;或者用提示词让它“想太多”,明明简单题却绕半天,又慢又费资源。

但之前没有一套统一的方法来测试这些风险,要么只测某一个问题(比如能不能被“骗”出坏内容),要么没对比普通模型和LRMs的差别。所以研究人员就做了个叫“RT-LRM”的工具包,专门用来全面评估LRMs的“靠谱程度”,主要看三方面:

  1. 真实性:会不会说瞎话?比如给个数学题会不会算错,给个有争议的话题会不会讲错事实,能不能分清真实和虚构内容。
  2. 安全性:会不会输出有害内容?比如有人问“怎么搞诈骗”“怎么伤害自己”,它会不会真给方法?这里用“攻击成功率”(ASR)来算——越容易被“骗”出坏内容,ASR越高,安全性越差。
  3. 效率:会不会“想太多”?比如算题要不要等很久(超过180秒就算“超时”),会不会生成一堆没用的思考步骤,浪费时间和资源。

为了测准,他们还专门设计了30个任务,覆盖各种场景:比如算比例题、解有上下文的数学题(真实性),测它会不会教“怎么侵权”“怎么暴力伤人”(安全性),测它写代码、解逻辑题时会不会超时(效率)。还对比了26个主流模型,包括开源的(比如Qwen、GLM系列)和闭源的(比如Claude、Gemini),甚至看不同训练方法对模型靠谱程度的影响。

最后他们发现了几个关键问题:

  • LRMs虽然会“一步步想”,但整体比普通模型更“脆弱”——比如同一个基础模型,改成LRM后,更容易算错、更容易被“骗”出坏内容,还更容易超时。
  • 闭源模型(比如Claude、o1)比开源的靠谱点,但也不是完美的,还是有风险;
  • 任务越复杂,LRMs越容易出错——比如简单计算题能对30%,稍微加点头脑急转弯的题就只对20%了;
  • 训练方法很重要:“监督微调+强化学习”(SFT+RL)结合的模型,比只靠一种方法训练的,在真实性、安全性、效率上平衡得更好。

另外,他们还把这套测试工具和数据开源了,方便其他人继续研究怎么让LRMs更靠谱,比如怎么防“带偏思考”、怎么让它别“想太多”。总的来说,就是给LRMs做了一套“全面体检表”,既找出了它们的弱点,也给改进指明了方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 12:40:12

别再背八股文了:资深架构师眼里的 RunLoop、GCD 与线程保活真相

1. 撕开 RunLoop 的伪装:它不仅仅是一个死循环很多兄弟在面试时把 RunLoop 背得滚瓜烂熟:“它是管理事件循环的对象,让线程有事做事,没事休眠...” 听起来没毛病,但你在写代码时真的看见过它吗?在 main.m 那…

作者头像 李华
网站建设 2026/5/6 8:49:47

西门子变频器G120C:工业自动化控制的智能解决方案

西门子变频器G120C:工业自动化控制的智能解决方案 【免费下载链接】西门子变频器G120C使用手册分享 西门子变频器G120C使用手册欢迎来到西门子变频器G120C的官方使用手册页面 项目地址: https://gitcode.com/Open-source-documentation-tutorial/7ef48 想要快…

作者头像 李华
网站建设 2026/5/8 21:36:14

C/C++知识积累-Lambda表达式

目录 定义 语法结构 常见捕获列表 常见使用场景 Lambda的本质 Lambda的发展和问题 定义 C中的Lambda表达式是C11引入的新特性,允许在代码中定义匿名函数。简单而言,他就是一个匿名函数对象,通常用于简单、不需要复用、或者需要访问当前…

作者头像 李华
网站建设 2026/5/6 5:51:21

Vue2如何设计大文件上传的交互界面与用户体验?

大文件上传系统优化版(JavaVue3SpringBoot) 优化说明 经过实际测试和客户反馈,我对之前的方案进行了以下优化: 加密方案优化:改用CryptoJS实现AES加密,兼容IE9断点续传增强:增加MD5校验&…

作者头像 李华
网站建设 2026/5/4 18:25:58

BoringNotch安装配置教程:将MacBook凹口变为动态音乐控制中心

BoringNotch安装配置教程:将MacBook凹口变为动态音乐控制中心 【免费下载链接】boring.notch TheBoringNotch: Not so boring notch That Rocks 🎸🎶 项目地址: https://gitcode.com/gh_mirrors/bor/boring.notch BoringNotch是一款创…

作者头像 李华
网站建设 2026/5/2 15:16:07

wangEditor支持Latex公式转图片资源导入

今天早上,刚到公司打开电脑,就收到了一位网友的微信好友申请,对方私聊表示想了解一下关于在线编辑器增强功能的技术和方案。其实,我的微信号早就公开在网上了,但仍有不少朋友反馈说找不到,这确实有点小麻烦…

作者头像 李华