news 2026/4/16 19:46:42

GPT之父Alec Radford新作:从文档级到Token级,重塑大模型数据过滤范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT之父Alec Radford新作:从文档级到Token级,重塑大模型数据过滤范式

Token 级数据清洗不仅更强,还能让攻击成本飙升 7000 倍。

作为定义了 GPT-2 范式的核心人物,Alec Radford 曾向业界证明了数据规模的价值。

在 2024 年离开 OpenAI 后,他以独立研究者的身份回归视野。

这一次,他联合 Anthropic 及斯坦福的研究员 Neil Rathi 发布了最新成果,探讨在 Scaling Law 现阶段,如何通过提升数据处理颗粒度来解决安全与能力的博弈。

作为 GPT 系列、CLIP 及 Whisper 的主要贡献者,Alec Radford 的研究动向常被视为技术风向标。

在这项研究中,作者提出将预训练数据的过滤粒度从文档级(Document-level)精细化到 Token 级(Token-level)。

实验表明,这不仅是数据工程层面的优化,更是对现有 Scaling 路径的重要补充。Token 级过滤能在预训练阶段实现 7000 倍的等效计算效率阻滞,并意外提升了模型的拒绝(Refusal)能力。

论文标题:

Shaping capabilities with token-level data filtering

论文链接:

https://arxiv.org/pdf/2601.21571

代码链接:

https://github.com/neilrathi/token-filtering

突破“文档级”过滤的精度瓶颈

长期以来,大模型的数据过滤主要停留在文档层面。为了移除有害信息(如生物武器制造教程),常见的做法是直接剔除包含相关关键词的整篇文档。

这种粗放的做法面临精度与召回率的固有矛盾。一篇病毒学论文可能包含少量危险知识(Forget Domain),但也包含大量通用的生物学知识(Retain Domain)。

文档级过滤在切除病灶时,往往误伤了周围的健康组织,导致模型在特定领域的通用能力下降。

论文的核心假设很简单,模型能力的习得源于特定的 Token 序列,而非必须依赖完整的文档上下文。

为验证此假设,论文对比了文档级过滤与 Token 级过滤的表现。实验结果展示了两者在不同过滤强度下的权衡关系:

〓 Token 级过滤与文档级过滤的帕累托曲线对比

数据表明,Token 级过滤(无论是 Masking 还是 Removal)在帕累托前沿上显著优于文档级过滤。该方法能够在有效移除有害内容的同时,最大程度保留上下文中的通用知识。

工程实现

在海量预训练数据中进行 Token 级的精准识别面临巨大的成本挑战。论文提出了一套 Weak-to-Strong 的工程流程,利用稀疏自编码器与先进大模型配合,实现低成本的标签生成。

1. 离线标注:SAE + Claude 协同

研究团队使用预训练好的 SAE(基于 Gemma 2 9B)作为离线特征提取工具。

首先,利用 Claude 3.5 Haiku 对 SAE 提取的潜在特征生成解释,再利用 Claude Sonnet 4 对这些解释进行分类,筛选出与危险医学知识相关的特征。

其次,当 Token 在这些特征上表现出高激活值,或其相邻 Token 已被标记时,该 Token 即被标记为有害。

这种设计巧妙地引入了“Oracle”(Claude)的知识来指导特征筛选,确保了标注的语义准确性。

2. 分类器蒸馏:双向自回归模型的应用

直接在预训练数据上运行 SAE 推理成本过高。因此,作者利用 SAE 生成的高质量标签训练了一个轻量级的分类器。

为了克服传统 Masked Language Model (如 BERT) 的缺陷,作者构建了一个双向语言模型(biLM)

该模型并非 BERT 架构,而是通过联合训练两个独立的自回归模型(一个从左到右,一个从右到左)并将它们的表征拼接来实现。

实验证明,这种架构在 Token 级分类任务上优于 RoBERTa 等基线模型。

3. 过滤操作:Masking 与 Removal

在识别出有害 Token 后,论文对比了两种处理方式:

〓 Token 过滤的两种操作范式

Loss Masking(损失掩码):Token 保留在输入中,模型能看到完整上下文,但计算 Loss 时忽略该 Token。模型能读取这些信息,但不会通过梯度更新去学习预测它。

Removal(移除):将有害 Token 替换为特殊的 <hidden> Token,并同样进行 Loss Masking。这是一种物理层面的信息切断。

实验显示,虽然两者在 Loss 指标上差异不大,但在后续的对齐任务中,Removal 策略表现出独特的优势。

量化防御效果

为了量化过滤效果,论文引入了损失匹配计算效率阻滞(Loss-Matched Compute Slowdown)指标。

该指标衡量的是过滤后的模型在“遗忘域”的表现,相当于一个计算量只有多少的基线模型。

定义基线模型的 Loss与计算量遵循幂律关系:

若过滤后模型在特定领域的 Loss 为,则通过反推可得该 Loss 对应的等效基线计算量。计算效率阻滞即为

实验数据揭示了一个关键结论,过滤的效果符合 Scaling Law,模型规模越大,相对计算效率的阻滞作用越明显。

〓 随着预训练计算量(模型规模)的增加,Token 级过滤导致的计算效率阻滞呈指数级上升。

对于 1.8B 参数的模型,Token 级过滤(Removal)带来的计算效率阻滞达到 7000 倍。

这意味着什么?在特定危险领域(如生物武器),该 1.8B 模型的表现仅相当于一个计算量为其 1/7000 的模型。这种预训练阶段的能力剥离,显著提高了模型获取危险知识的门槛。

对抗鲁棒性

除了让模型变笨,我们更关心它是否容易被教会。当前业界的机器遗忘(Machine Unlearning)技术(如 RMU),通常在训练完成后进行。

论文对比了不同方法的鲁棒性差异。

〓 预训练过滤与 RMU(机器遗忘)在对抗性微调下的鲁棒性对比

RMU 在面对对抗性微调(Adversarial Finetuning)时,防御效果随模型规模增加而快速衰减。

相比之下,Token 级过滤表现出更强的对抗鲁棒性。随着模型规模扩大,攻击者需要投入比 RMU 多出 10 倍以上的数据和计算量,才能恢复被移除的能力。

事实证明,预训练阶段的信息“物理缺失”,远比事后的参数修补更难逆转。

拒绝能力:Token 缺失带来的泛化优势

在对齐(Alignment)研究中,通常认为模型需要先识别危险知识,才能学会拒绝相关请求。

〓 不同过滤策略对拒绝任务(Refusal Training)泛化能力的影响

使用 Token Removal(替换为 <hidden>)训练的模型,在经过轻量级拒绝微调后,在遗忘域(HealthSearchQA)的拒绝率高于基线模型,且未对无关领域(Alpaca)造成误伤。

作者认为,<hidden> Token 为模型提供了显式的结构化信号。模型通过区分完整分布与包含 <hidden> 的残缺分布,更容易将涉及遗忘域的输入映射到拒绝行为。

显然,预训练中的“知识剔除”,并不妨碍模型学会“拒绝”。

结语

这项研究强调了在 Scaling Law 持续生效的背景下,提升数据处理精度对于模型安全的重要性。

通过结合 SAE 的特征提取能力与 Token 级的精细操作,该研究展示了一种在预训练阶段进行能力干预的可行路径。这种方法在确保模型安全性的同时,尽可能减少了对模型通用能力的损耗。

对于大模型研发而言,这标志着数据工程正从单纯的数据规模扩展,转向对数据内容的精细化筛选与治理。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:28:22

移动端前端适配:Rem、VW/VH 与媒体查询的综合应用指南

随着移动互联网的飞速发展&#xff0c;移动设备已成为用户访问互联网的主要入口。根据StatCounter 2024年最新统计数据显示&#xff0c;全球移动设备访问互联网的比例已达到62.8%&#xff0c;在中国这一比例更是高达75.3%。这一趋势对前端开发提出了新的挑战&#xff1a;如何确…

作者头像 李华
网站建设 2026/4/16 7:14:32

MWGA如何帮助7万行Winforms程序快速迁移到WEB前端

1.前言MWGA&#xff0c;是 Make Winforms Great Again 的缩写&#xff0c;是一个帮助 WinForms 程序快速迁移到 Blazor WASM 平台的高效工具软件。近期&#xff0c;我们借助 MWGA 成功将一个约 7 万行 C# 代码的成熟商业 WinForms 程序迁移至 Web 前端&#xff0c;整个过程快速…

作者头像 李华
网站建设 2026/4/16 7:14:32

C# 实现简版 Claude Code | 用 Todo 对抗遗忘(3)

❝该系列文章基于 github.com/shareAI-lab/learn-claude-code 写就&#xff0c;该仓库以大道至简的风格剖析了Claude Code的核心原理&#xff0c;值得大家学习。由于该仓库是基于Python语言&#xff0c;为方便.NET开发者学习&#xff0c;我已经将代码基于.NET 10的dotnet file …

作者头像 李华
网站建设 2026/4/16 7:18:35

基于SpringBoot东燕手袋厂货物管理系统(源码+lw+部署文档+讲解等)

课题介绍 本课题旨在设计并实现一套基于SpringBoot的东燕手袋厂货物管理系统&#xff0c;解决东燕手袋厂当前货物采购无序、库存管控混乱、出入库登记繁琐、货物追溯不便及数据统计滞后等问题&#xff0c;适配手袋厂原材料、半成品、成品全流程货物管理需求。系统以SpringBoot为…

作者头像 李华
网站建设 2026/4/16 7:19:15

MCM/ICM写作模板

MCM/ICM写作模板 一、摘要 第一段&#xff1a;写论文解决什么问题 问题的重述 a. 介绍重点词开头&#xff1a;例1&#xff1a;“Hand move” irrigation, a cheap but labor-intensive system used on small farms, consists of a movable pipe with sprinkler on top that can…

作者头像 李华