news 2026/4/15 23:33:07

从信息检索到智能突破:大模型的bad case解决方案与在线策略蒸馏!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从信息检索到智能突破:大模型的bad case解决方案与在线策略蒸馏!

简介

文章探讨了当前大模型面临的bad case问题,指出若不解决底层神经网络问题,大模型将沦为信息检索工具。文章介绍了在线策略蒸馏技术,这是一种结合了强化学习(在线策略)和蒸馏(密集奖励信号)的创新方法。它从学生模型采样轨迹,由教师模型对每个词元进行评分,提供密集反馈,帮助学生模型更有效地学习和避免错误,有望突破当前大模型的技术瓶颈。


大模型没法解决bad case的话,最终只能变成一个信息检索工具。

所谓的算法创新不去解决底层神经网络的问题,最终只能吃剩饭。

所谓的在线蒸馏,22年就被RL的人玩烂了。现在把模型做小,之后干啥呢?

群体博弈,各种小模型对弈?接着吃RL剩饭?这么吃,那RL解决不了的问题咋办呢?必须支持Sutton!

大模型估计也就到这了。但是大模型+还有很大落地空间,巨大落地空间。

在线策略蒸馏 (On-Policy Distillation)

  • https://thinkingmachines.ai/blog/on-policy-distillation/

引言

大型语言模型(LLMs)能够在聚焦的领域中展现出专家级性能,这是多项能力叠加的结果:输入感知知识检索计划选择可靠执行。这需要一系列的训练方法,我们可以将其划分为三个主要阶段:

  1. 预训练 (Pre-training):教授通用能力,例如语言使用、广义推理和世界知识。
  2. 中度训练 (Mid-training):传授领域知识,例如代码、医疗数据库或公司内部文档。
  3. 后训练 (Post-training):引出目标行为,例如指令遵循、数学问题推理或聊天。

经过更强训练的小型模型,通常能在其受训的专业领域中胜过更大型的通用模型。使用小型模型有许多益处:它们可以为隐私或安全考虑在本地部署,可以更容易地持续训练和更新,并节省推理成本。要利用这些优势,需要在训练的后期阶段选择正确的方法。

对“学生”模型进行后训练的方法可分为两种:

  • 在线策略训练 (On-policy training):从学生模型本身采样轨迹 (rollouts),并为其分配一定的奖励。
  • 离线策略训练 (Off-policy training):依赖于来自外部源的目标输出,学生模型学习模仿这些输出。

例如,我们可以通过强化学习 (Reinforcement Learning, RL)进行在线策略训练,通过评估学生的每次轨迹是否解决了问题。在线策略训练的优势在于,学生通过训练自己的样本,能更直接地学习避免错误。但 RL 有一个主要缺点:它提供的反馈非常稀疏,无论使用了多少词元,每次训练回合教授的比特数是固定的。这种反馈的稀疏性使得 RL 在许多应用中效率低下。

离线策略训练通常通过监督微调 (Supervised Fine-Tuning, SFT)完成:在经过精心策划的一组特定任务的标记示例上进行训练。这些标记示例的来源可以是已被证明在该任务上表现良好的**“教师”模型**。

我们可以使用一种称为蒸馏 (distillation)的机制:训练学生模型以匹配教师模型的输出分布。我们基于教师轨迹进行训练:包括中间思考步骤在内的完整生成词元序列。离线策略训练的缺点在于,学生是在教师经常出没的上下文中学习,而不是在学生本身经常遇到的上下文中学习。这可能导致复合误差:如果学生犯了一个教师从未犯过的早期错误,它会发现自己越来越偏离训练中观察到的状态。

观测到的另一个问题是,学生可能学会模仿教师的风格和信心,但不一定模仿其事实准确性。

我们希望将 RL 的在线策略相关性与蒸馏的密集奖励信号结合起来。对于 LLM 的后训练而言,这就是在线策略蒸馏

方法采样方式奖励信号
监督微调 (Supervised finetuning)离线策略 (off-policy)密集 (dense)
强化学习 (Reinforcement learning)在线策略 (on-policy)稀疏 (sparse)
在线策略蒸馏 (On-policy distillation)在线策略 (on-policy)密集 (dense)

在线策略蒸馏——两全其美

在线策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能的教师模型对每条轨迹中的每一个词元进行评分。回到上面的数学示例,在线策略蒸馏将对解决方案的每一步进行评分,惩罚导致学生得出错误答案的错误,同时强化执行正确的步骤。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型各大场景实战案例

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:17:47

python+uniapp微信小程序的食品溯源系统_1os805qp

文章目录 系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 系统截图 pythonuniapp微信小程序的食品溯源系统_1os805qp 项目技术简介 Python版本:py…

作者头像 李华
网站建设 2026/4/15 21:35:00

基于STM32智能无线餐厅取餐呼叫机系统设计

(一)系统功能设计 STM32单片机餐厅取餐呼叫机WiFi主从通讯震动提醒61 本系统由一个主机和两个从机组成。 主机由STM32F103C8T6单片机核心板、按键、WIFI_ESP8266模块组成。 从机由STM32F103C8T6单片机核心板、按键、振动马达、WIFI_ESP8266模块组成。 1、…

作者头像 李华
网站建设 2026/4/15 9:03:43

基于STM32智能超声波测距语音导盲仪系统设计

摘 要 盲人由于先天或后天的生理缺陷丧失了视觉功能,因而在日常生活和安全行走方面受到了很大的制约。所以,为了协助盲人安全行进,提高他们的生活能力与人身安全,世界各国一直在进行着电子导盲系统的研制。 在此背景下&#xff0c…

作者头像 李华
网站建设 2026/4/16 12:22:17

IAR使用教程:配置Flash下载参数的操作指南

IAR实战进阶:手把手教你搞定Flash烧录配置你有没有遇到过这样的场景?代码编译通过,调试器也连上了,结果一点“下载”按钮——弹窗报错:“Failed to program sector”、“Target not responding”……反复检查硬件连接、…

作者头像 李华
网站建设 2026/4/15 9:39:36

为什么你的Open-AutoGLM总是启动失败?这7个配置细节必须掌握

第一章:为什么你的Open-AutoGLM总是启动失败? Open-AutoGLM 作为一款基于 AutoGLM 架构的开源语言模型运行框架,其启动失败问题在开发者社区中频繁出现。多数情况下,问题根源并非代码缺陷,而是环境配置与依赖管理不当所…

作者头像 李华