news 2026/4/16 15:44:16

准确率提升66%!上手Bedrock强化微调功能,打造更智能更经济的模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
准确率提升66%!上手Bedrock强化微调功能,打造更智能更经济的模型

re:Invent 2025,亚马逊云科技带来一系列重磅发布,掀起全球云计算创新浪潮。为帮助开发者们深入了解各项技术创新成果、上手使用最新功能,特推出本系列解读文章,助您探索云上未来的无限可能!

企业在将AI模型适配自身特定业务需求时,往往需要作出一项棘手的权衡取舍:要么采用通用模型,接受其仅能产出一般效果的局限,要么直面高级模型定制所伴随的复杂性与高昂成本。按照传统方法,企业常常陷入两难境地:选择成本较低的小模型,但其性能欠佳;部署效果较好的大模型变体,又要承担运维复杂基础设施居高不下的成本。

强化微调是一种借助反馈而非海量标注数据集来训练模型的先进技术,但实施这项技术并非易事,通常需要专业的机器学习知识储备、复杂的基础设施支撑以及高额的资金投入,而且最终也无法确保能够达到特定业务场景所要求的精度标准。

re:Invent 2025,亚马逊云科技宣布在Amazon Bedrock中新增强化微调功能,这项全新的模型定制功能可以打造更智能、更具成本效益的模型,这类模型能够从反馈中学习,为特定业务需求输出更高质量的结果。强化微调采用反馈驱动的技术路径,模型根据奖励信号进行迭代优化。相较于基础模型,采用强化微调的模型平均精度提升66%

Amazon Bedrock将强化微调工作流实现了自动化处理,让普通开发者无需深厚的机器学习专业知识,也无需依赖大规模标注数据集,也能轻松掌握这项先进的模型定制技术。

强化微调的工作原理

强化微调技术是基于强化学习原理构建的,旨在解决一个行业普遍痛点:让模型稳定生成符合业务需求与用户偏好的输出结果。

传统微调需要依托大规模标注数据集以及成本高昂的人工标注工作,而强化微调技术则另辟蹊径。它并不依赖固定示例进行学习,而是通过奖励函数来评估、判定哪些响应适用于特定的业务场景。这种方式能够让模型无需依赖海量预标注训练数据,就能理解何为优质响应,从而降低了Amazon Bedrock上高级模型定制的门槛,使其变得更加便捷且更具成本效益。

使用Amazon Bedrock中的强化微调功能,能让您收获以下优势:

使用更便捷

Amazon Bedrock将大量复杂操作自动化,让AI应用开发者也能轻松上手强化微调技术。开发者可直接利用Amazon Bedrock中现有的API日志开展模型训练,也能通过上传数据集作为训练数据,无需额外准备标注数据集,也省去了基础设施搭建的环节。

模型性能更优

相较于基础模型,强化微调可将模型平均精度提升66%,支持开发者训练体量更小、运行速度更快、能效更优的模型变体,实现成本与性能的双重优化。该技术目前已适用于Amazon Nova 2 Lite模型,能够针对特定业务需求提升模型效果与性价比,更多兼容模型也将上线。

安全性更高

在整个定制流程中,所有数据均留存于安全的亚马逊云科技服务环境内,有效降低了安全与合规方面的潜在风险。

该功能支持两种相辅相成的方法,为模型优化提供灵活选择:

1.基于可验证奖励的强化学习

Reinforcement Learning with Verifiable Rewards,RLVR

针对代码生成、数学推理等客观性任务,采用基于规则的评分机制。

2.基于AI反馈的强化学习

Reinforcement Learning from AI Feedback,RLAIF

针对指令遵循、内容审核等主观性任务,采用基于AI的评判机制。

开始使用强化微调功能

下面将介绍创建强化微调任务的流程。

首先,登录Amazon Bedrock控制台。然后进入“自定义模型”页面,点击创建按钮,再选择“创建强化微调任务”。

输入本次定制任务的名称,随后选择所需的基础模型。强化微调功能现支持Amazon Nova 2 Lite模型,后续将推出更多兼容模型。

然后,用户需要提供训练数据。您可以直接使用已存储的调用日志,无需另行单独上传数据集。您也可以上传全新的JSONL文件,或从Amazon S3中选择现有数据集。

强化微调功能会自动校验训练数据集,同时兼容OpenAI Chat Completions数据格式。如果您提供的调用日志为Amazon Bedrock的invoke或converse格式,Amazon Bedrock会自动将其转换为Chat Completions格式。

奖励函数配置环节,您需要定义判定优质响应的标准。这里您有两个选项:

1.针对客观性任务:您可以选择自定义代码(Custom code),并编写自定义Python代码,再通过Amazon Lambda函数执行代码。

2.针对更具主观性的评估任务:您可以选择将模型作为评判者(Model as judge),通过提供评估指令,借助基础模型完成评判工作。

本例选择了自定义代码,随后创建一个新的Lambda函数,或直接使用现有Lambda函数作为奖励函数。您可以从系统提供的模板中选择其一作为基础,再根据自身特定需求进行个性化定制。

您还可以根据需求调整默认超参数,例如学习率、批次大小、训练轮数等。

为进一步提升安全性,您可以配置VPC相关设置,并启用Amazon KMS加密功能,以满足您所在组织的合规要求。然后点击创建,启动模型定制任务。

在模型训练过程中,您可以实时监控各项指标,了解掌握模型的学习进展。训练指标仪表盘会展示各项核心性能指标,包括奖励分数、损失曲线,以及模型准确率随时间推移的变化情况。这些指标能够帮助您判断模型是否实现了正常收敛,同时也能验证奖励函数是否在有效引导模型的学习过程。

完成强化微调任务后,您可在模型详情页面查看任务的最终状态。

任务完成后,即可一键部署该模型:选择“配置推理”,然后点击“按需部署”。

在此,您需要为该模型提供一些详细配置信息。

部署模型后,您可点击“在试验台中测试”,来通过Amazon Bedrock试验台快速评估模型性能,这有助于您使用示例提示词测试微调后的模型,并将其生成的回复与基础模型进行对比,来验证模型优化效果。

该试验台提供了直观易用的操作界面,支持快速测试与迭代优化,帮助用户在将模型集成至生产应用前,确认其性能是否满足质量要求。

交互式演示

您可浏览Amazon Bedrock强化微调功能的交互式演示,深入了解其实际运行效果。

交互式演示:

https://aws.storylane.io/share/2wbkrcppkxdr

其他须知事项

关于Amazon Bedrock强化微调功能,您还需要了解以下重要信息:

  • 模板:提供7款开箱即用的奖励函数模板,覆盖客观性任务与主观性任务的各类常见应用场景。

  • 定价:如需了解详细定价信息,请参阅Amazon Bedrock定价页面。

  • 安全:训练数据与定制模型全程保密,不会用于优化供公共使用的基础模型。同时支持VPC与Amazon KMS加密,进一步强化安全防护能力。

您可参阅强化微调功能文档,登录Amazon Bedrock控制台,即刻开始上手体验强化微调功能。

Amazon Bedrock定价:

https://aws.amazon.com/bedrock/pricing/?trk=c4ea046f-18ad-4d23-a1ac-cdd1267f942c&sc_channel=el

强化微调功能文档:

https://docs.aws.amazon.com/bedrock/latest/userguide/reinforcement-fine-tuning.html

我们将持续推出更多关于re:Invent 2025重磅发布的解读文章,帮助您快速上手!

本篇作者

Donnie Prakoso

亚马逊云科技首席开发者布道师、软件工程师,拥有超过17年的技术行业经验,职业生涯跨越了电信、银行和初创公司等多个领域,积累了丰富的行业见解和技术专长。如今,Donnie致力于帮助开发者深入理解并掌握各种前沿技术,助力他们将创新想法转化为现实。

新用户注册海外区域账户,可获得最高200美元服务抵扣金,覆盖Amazon Bedrock生成式AI相关服务。“免费计划”账户类型,确保零花费,安心试用。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:07:14

计算机毕业设计springboot大学生社会实践信息管理系统 基于SpringBoot的高校学生志愿者服务智慧管理平台 SpringBoot+Vue校园研学实践全流程管理系统

计算机毕业设计springboot大学生社会实践信息管理系统(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。“三下乡”“返家乡”“红色调研”……每到寒暑假,高校团委最头…

作者头像 李华
网站建设 2026/4/16 13:49:57

为什么说验证工程师要懂点测试?

很多做验证的工程师每天写testbench、跑仿真,却从没去测试实验室看过真实的测试设备长什么样。这就像在模拟器里练了一万小时车,却从没摸过真车方向盘。仿真和测试本质上是同一件事,只不过一个在流片前,一个在流片后。写testbench时用的driver,对应的就是测试机台上的pattern g…

作者头像 李华
网站建设 2026/4/16 14:29:39

实测效果惊艳!Qwen3-Embedding-0.6B在电商搜索中的应用案例

实测效果惊艳!Qwen3-Embedding-0.6B在电商搜索中的应用案例 1. 引言:电商搜索的痛点与新解法 你有没有遇到过这种情况:在电商平台搜“轻薄透气夏季连衣裙”,结果跳出来一堆厚款冬装或者完全不相关的商品?传统关键词匹…

作者头像 李华
网站建设 2026/4/16 14:04:59

鞋圈内部效率革命:为何他们不再“实拍”上脚图?

各位老板,今天聊点实在的。如果你发现,同行每天都在发不同场景的上脚图,但拍摄成本和效率却不成正比——那么,你很可能已经遇到了「隐性竞争对手」。他们可能正在使用这个业内快速普及的效率工具潮际好麦:|…

作者头像 李华
网站建设 2026/4/16 11:58:10

Llama3与Emotion2Vec+ Large对比:多模态AI部署实战评测

Llama3与Emotion2Vec Large对比:多模态AI部署实战评测 1. 引言:当大语言模型遇见语音情感识别 你有没有想过,如果AI不仅能听懂你说什么,还能感知你的情绪,会是什么样?这不再是科幻电影的桥段。今天我们要…

作者头像 李华
网站建设 2026/4/16 15:07:37

ms-swift模型推送教程:一键发布到ModelScope

ms-swift模型推送教程:一键发布到ModelScope 1. 简介与核心能力 ms-swift 是魔搭社区推出的大模型微调与部署一体化框架,专为开发者提供从训练、推理到模型发布的全链路支持。它不仅覆盖了600纯文本大模型和300多模态大模型的完整生命周期管理&#xf…

作者头像 李华