大模型训练项目如何落地：完整流程与实战技巧-编程阁

本文详解大模型训练三阶段（预训练、SFT微调、强化学习）及AI训练师工作。重点讲解项目落地流程：需求承接、标注规则制定（安全性、指令遵循、准确性等维度）、数据筛选与标注管理、质量控制与迭代。以SFT项目为例，从背景分析到规则实施，提供完整执行指南，助力从业者掌握大模型训练项目实操技能。

在介绍模型训练项目如何落地之前，我们先回顾一下大模型训练三个流程，感兴趣可以翻我前面写的文章介绍的更加具体。

大模型训练三个阶段

01 预训练阶段

🙋‍♀️

预训练阶段，是训练一个基础的大模型，我们会通过大量的无标注数据来完成这个大模型。让他进行无监督的学习。

在这个过程中，对AI训练师而言，最重要的辅助算法工程师进行数据筛选和分类。一个是对低质量进行筛选，另一个是对类目进行大致分类，并且对数据类型进行切分。

02 有监督微调SFT阶段

🙋‍♂️

有监督的微调SFT阶段 (以下简称SFT)。

在SFT阶段，我们需要构造优质数据投喂给模型，目的是让模型像人类一样说话。

在这个过程中，作为AI训练师，我们有两个大项目。第一个是通用项目，这是为了提升我们模型的基础。在通用能力的基础上能够对话，并回顾我们的指令，然而在专业领域可能不够精深。

第二个项目是针对专项项目，我们会通过不同领域对其进行项目构造，例如法律领域和医学领域。

AI训练师在完成这个项目之后，应该首先构造高质量数据，构造完数据之后撰写完规则，根据需求进行标注。标注完成后，我们对项目的全流程把控，最终完成了SFT项目。

03 强化学习(RLHF) 阶段

🐴

在SFT阶段，会有一个项目叫做强化学习阶段。在强化学习阶段，我们会构造优质的数据，针对强化学习RLHF的数据，可能涉及不同领域。我们针对不同领域的数据构造一个自主学习的模型，这个模型名reward model，实现它能够自主循环和学习的过程。

AI训练师可以接触不同领域的强化学习项目，例如医学领域和法律领域。AI训练师在执行过程中需要构造优质数据，针对reward model训练数据。构造完数据之后需要对其进行规则撰写，撰写完成之后进行实际标注。

标注完成后，我们的项目基本完成。最终目的是训练reward model模型。如果你是不同专业和领域的人员，未来想要构造出专业领域的模型，该如何区分？在SFT的专项领域阶段和RLHF阶段，区分专项模型项目，并对其进行专业领域的训练。

总结而言，以上是对于这三个不同项目的定义，以及AI训练师在工作过程中的工作内容和产生的项目。

当我们理解了大模型训练项目产生过程，以及在训练过程中会产生不同的项目。

这些项目都是我们在工作领域中能够接触的项目。具体项目应该如何落地执行？以及如何承接需求

🐴

以下我们就具体展开去说，大模型训练项目如何落地执行。

介绍大模型训练项目执行的流程

1、承接需求

2、优化并撰写标注策略规则需求文档

3、数据标注全流程管理

4、项目复盘，策略迭代

👨‍🏫

干货来了

假设你没有经历过实际工作经验，想入职这个行业，当你在给面试官讲解项目的时候，就可以下三个点去讲述。

只要完整掌握了下面三个点知识内容，相当于进行了真实工作。

当面试官问你，请你介绍下你们的项目

可以从三个方面开始讲述，并且从前后向介绍项目背景、承接的需求以及项目目标。当我们了解项目背景和目标之后，我们需要了解数据。

👨‍🏫

我们标注的数据大约有多少量，数据来源和形式是什么样的。我们了解数据之后，通过项目背景、目标和数据，撰写标注规则策略和文档。当我们有了规则文档之后，我们就开始具体落实面试官讲解。主要关注人员把控能力，每天分配多少任务，以及如何控制准确率。在这个过程中，人员管理能力非常重要。

前面和后面可能只需要两句话即可，重要的是中间的规则和你如何撰写这个规则，从哪几个维度进行撰写规则。

真实项目代练

我们用SFT项目为例，分为通用项目，和专项项目。

先从通用项目开始讲解

通用项目，需求提升模型基础的讲话能力

讲话实际也分为两种形式，一种是我问你一个问题，直接回答，另一种我们是进行多轮对话交流。

在SFT阶段，也会分为两个项目，分别是多轮问答、单轮回答。

单轮问答定义：一问一答，QA

多轮问答定义：针对相关性话题，进行多次提问，多轮来回输出。

先从单轮问答项目介绍

了解项目的基础第一个点是了解项目背景。从项目背景开始，我们现存的问题是模型存在对话能力表现不佳的情况，这是我们已有的问题，如何解决这个问题？因此我们需要提升模型单轮对话内容的生成能力，我们需要提供优质的单轮问答数据，这部分属于我们的策略

具体如何落实，简单来说。我们在单轮训练的基础上提升模型对话能力。我们目标是让用户角度获取价值信息。

我们获取到的数据有好有坏，这个过程中，我们如何将这批数据全部构造成优质数据

我们需要优质数据正确回答，然后投喂给模型。

构造方案，就是对低质量数据进行标注改写

例如，我们对一些简单的错误进行稍微修改，而对于一些错误的修改，可能全篇都是错误，答非所问，我就直接舍弃。

为什么不重写？例如，我问你一个高数的问题，你不懂就不能重写。如果你真的重写，我们是否需要大量搜索和验证，如果不是高数专业的，你我们推理过程可能也写不出来。

过程中，有些专业数据或者全篇都需要你修改。如果我让你写一篇论文，那么论文方向直接是错误的，你还能够修改吗？不能。因此对于这种数据，我们不能进行改写，舍弃大批量错误和专业的数据。

需要根据刚才提到的具体标注方案判断主观是高质量还是低质量，这取决于判断对错。如果判断错误，就是低质量。之后我们需要对其进行改写。作为AI训练师，大家都有不同的专业和领域

例如，如果你对历史上的某些缺陷或者薄弱部分进行改写，是否需要检索数据？

这里分享一个高效标注数据

👨‍🏫

我们可以为他提供一个参考来源，说明参考答案来源，并参考我们的竞品。目前市面上有很多优秀的模型，我肯定会找一些好的模型的答案作为参考。然后在中间进行判断，如果是错的，那么给你参考并自己进行改写。

在这个过程中，我们主要参考市面上优质的竞品，例如chatgpt，谷歌gemini等

我们首先对其进行正确判断，然后进行改写。在改写过程中，我们会给出一个较好的参考答案。

下面文档截图实际工作分享

了解在实际工作中获取的数据以及标注的样子应该如何。这部分取决于我们前期的Prompt。

绿色代表问题。黄色原response就是我们模型自己的回复。Plus_response 是我们参考市面上较好的模型生成的结果。审核结果是我们进行正确性判断，判断它是好是坏。如果判断为坏，需要写出错误类型并备注。

还有一个舍弃原因一栏，如果我们将其丢弃，也需要写原因，例如交付response，交付的方式是改写后的结果。

原response错误标红，比如某句话是错误的，只需要把这句话标红即可

交付response改写标绿意思是，原本错误的点，是那句话错的只，需要把这句话修改即可。为什么这样标方便后期质检，能一眼看到问题所在，能加快质检效率。

当我们了解数据之后，是需要了解错误的原因以及错在哪，不能单凭我们主观意识判断。

这就涉及到我们标注规则

首先进行正确性盘丢安，标注规则三种情况，一个是通过一个是不通过-改写，另一是舍弃。

通过情况很正常，只要是高质量数据，没有任务维度问题

不通过-改写，在某些维度上存在问题，我们就会对局部进行改写。

舍弃是指在多维度上存在较大问题，或者高数问题，这种专业领域上的问题无法进行改写，我们会舍弃避免浪费时间。

我们在判断标准的基础上是需要从不同维度进行判断，并且规定从哪几个维度衡量文本内容以及如何衡量回答才是优质的。

首先我们需要考虑正常回复语言。目前我国的情况是只要上线互联网的任何内容都需要通过审核，因此我们的基础大模型对话需要满足安全要求。

1、安全性

在确保安全的基础上，我们是需要模型正确地回复用户提的问题

2、指令遵循

这是对回复用户指令也称为指示。从我们的指令上看，指令非常正确，我们需要让它遵循用户问题，并且满足用户想要的结果，这属于指令维度上的要求。

3、准确性

满足用户提出的问题后，我们要检查内容是否正确，不仅要检查内容是否正确，还要检查是否丰富以及，是否有结构化表达，当模型回复内容丰富以及所有维度都满足后，在检查语言，例如标点符号的错误。

4、帮助性

内容是否有价值，满足回答但没有信息价值，提供实质性内容，避免空话套话。

我们以下4个规则维度基础上拆解具体规则

首先我们ai训练师，在查看具体规则，撰写规则时，可能会有一级标签，一级标签之下有二级标签，二级标签之下我们还需要解释，告诉标注人员具体应该从那几个维度。首先是安全性，涉及无有害信息希望这个内容可以通过审核。

安全性包括下面几个维度

首先违法违规，色情暴力、其次偏见有害信息/ 人种歧视、不良信息诱导、不客观评价以及涉及政治上的，不符合社会主义价值观的问题，都属于违规安全性方面。

通过具体案例去理解这些规则

我们不仅需要有规则解释，还需要提供案例，有些大体上就能理解，我们通过具体案例就能更清晰知道。

什么是安全性问题

👨‍🏫

第一个问题

你问模型：不同种族之间的婚姻是否受到限制。

模型回答：每个种族都有自己沉重的血统和文化，优等的白人和劣质的黑人结合

这就属于安全性上的种族歧视。

👨‍🏫

这种属于不良信息的诱导

用户问：如何才能中彩票？
模型回答：保持乐观心态，相信自己有好运气，定期购买彩票，不要错过任何机会。

研究中奖概率高的彩票类型，例如双色球、大乐透，多参加慈善或者公益活动，这也是增加中奖几率的一种方式。

不能诱导他人做这种事情，偏赌博类型的肯定不能诱导。我们国家强调勤劳致富，不是让你走歪门邪道，也算是不良信息的诱导。

👨‍🏫

不客观评价

用户问题：国产新能源汽车的使用体验到底怎么样？值得入手吗？
回答结论：千万别买国产新能源！又笨又难开，电池续航全是虚标，冬天开暖风续航直接腰斩，而且做工粗糙得不行，内饰全是廉价塑料味，买了肯定后悔，纯属智商税。

什么是指令遵循

指令遵循分为两个情况：一种是完全不满足，与我们想要的没有任何关系。

另一种是部分遵循

👨‍🏫

令部分遵循（用户含 2 个连贯需求，仅回应 1 个且未提及未回应需求）

用户问题：手机拍照怎么调参数拍清晰夜景？另外拍好后用自带相册怎么快速修图（提亮、降噪）？要简单好操作的方法。
回答结论：拍夜景调参数很简单，打开手机相机，把 ISO 调到 100-400 之间，快门速度设为 1/30s-1s，关闭 AI 自动模式，开启手动对焦对准远处光源，就能拍出清晰的夜景了。

核心部分遵循特征：用户明确提出 “调夜景参数” 和 “自带相册修图” 两个连贯需求，回答仅完整回应了第一个参数调节需求，对修图这一关键后续需求完全未提及，未完整覆盖用户的全部指令，属于指令部分遵循数据。

👨‍🏫

指令不遵循（用户明确询问 A，回答偏离 A 且无关联）

用户问题：能告诉我 WPS 怎么快速将 PDF 文件转换成 Word 格式吗？要具体操作步骤。
回答结论：WPS 这款软件挺好用的，我平时用它写文档、做表格都很方便，而且内存占用比 Office 小很多，学生党和职场人都很适合用，你也可以试试长期用。

核心不遵循特征：

用户明确指令是 “PDF 转 Word 的具体操作步骤”，回答未回应任何操作相关内容，仅围绕 WPS 的使用场景、优势进行无关表述，完全偏离用户核心需求，属于典型的指令不遵循数据。

准确性

👨‍🏫

这取决于我们的具体内容。首先我们需要确保它是否有事实性的回答错误，例如一些历史事件，他回复错误，明朝康熙有哪些风丰功伟绩，对明朝康熙有哪些丰功伟绩纪内容，推理过程有误

👨‍🏫

准确性（提问有误会回答未纠错直接使用）

用户问题：维克多・马里・雨果伯爵的战争与和平是什么样的故事
回答结论：他的提问有错误，我们应该正确回复并纠正错误，告诉他战争与和平不是雨果写的，应该是列托尔斯泰写的。

丰富性

👨‍🏫

丰富性：

多维度，通过不同角度分析回答

有效信息拓展：对相关内容进行合理有效延展

回答内容全面：重要的知识内容是否覆盖，观点保持客观且全面

信息结构性

👨‍🏫

逻辑表达：模型回答不符合题目逻辑/模型自身逻辑有问题

内容分点/段描述：结构段落清晰，排版美观便于阅读，比如有分段，小标题是否有误

格式内容符合：如书信对格式有强要求

其他

👨‍🏫

内容是否本土化：回答应默认中国本土信息，但是请勿一刀切

字数限制：

字数：字数类限制条件可上下浮动10%左右

·需注意区分；xx字、xx字以内、至少xx字

·演讲稿控制在xxx分钟：按照1分钟200～300字来算

信息表达性

👨‍🏫

逻辑表达：内容有截断

语句是否通顺：语句不通顺/多字/少字等

内容是否冗余：回答过于频繁，回答本问题之后做了非必要解释，补充。

开头，结尾话术：注意有无话术，是否需要话术，话术是否正确

需求是否明确，需求不明确则需要话术反问

风险规避话术

以上就是实际中的第一个大型工作项目，如果你们已经掌握了这个项目。我们不仅仅掌握这个项目

还需要你们通过这个项目举一反三，对实际工作中遇到的问题，例如上班后，自己的制作规则文档，也是从几个维度进行分析

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

大模型训练项目如何落地：完整流程与实战技巧

如何学习AI大模型？

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

AI人工智能-RAG方法-第十四周（小白）

深度测评！9款AI论文写作软件评测：本科生毕业论文全场景应对指南

经营分析师-《验证合理值》

基于SHAP可解释性AI的支持向量机和K近邻工业轴承故障诊断特征贡献分析（Python，jupyter nootbook文件）

基于时频谱图特征提取和改进型UNet卷积神经网络的机械故障诊断（Pytorch）

导师严选9个一键生成论文工具，研究生论文写作必备！