故障诊断大模型 | 迈向新一代智能维护：大模型与小模型的协同融合-编程阁

本期给大家推荐一篇基于LLM的故障诊断论文：迈向新一代智能维护：大模型与小模型的协同融合，论文系统性地提出了面向工业场景的智能维护融合框架Sentosa LLM，通过分层架构有机整合大模型的语义理解与小模型的精准计算能力。

该研究不仅梳理了多种协同范式，更针对工业领域在实时性、可靠性、领域适应性与知识融合等方面的核心挑战，提出了创新性解决方案。论文以通信机房节能与储能电站故障检测为案例，验证了框架在提升预测精度、增强决策可解释性以及实现高效协同方面的显著效果。本文对于推动智能维护系统向更智能、可靠、易集成的方向发展具有重要的理论与应用价值。

论文题目：Towards Next-Generation Intelligent Maintenance: Collaborative Fusion of Large and Small Models

5 案例研究二：储能电站故障检测

5.1 背景

5.2 数据集

5.3 结果

6 结论

最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，其中算法、工程应用类人才需求最为紧迫！

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料（可白嫖）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

摘要

随着智能技术的迅猛发展，融合大模型与小模型的协作框架已成为提升工业维护效能的创新方案。然而该领域仍面临诸多挑战：领域适应性不足、实时性能与可靠性欠缺、集成复杂度过高，以及知识表征与融合困难等问题。针对这些挑战，我们提出了一种适用于工业场景的智能维护框架。该框架采用五层架构设计，将领域特定小模型的精准计算能力与大语言模型的认知推理、知识整合及交互功能相融合，旨在实现工业应用中更精准、智能且高效的维护。通过电信设备机房维护和储能电站智能服务两个实际案例的验证，该框架显著提升了维护效率。

关键词：智能维护、大模型、小模型、融合

1 引言

智能维护在提升系统可靠性、助力复杂工业环境中的及时决策方面发挥着关键作用[1]。大语言模型（LLMs）的快速发展为工业场景中的智能维护需求提供了全新解决方案。LLMs已在故障诊断和智能维护等多个领域得到广泛应用，取得了显著进展。

在电网故障诊断、设备振动分析[2]-[6]等领域，研究人员提出了整合LLMs的新方法，有效突破传统技术的局限，从而提升诊断准确性和可解释性。在智能维护领域（涵盖电力[7]、港口[8]和铁路[9]等行业），专用模型与创新架构的构建推动了向智能维护系统的转型。例如，MaintAGT专业大模型[7]和基于LLM的港口设备维护助手显著提高了运营效率。

此外，为应对机械设备健康管理及预测与健康管理（PHM）中的挑战，提出了 PHM -LM框架[10]，为实现工业运营的智能化转型提供了新的发展方向和技术路径。然而，上述工作主要依赖于大模型传统的文本理解和推理能力。相比之下，传统小模型（SMs）在处理特定领域、结构化数据和执行精确计算任务方面具有固有优势。

结合两者的优点，构建一个大和小模型融合与协作的技术框架，将是提高工业场景中智能维护系统性能的关键方法。本文进一步回顾了大和小模型融合与协作的现有范式，并提出了一种专门针对工业场景智能维护设计的详细技术框架。通过电信机房维护和新能源电站智能维护的案例研究，分析了该框架的合理性与先进性。

2 总体框架

2.1 基本定义

通常，大模型指的是一种参数数量庞大（规模达数十亿甚至更多）的深度神经网络模型[11][12]。通过在大规模数据集上进行预训练，该模型能够全面理解和生成语言、图像等数据。借助该模型，可无需或仅需少量微调即可适配特定下游任务。根据处理的不同数据，大模型可以进一步分为大语言模型和大型多模态模型。相应地，小模型指的是参数量较少（规模在十亿或以下）的模型。如果按照技术框架的核心差异进行划分，小模型还可以进一步分为两类： SLM（小型大模型）和传统小模型（业务小模型、垂直小模型）。其中，SLMs是经过蒸馏和量化处理的LLMs的轻量级版本，应用于特定领域，如 Deepseek-R1-1.5B ；传统小模型是指通过传统机器学习或深度学习框架（如CNN/ RNN）生成的参数量较少的模型，例如CV模型如Yolo/ResNet，或数据模型如线性回归、决策树回归和贝叶斯回归。表I展示了大模型与小模型的简要比较。

表I大模型与小模型的比较

2.2 协作范式

近年来，为实现大模型与小模型的融合协作，学界提出了多种框架方案，旨在充分发挥大语言模型（LLMs）的通用知识与理解能力，同时结合小模型（SMs）的领域专长与计算精度。这些框架可大致归纳为以下几种范式：

•LLM作为控制器：该范式中，大语言模型接收用户指令或感知环境信息，分解并规划任务，调用外部工具（包括各类小模型）执行特定子任务。大语言模型负责理解意图、整合信息并生成最终结果。典型框架包括Hugging-GPT[13]、AutoGPT[14]等，其提供工具调用、内存管理、智能体构建等机制（如图1(a)所示）。

•LLM增强型小模型：该范式聚焦于利用大语言模型提升小模型的性能或易用性。例如，通过大语言模型生成小模型训练所需数据、解释小模型的预测结果，或将小模型输出转换为自然语言报告（如**图1(b)**所示）。

•小模型增强型大语言模型：该范式通过小模型为大语言模型提供精准的领域知识、事实依据或计算能力，从而解决大语言模型存在领域知识不足、计算不准确或生成幻觉等问题。检索增强生成（RAG）是该范式的一个典型代表。通过检索相关领域知识库（这些知识库可由SMs处理或构建），SMs协助LLMs生成更准确可靠的内容，如**图1©**所示。

•混合协作：结合上述范式的特征，根据任务需求动态调整LLMs与SMs的角色及交互方式，形成更复杂的协作模式工作流程。例如，LLM会先进行初步诊断，调用SMs进行数据验证和深度分析，随后整合信息生成最终报告及维护建议。如**图1(d)**所示，LlamaIndex、LangGraph和MetaGPT等框架可构建复杂工作流程。

图1LLM与SM协作的不同范式

不同范式的优势、劣势及适用场景对比详见表II。目前业界已存在适用于大和小模型的协作框架，例如AutoGPT、LangChain、LlamaIndex、AutoGen等。这些主流框架虽具备强大的基础功能，但在直接应用于工业领域智能维护场景时仍存在若干不足：

•领域适配性：通用框架往往缺乏针对工业领域特定数据类型的深度优化支持，例如高频时间序列数据、传感器阵列数据及工业控制系统日志。

•实时性能与可靠性：工业场景对故障诊断的实时性能及运维决策的可靠性要求极高。现有框架中大语言模型的调用延迟、潜在的幻觉问题以及复杂工作流程的稳定性可能难以满足这些要求。

•集成复杂性：将故障预测模型、根本原因分析模型、最优调度算法等广泛部署在现有工业系统中的各种专家模型（SMs）整合到通用框架中，通常需要大量定制化开发和接口适配工作。

•知识表示与整合：如何有效将工业领域的机制知识和专家经验与实时运行数据相结合，通过统一的中间表示（如知识图谱和语义层）连接大语言模型（LLMs）和小模型（SMs）是现有框架尚未完全解决的挑战。

表 IILLMs与SMs之间各种协作模式的比较

3 所提 SENTOSA LLM 框架

为突破现有工业应用框架的局限并深度整合智能维护流程，我们提出了一种适用于工业场景的智能维护技术框架——Sentosa LLM。该框架采用分层解耦设计，旨在将领域特定智能模型（SM）的精准计算能力与大语言模型（LLM）的认知推理、知识整合及交互能力有机结合，从而实现高效、可靠且易于集成的智能解决方案。如图2所示，Sentosa LLM框架的核心由设备层、数据层、模型层、应用层及决策交互层构成。其中，模型层作为框架核心，负责数据处理、分析、建模与推理，体现了大模型与小模型的深度融合。该层主要包含两个协同工作的子模块：领域特定SM模块和LLM协作模块。Sentosa LLM框架通过以下核心技术实现与中小型企业及外部知识的交互与整合：

1）中间表征与知识桥接技术，通过工业知识图谱、语义层和向量数据库构建统一知识表征体系，实现结构化数据、非结构化文本、领域知识与模型输出的无缝衔接；

2）提示工程设计，通过精心设计和优化输入大语言模型的指令，引导其完成任务理解、规划与执行；

3）相关性辅助检索技术，利用向量数据库和知识图谱提取相关上下文信息，显著提升大语言模型生成内容的准确性和可靠性。

4）工作流引擎：负责根据预设模板或动态需求，协调并调度语言模型（LLM）与智能模块（SMs）之间的协作流程，自动执行包含数据处理、模型调用、信息整合及结果生成等复杂任务流。

5）工具调用：通过定义标准化接口（如API、函数调用、模型上下文协议），使语言模型能够调用智能模块中的模型作为执行专业计算任务的工具。通过上述分层设计与协同机制，Sentosa LLM框架可有效整合多源异构数据，结合大模型与小模型的优势，完整运行智能维护流程，最终在工业场景中实现更精准、智能且高效的维护方案。

图2Sentosa LLM框架架构：支持大与小模型协同工作

此外，在该框架中，模型结果的可解释性通过“透明化模型设计+可追溯交互流程+领域知识深度整合+多维度评估验证”实现。具体措施包括：

• 模型系统（SMs）负责执行基于规则的可解释推理（例如基于物理公式的故障阈值判断）。

• 语言模型（LMs）提供自然语言解释并关联行业知识（例如“根据历史案例，该温度异常可能是由组件老化导致”）。

• 模型系统与语言模型通过日志系统和可视化工具形成完整的可解释链条，最终提升工程师对维护建议的信任度和执行效率。

4 案例一：通信运营商机房节能

4.1 背景

随着5G技术的普及和数据中心的扩展，通信运营商机房的运维挑战日益严峻。实验旨在验证Sentosa LLM框架通过大模型与小模型协同工作，对提升机房温度预测精度、优化空调控制、节约能源及降低能耗的实际效果。

4.2数据集

本研究采用中国联通某机房采集的数据集，时间跨度为2024年1月1日至12月31日。该数据集包含多源异构数据，既涵盖内部运行状态，也包含外部环境变量。具体而言，时间序列数据包括：多个室内传感器采集的温湿度读数、空调系统运行状态日志，以及电表测量值，所有数据均以两分钟为间隔记录。外部环境数据通过大模型调用外部工具每小时获取，包含室外温度、湿度及极端天气指标。此外，数据集还包含非结构化文本数据，包括运维日志及空调设备操作手册。

4.3结果

基线模型是一个长短期记忆（LSTM）网络。同时，采用基于规则的专家系统实施节能控制策略，该系统使用预定义的规则引擎开发。对三种配置进行了比较分析：使用原始数据训练的 LSTM 模型、使用增强数据训练的 LSTM 模型，以及通过基于LLM的校正进一步优化的 LSTM 输出，该校正结合了高阶语义特征。结果见表III。

表 III不同模式下温度预测结果的比较

研究结果表明，在Sentosa LLM框架下，通过协同增强， LSTM 在设备间温度预测中的性能显著提升。具体而言，通过利用LLM驱动的历史记录和领域特定文本信息分析生成目标增强数据，平均绝对误差（MAE）和均方根误差（RMSE）分别降低了15.4%和17.5%。此外，通过整合来自外部环境条件和内部系统状态的上下文信号，与仅使用增强数据训练的模型相比，优化后的预测在MAE、 RMSE 和平均绝对百分比误差（MAPE）方面进一步降低了约18%。表IV进一步展示了温度控制性能及相应节能效果的一周间隔比较评估。该评估基于同一设备室内在不同预测方案和控制策略下进行的实际部署。

表IV不同策略下温度控制精度与能耗的比较

5 案例研究二：储能电站故障检测

5.1 背景

储能电站对平衡电网供需、提升能源利用效率具有关键作用。然而，这类电站面临电池内部微短路、热失控等安全隐患，以及电池健康状态评估和寿命预测的不足。这些问题和潜在风险严重威胁着储能电站的安全运行。因此，亟需采用先进的智能运维技术，确保其安全、稳定、高效运行。本实验以储能电站微短路故障的早期诊断为例，研究深度学习模型的对比分析及大模型与小模型的协同应用。

5.2数据集

我们利用从位于山东省的 511MW/1071.5MWh 容量储能电站中收集的数据集。该数据集来源于电池管理系统（BMS）在单电池水平上收集的电化学时间序列数据，包括以1秒间隔和2年持续时间采样的电压、电流和温度。

5.3结果

我们仍考虑使用 LSTM 网络作为基线小模型。首先，通过卡尔曼滤波对数据进行去噪处理。然后通过小波变换和经验模态分解（EMD）进行特征提取，之后训练 LSTM 网络来检测轻微的内部短路故障。

在Sentosa LLM框架内，用户通过逻辑模型查询电池阵列的健康状态。基于集成的知识库和系统拓扑结构，逻辑模型调用小型 LSTM 模型生成诊断结果。随后，这些结果会进行时空一致性检查，例如判断异常集群是否位于同一冷却分支内，或电压下降是否先于温度升高。这一过程能够修正小模型产生的诊断输出，从而提高检测准确性。逻辑模型随后生成并提供维护建议。该框架通过延长检测提前时间同时保持高诊断准确性，显著提升了锂离子电池系统中轻微内部短路的早期预警能力。它还实现了低推理延迟和内存使用，支持实时工业部署。对于每个潜在风险，系统提供可操作的建议，使复杂环境中能够进行主动且智能的故障管理。

表V典型故障检测案例分析

6 结论

我们深入研究了大模型在工业系统智能维护中的应用。通过系统梳理现有方法与实施方案，我们精准定位了各方法的优势与局限。为应对这些挑战，我们提出了一种融合大模型与小模型互补优势的统一框架。该框架采用分层架构设计，能够有效整合多源异构数据。我们巧妙结合了大模型的语义推理能力与小模型的低延迟、高资源效率特性，为维护全生命周期提供端到端的决策支持。通过在通信设备机房和储能系统等典型工业场景中的实践验证，该方案展现出显著的效能、良好的扩展性，并有望成为未来智能维护解决方案的基石范式。