（论文速读）MLFNet：基于多层次特征融合网络的机械故障特征学习-编程阁

论文题目：Multi-level features fusion network-based feature learning for machinery fault diagnosis（基于多层次特征融合网络的机械故障特征学习）

期刊：Applied Soft Computing 2022

摘要：轴承是旋转机械中最关键的部件之一。由于轴承的故障会引起意想不到的机器损坏，因此及时准确地识别轴承的缺陷具有重要意义。然而，由于振动信号的非线性和非平稳特性，实现基于振动信号的特征提取和故障诊断仍然是一个具有挑战性的问题。卷积神经网络(convolutional neural network, CNN)被广泛应用于机械故障诊断中振动信号的特征学习。由于CNN的层次化结构，在深度网络中，通过逐层卷积计算生成多层次特征。因此，在串联层中逐层选择特征以进行多层次特征融合是一个有趣的问题。针对振动信号的特征学习问题，提出了一种新颖的多层特征融合网络(MLFNet)。首先，在MLFNet中发展多尺度卷积，利用不同核大小的多分支提取故障相关特征;其次，通过连接层对不同层的特征进行耦合，以保留区别信息;第三，提出了一种基于动态特征选择的自适应加权选择方法，用于多层次特征融合。在两个轴承试验台上验证了MLFNet在机械故障诊断中的有效性。实验结果表明，MLFNet对振动信号具有良好的特征提取性能。对于案例1(单一条件)和案例2(变化条件)，MLFNet的识别准确率达到99.75%。与这些典型的深度神经网络和现有的故障诊断方法相比，该方法在轴承故障诊断方面具有更好的性能。

MLFNet：面向旋转机械故障诊断的多层级特征融合网络详解

一、研究背景与动机

滚动轴承是旋转机械中最关键的支撑部件之一，具有可替换性强、成本低、易于批量生产等优点，被广泛应用于各类工业装备。然而，在恶劣的工作条件下，轴承极易产生各类缺陷（内圈缺陷、滚珠缺陷、保持架缺陷等），一旦发生故障将导致整机非计划停机，甚至引发安全事故。因此，及时、准确地识别轴承的故障类型，是工业健康监测领域长期以来的核心课题。

振动信号分析是轴承故障诊断最主流的技术路线，因为振动信号中包含与轴承缺陷直接对应的冲击信息。早期方法依赖信号处理（如小波包分解）和浅层机器学习（如SVM、ANN），但这些方法存在明显的局限：

严重依赖人工特征工程，需要大量领域专家知识；
对强背景噪声的鲁棒性差；
浅层结构难以建模海量数据与机器健康状态之间的复杂非线性关系。

近年来，以卷积神经网络（CNN）为代表的深度学习方法在故障诊断领域取得了突破性进展。然而，现有的CNN方案仍存在两个核心缺陷：

问题一：单尺度卷积核无法全面捕获振动信号的多频率特征。
振动信号本质上是多尺度、非平稳的。大尺度核适合过滤高频噪声、提取全局趋势，小尺度核则擅长捕获信号局部细节。使用单一尺寸的卷积核，意味着只能从某一个视角观察信号，必然造成信息损失。

问题二：CNN中间层的多层级特征未被充分利用，且融合时缺乏筛选。
CNN的层级结构天然地产生了从低层（通用）到高层（判别）的多层级特征表示。ResNet和DenseNet虽然通过跳跃连接引入了跨层特征，但这些特征在拼接后没有任何筛选机制，冗余通道与有效通道一并保留，对最终分类性能形成干扰。

基于以上两个核心问题，本文提出了MLFNet（Multi-Level Features Fusion Network），一个专门针对振动信号的端到端一维CNN模型。

二、MLFNet 模型结构与关键创新

MLFNet 的整体结构包含四个核心模块：多尺度卷积、多层级特征生成、动态特征选择和分类器。下面逐一详细介绍。

📌配图：图4（MLFNet的网络结构图）

2.1 多尺度卷积（Multi-scale Convolution）

📌配图：图1（多尺度核特征学习示意图）

传统CNN在每一层只使用一种固定尺寸的卷积核，而MLFNet在每个卷积层中同时部署三种不同宽度的卷积核（kernel size = 4, 16, 64），形成三条并行的特征提取分支。

小核（k=4）：感受野小，专注于捕获信号的局部细节和高频冲击特征；
中核（k=16）：介于两者之间，捕获中等尺度的周期性特征；
大核（k=64）：感受野大，负责滤除高频噪声、提取全局趋势和低频包络。

三条分支的特征图通过逐元素求和融合为统一的多尺度特征图：

其中f为ReLU激活函数。这种设计使得网络能够同时从多个时间尺度观察振动信号，显著增强了对复杂、非平稳信号的特征表达能力。

2.2 多层级特征生成（Multi-level Feature Generation）

MLFNet设置了三个级别（Level 1 / Level 2 / Level 3）的多尺度卷积层，每一层输出尺寸均为[16@512×1]（16个通道，每通道512个特征点）。

CNN的层级结构具有天然的层次性：

底层特征（Level 1）：通用的、与具体故障类型弱相关的特征，如信号的基本波形模式；
高层特征（Level 3）：高度抽象的、具有强判别能力的故障特异性特征。

为了同时保留来自不同层级的信息，MLFNet通过一个逐通道拼接层（channel-wise concatenation）将三个层级的特征图直接拼接，拼接后的特征图维度从[16@512×1]扩展为[48@512×1]，同时包含了低层通用特征和高层判别特征，为后续的自适应筛选提供了丰富的信息来源。

📌配图：图3（多层级加权融合示意图）
📌配图：图12（球缺陷样本在三个层级的特征输出对比）

2.3 动态特征选择（Dynamic Feature Selection）

📌配图：图2（动态特征选择模块示意图）

简单拼接三层特征必然引入大量冗余通道，因此MLFNet提出了一种基于双路通道注意力的动态特征选择机制，其设计思路来源于SENet和CBAM，但进行了融合改进。

具体流程如下：

第一步：双路全局信息聚合（Squeeze）
对拼接后的特征图同时通过平均池化（avg-pooling）和最大池化（max-pooling）生成两组通道描述符：

avg-pooling 捕获通道的整体平均响应；
max-pooling 捕获通道中最显著的激活值。

第二步：通道权重生成（Excitation）
两路描述符分别送入由两个全连接层构成的共享网络，生成各自的通道权重向量：

第三步：权重融合与特征重标定
两路权重逐元素相加，得到最终的融合权重 Ws，再与拼接特征图进行逐通道相乘，完成特征的自适应重标定，这一机制的物理意义在于：有效通道被增强，冗余通道被抑制，从而在多层级特征中保留最具判别力的信息子集。

📌配图：图13（多层级特征融合权重可视化）

2.4 网络参数配置

📌配表：表2（MLFNet参数设置表）

MLFNet的完整网络结构参数如表2所示：

输入：长度2048的一维振动信号
Level 1：三种核（K=4,16,64），步长S=4，输出[16@512×1]
Level 2/3：三种核（K=4,16,64），步长S=1，输出[16@512×1]
加权融合层：通道拼接后[48@512×1]
最大池化层：步长S=4，输出[48@128×1]
FC1：6144→1024；FC2：1024→4（类别数）
损失函数：交叉熵；优化器：Adam（学习率0.001）

三、故障诊断应用框架

📌配图：图5（MLFNet故障诊断应用流程图）

MLFNet的实际应用分为离线训练和在线测试两个阶段：

离线训练阶段：

在轴承测试台上安装加速度传感器，采集各类故障状态的振动信号，构建训练数据集；
利用多尺度卷积对原始一维信号进行特征学习；
通过通道拼接层生成多层级特征，并利用动态特征选择进行加权融合；
将最终特征送入Softmax分类器，计算交叉熵损失，利用Adam算法完成反向传播训练。

在线测试阶段：

传感器实时采集振动信号；
将原始信号输入已训练好的MLFNet模型，提取多层级加权特征；
分类器直接输出故障类别，实现实时在线诊断。

整个流程端到端，无需人工特征提取，从原始振动信号直接映射到故障标签。

四、实验验证

4.1 Case 1：单工况轴承故障诊断

实验设置：

📌配图：图6（轴承测试台实物图）
📌配图：图7（不同缺陷类型的轴承实物图）
📌配表：表1（数据集详细信息表）

实验在自建轴承测试台上进行，测试台由驱动电机、传动轴、磁力制动器和轴承组成。加速度传感器YD84D-V安装于齿轮箱上，采样频率为30 kHz。共考察4种健康状态：正常（C1）、内圈缺陷（C2）、滚珠缺陷（C3）、保持架缺陷（C4）。每类500个样本，每样本2048个采样点，共2000个样本，采用5折交叉验证评估性能。

训练过程分析：

📌配图：图9（MLFNet训练过程曲线）

MLFNet学习率设置为0.001，训练过程收敛极为迅速：仅需100个epoch，准确率即可达到99%，最终在2000个epoch后收敛至稳定高精度水平。

单次实验结果：

📌配图：图10（识别率混淆矩阵）

从混淆矩阵来看，C2（内圈缺陷）、C3（滚珠缺陷）和C4（保持架缺陷）的识别率均达到100%，仅C1（正常）有极少量误分（误分率约1%）。

与其他DNN的对比：

📌配图：图18（Case 1各方法对比柱状图）
📌配图：图19（各CNN训练损失与验证精度曲线）

MLFNet不仅准确率最高，收敛速度也明显优于其他方法；相比之下，1-D CNN和CNN的训练曲线抖动更大，稳定性较差。

与最新方法的对比：

📌配图：图20（与SOTA方法对比柱状图）

本文还与多个领域前沿方法进行了比较，包括MSCNN（多尺度CNN）、IMSN（改进残差网络）、1-D RCAE（一维残差卷积自编码器）、SCNet（自校准卷积网络）和ECANet（高效通道注意力网络）。MLFNet在5折平均准确率上均优于上述所有方法。

4.2 Case 2：变工况轴承故障诊断

📌配表：表5（变工况数据集详细信息表）
📌配表：表6（Case 2各方法对比结果表）

为验证MLFNet在更复杂、更贴近工业实际的变转速、变载荷条件下的泛化性能，论文进一步采用东南大学公开轴承数据集进行验证。

数据集设置：

两种工况：20 Hz–0 V 和 30 Hz–2 V；
五种健康状态：健康（H）、滚球故障（BF）、内圈故障（IF）、外圈故障（OF）、内外圈复合故障（IOF）；
传感器安装于行星齿轮箱的x、y、z三个方向，每样本 2048×3 通道，共10000个样本。

实验结果：

在变工况这一更具挑战性的任务上，MLFNet仍然取得了99.75% 的平均准确率，且在所有5折中均保持99.70%以上。相比之下，ResNet为99.52%，DenseNet为99.24%，1-D CNN仅94.53%，基于2D图像输入的CNN仅84.88%。与SOTA方法相比，MLFNet同样名列第一（MSCNN为99.16%，IMSN为98.55%）。

这一结果说明MLFNet对工况变化具有良好的鲁棒性，能够在不同转速和负载条件下稳定提取判别性特征。

五、可视化分析：MLFNet "黑箱"的内部机制

深度神经网络通常被视为黑箱，但本文通过多维可视化深入揭示了MLFNet的内部工作机制。

5.1 多尺度卷积核的形态分析

📌配图：图11（Level 1多尺度卷积核可视化）

Level 1中三种尺度卷积核的波形呈现出显著差异：

k=4的小核：波形简单，聚焦于高频局部模式；
k=64的大核：波形复杂，感受野更宽，捕获更丰富的全局信息。

大多数卷积核具有不同的波形特征，这意味着它们扮演着不同的滤波器角色，从不同视角提取振动信号的特征信息。

5.2 不同层级特征的判别能力

📌配图：图15（各层特征的t-SNE二维可视化）

利用t-SNE将各层特征映射到二维空间进行可视化，可以清晰观察到：

Level 1（图15b）：四类故障已有一定分离，但仍有交叠；
Level 2/3（图15c/d）：分离程度逐渐增大，高层特征的判别能力更强；
拼接层（图15e）：分布与Level 3相近，说明高层特征在多级拼接中占主导；
多级加权融合后（图15f）：相比单纯拼接，类间分离进一步改善，说明加权筛选有效地保留了有用信息、滤除了冗余；
全连接层（图15h）：四类故障完全分离，分类效果极佳。

5.3 注意力权重的分布特性

📌配图：图13（多层级融合权重可视化）

对注意力权重的分析揭示了以下规律：

大多数通道具有不同的权重值，说明注意力机制确实在自适应地区分有效通道和冗余通道；
max-pooling分支（Weights #2）产生的权重普遍大于avg-pooling分支（Weights #1），说明最大响应对通道重要性判断更为敏感；
低层级特征的融合权重大于高层级，表明低层特征在融合过程中被有意增强，弥补了其天然判别性较弱的不足。

六、消融实验：各模块的贡献分析

6.1 单尺度 vs. 多尺度卷积核

📌配图：图16（不同核尺寸的MLFNet对比结果）

论文对比了单独使用k=4、k=16、k=64以及多尺度组合四种配置下的识别性能。结果表明：

单尺度MLFNet（尤其是在第3次测试中）存在明显性能抖动，稳定性较差；
多尺度MLFNet在所有折次中均保持稳定，5折平均准确率达到99.75%，高于任意单尺度配置（k=4: 98.97%，k=16: 99.55%，k=64: 99.17%）。

6.2 有/无多层级加权融合的对比

📌配图：图17（有/无多层级融合的对比雷达图）

对比有无多层级加权融合的两个版本：

无融合版本5折平均准确率为98.66%；
有融合版本提升至99.75%，提升幅度约1.1%。

这一结果直接验证了多层级加权融合模块的有效性。

七、总结与展望

核心贡献总结

创新模块	解决的问题	实现方式
多尺度卷积	单尺度核无法全面感知振动信号	并行k=4/16/64三路卷积后求和融合
多层级特征融合	中间层特征信息被丢弃	channel-wise concatenation拼接三层输出
动态特征选择	冗余特征干扰分类	双路（avg+max）通道注意力加权重标定