（论文速读）基于扩散模型潜变量的旋转机械健康监测与早期故障检测方法-拓冰建站

论文题目：A health monitoring and early fault detection method of rotating machines based on latent variables of diffusion model（基于扩散模型潜变量的旋转机械健康监测与早期故障检测方法）

期刊：Mechanical Systems and Signal Processing 2025

摘要：深度生成模型在旋转机械的智能状态监测中得到了突出的应用，主要利用重构误差作为健康指标(HIS)来表示实际的健康状况。这种构建HIS的方法极大地影响了健康监测和早期故障检测的健壮性和有效性。潜在变量(LV)的加入被认为是为了缓解这些挑战。尽管如此，现有的深度生成模型的有限建模能力限制了它们捕获复杂模式的能力。对此，本文提出了一种利用扩散模型中的潜在变量进行健康监测和故障预测的新方法。设计了一种基于多头自我注意机制(MHSA)的网络结构，以有效地将时间序列监测数据映射到潜在空间。扩散模型最初是使用健康监测样本进行训练的。随后，对于每个监测样本帧，分析监测样本和健康样本在潜在空间中的分布差异，以构建HIS。针对多个场景中的基线模型，对我们提出的方法进行了全面的定量和定性比较。结果表明，该方法在旋转机械状态监测和故障预测中具有良好的稳健性和有效性。

用扩散模型的潜变量做旋转机械健康监测——LV-MHSA-Diffusion 详解

1. 研究背景与动机

旋转机械（轴承、齿轮、传动轴等）是工业系统的核心部件。对它们进行健康监测（Health Monitoring）和早期故障检测（Early Fault Detection），能够在故障真正发生之前发现隐患，从而保障设备全寿命周期的安全运行。

目前主流的智能监测方法可以分为两大类：

信号处理类方法：依赖先验故障知识，对特定部件效果好，但泛化能力有限。
AI 类方法：以深度生成模型为代表，无需大量有标签数据，仅用健康样本训练，对高维数据处理能力强，近年来受到广泛关注。

在 AI 类方法中，研究者通常用健康指标（Health Indicator，HI）来定量描述设备的健康状态。HI 的构建质量直接决定了监测系统的鲁棒性和有效性。

2. 现有方法存在的核心问题

论文系统梳理了当前深度生成模型在 HI 构建中面临的三大瓶颈：

问题一：基于重建误差的 HI 受噪声干扰

现有方法（包括 VAE、GAN）通常以数据空间中生成样本与原始样本之间的分布差异作为 HI，例如重建误差和对数似然函数。然而，原始监测信号本身含有噪声，生成过程也存在时延，这些因素会污染 HI 的构建，使其偏离设备真实健康状态。

问题二：VAE 和 GAN 的潜变量空间表达能力有限

VAE使用单一正态分布对编码/生成过程建模，表达复杂数据分布的能力不足；
GAN训练过程不稳定，生成器与判别器之间的平衡难以维持（模式坍塌问题）。

两者的潜变量（LV）数量有限，限制了模型对设备真实健康状态变化的精细刻画能力。

问题三：扩散模型的潜变量用于健康监测尚未被系统开发

扩散模型（DDPM）具备多步骤、多潜变量的丰富潜空间，在图像生成等任务上已取得优异表现，理论上更适合构建 HI。但目前将其潜变量用于旋转机械健康监测的研究几乎空白。

此外，DDPM 原始骨干网络U-Net主要为图像分割设计，对工业监测信号这类长时序数据的上下文信息和时间依赖性捕捉能力不足，亟需专门的网络结构设计。

3. 论文提出的方法：LV-MHSA-Diffusion

针对上述三大问题，论文提出了一套完整的健康监测框架，核心创新点如下：

3.1 创新点一：用 MHSA 替换 U-Net 作为扩散模型骨干网络

论文设计了基于多头自注意力机制（Multi-Head Self-Attention，MHSA）的网络结构，用于替代 DDPM 中的 U-Net，以更好地处理时序监测数据。

网络结构如下：

输入层：接受时序监测样本（Case I 维度为 512，Case II 维度为 1024）
时间嵌入（Time Embedding）：对扩散时间步 t 进行编码，与输入特征融合
两层 MHSA 模块：每层包含 LayerNorm → MHSA（8个注意力头）→ Linear → SiLU → LayerNorm
输出层：预测每一步加入的噪声

📌配图位置：Fig. 6（Case I 网络结构图）和 Fig. 13（Case II 网络结构图）

训练目标与标准 DDPM 一致，最小化预测噪声与真实噪声之间的 L2 距离：

3.2 创新点二：基于潜变量分布差异构建 HI

这是本文最核心的思想。

核心假设：扩散模型在健康样本上训练完成后：

若输入的监测样本健康，反向去噪过程能顺利恢复原始信号，前向与反向转移概率之间的 KL 散度较小；
若输入的监测样本出现故障，去噪过程受到干扰，KL 散度增大。

因此，对第 n 帧监测样本，计算每个扩散时间步 t 的分布差异：

对所有时间步求均值，得到第 n 帧的 HI：

这种构建方式完全在潜变量空间进行，避免了重建误差中数据空间噪声的干扰，同时利用了扩散模型远比 VAE/GAN 更丰富的多步潜变量。

3.3 方法整体流程

整个 LV-MHSA-Diffusion 框架分为三个阶段：

① 数据采集与预处理：将振动信号裁剪为多个时序片段，构建健康样本集。

② 扩散模型训练：仅用健康样本，通过前向加噪和反向去噪两个子过程训练 MHSA 扩散模型。

③ HI 构建与应用：对每帧监测数据，计算潜变量空间的 KL 散度，生成 HI 序列，用于健康监测和早期故障检测。

📌配图位置：Fig. 3（LV-MHSA-Diffusion 整体工作流程图）

4. 实验验证

论文设计了两个案例进行验证，覆盖了仿真和真实工况两种场景。

4.1 案例一：轴承故障仿真数据集

实验设置

基于滚动轴承外圈故障动力学仿真模型生成数据集。通过设定不同的外圈缺陷深度，构建对应不同健康等级的振动响应：

📌配图位置：Fig. 4（外圈故障仿真模型示意图）

编号	缺陷深度（×10⁻⁶ m）	健康状态	样本数量
1	0.001	健康	400
2	0.01	Level 1	400
3	0.1	Level 2	400
4	0.5	Level 3	400
5	1.0	Level 4	400

📌配表位置：Table 2（实验参数设置）

仿真参数（采样频率 20000 Hz，转速 2000 rpm，每段样本长 512 点）见原文 Table 1。

📌配表位置：Table 1（仿真参数）

为测试鲁棒性，在原始信号中叠加不同信噪比（SNR = no noise / 1dB / −5dB）的高斯白噪声。

结果一：HI 单调性验证

计算每个扩散时间步的分布差异，可观察到随故障等级增加，曲线整体呈上升趋势。由此构建的 HI 随缺陷深度单调递增，与退化真值高度一致。

📌配图位置：Fig. 7（分布差异曲线及 HI 结果）

结果二：鲁棒性对比（定性）

将本文方法与5个基线模型（Anomaly-Transformer、LSTM-AE-OC-SVM、WGDT、STGAT-MAD、OmniAnomaly）在不同 SNR 下的 HI 曲线进行对比。

从结果可以看出，即使在强噪声环境（SNR = −5dB）下，本文方法的 HI 曲线仍能保持与退化过程一致的单调趋势，且各损伤等级下的误差带（error band）明显小于其他基线方法。

📌配图位置：Fig. 8（各方法在不同噪声下的 HI 曲线对比，共6幅子图）

结果三：鲁棒性对比（定量）

采用余弦相似度（Cosine Similarity）衡量构建的 HI 与缺陷深度真值之间的一致性：

方法	1dB	−5dB
LV-MHSA-Diffusion（本文）	0.99	0.33
Anomaly-Transformer	0.98	0.86
LSTM-AE-OC-SVM	0.98	0.89
WGDT	0.98	0.86
STGAT-MAD	0.99	0.52
OmniAnomaly	0.4	0.88

📌配图位置：Fig. 9（余弦相似度定量对比柱状图）

在强噪声（−5dB）场景下，各基线方法性能均有明显下降，而本文方法保持了相对较优的表现，体现了潜变量 HI 构建策略在抗噪方面的优势。

结果四：消融实验

将本文方法与以下四种变体进行对比：

LV-MHSA-Diffusion（本文，MHSA + LV）
Reconstruction-MHSA-Diffusion（MHSA + 重建误差）
LV-DDPM（U-Net + LV）
Reconstruction-DDPM（U-Net + 重建误差）

📌配图位置：Fig. 10（消融实验余弦相似度对比）

结论：

无论采用哪种网络结构，基于 LV 的 HI 均优于基于重建误差的 HI，验证了潜变量策略的核心价值。
MHSA 与 U-Net 在健康监测性能上相近，但在推理速度上差异显著：

网络结构	FPS（帧/秒）
U-Net（DDPM）	111.11
MHSA（本文）	502.51

📌配表位置：Table 3（FPS 对比）

MHSA 结构的推理速度约为 U-Net 的4.5 倍，在 NVIDIA RTX 4090 上测得，极大地提升了实时监测的可行性。

4.2 案例二：真实轴承退化实验（IMS 数据集）

实验设置

采用广泛使用的IMS 轴承数据集进行验证。测试台由电机驱动，4个 Rexnord ZA-2115 滚动轴承并联安装在同一轴上，加速度传感器安装在轴承座处，采样频率 20 kHz。

📌配图位置：Fig. 11（IMS 测试台实物图与示意图）

使用第2子数据集，共984帧监测数据，每帧包含4个通道，每通道 20480 个数据点。第984帧采集后检查发现1号轴承外圈损坏。考虑到实际工况下测点距故障源有一定距离，选用距故障最远的3号轴承数据进行分析（模拟实际场景中传感器不在故障点正上方的情形）。

训练集：前 200 帧（健康状态），每帧切分为 20 个样本（每样本 1024 点，相邻样本有重叠），共 1000 个训练样本，保留一定时序信息。

📌配图位置：Fig. 12（数据分割策略示意图）

轴承几何参数（节圆直径 71.5mm，滚子直径 8.4mm，滚子数 16，接触角 15.17°）见原文 Table 4。

📌配表位置：Table 4（轴承几何参数）

结果一：潜变量分布差异可视化

提取第1帧（健康）和第984帧（故障）的曲线，两者呈现明显不同的形状，验证了用潜变量分布差异构建 HI 的可行性。

📌配图位置：Fig. 14（健康与故障样本的曲线对比）

结果二：健康监测效果对比（定性）

与 Case I 相同的基线模型进行对比。本文方法在轴承健康阶段 HI 波动更小，故障发生后 HI 上升更明显，健康状态刻画更准确。

📌配图位置：Fig. 15（各方法 HI 曲线随时间变化对比，共6幅子图）

结果三：早期故障检测定量对比

采用以 AE-LSTM-OCSVM 方法检测到的故障时刻为基准，阈值策略统一为：

其中和分别为健康阶段 HI 的均值和标准差。

方法	AUROC	AUPRC	早期检测提前帧数
AE-LSTM-OCSVN	0.60	0.17	0（基准）
Anomaly-Transformer	0.75	0.28	0
WGDT	0.76	0.30	0
OmniAnomaly	0.62	0.21	0
STGAT-MAD	0.77	0.78	78
LV-MHSA-Diffusion（本文）	0.81	0.82	83

📌配表位置：Table 5（定量对比结果）

本文方法在 AUROC、AUPRC 和早期检测提前帧数三项指标上均取得最优表现，比基准方法提前83帧检测到早期故障。

结果四：消融实验（Case II）

对比四种 HI 构建方式（LV-MHSA、DDPM-Rec、DDPM-LVM、DDPM-Rec）在真实退化数据上的 HI 曲线：

基于 LV 的方法（无论 MHSA 还是 U-Net）均能反映轴承退化的上升趋势；
本文的 MHSA + LV 方法在退化过程中 HI 波动最小，退化跟踪性能最优。

📌配图位置：Fig. 16（消融实验 HI 曲线，4幅子图）

5. 总结与展望

核心贡献回顾

创新点	内容
网络结构	用 MHSA 替换 U-Net，专门适配时序监测数据，推理速度提升约 4.5 倍
HI 构建策略	首次将扩散模型的多步潜变量分布差异用于旋转机械 HI 构建，规避重建误差的噪声干扰
系统验证	在仿真和真实数据集上均超越5个主流基线方法，定量和定性结果一致