计算+工程 |基于弱监督学习的非均衡数据分类法及其在故障诊断方面的应用

来源:上海高等研究院发布时间:2022-07-25浏览次数:84


不平衡问题可对诊断模型的性能产生巨大影响。当这类影响出现时,少数样本很容易被分类模型所忽略。此外,类不平衡数据的分布与实际数据的分布的差别使得分类器难以学习准确的决策边界。


为了解决上述问题,浙江大学上海高等研究院计算+工程双聘教授、浙江大学教授刘振宇及其合作者提出了一种基于弱监督学习的不平衡数据分类法。首先,他们采用Bagging算法随机抽样大部分数据,生成数个相对平衡的子集,并用这些子集来训练支持向量机(SVM)分类器。其次,作者采用这些训练好的SVM分类器来预测未被标记数据的标签,并将在预测中被划分为少数类型的数据加入原始数据集,以减少不平衡率。



这一工作的关键在于通过弱监督学习的性质将真实世界的样本引入非均衡数据集。此外,作者采用双向门控循环单元(bidirectional gated recurrent unit)对故障诊断模型进行诊断建模,并采用新的加权交叉熵损失函数(weighted cross-entropy function)做为损失函数,降低噪声的影响。此外,该工作还增加了模型对原始数据中少数样本的关注。



上述方法在2008年和2010年的Prognostics and Health Management challenge数据集上得以检验,实验结果表明,该方法有效且具有优势。


该工作发表在IEEE Transactions on Industrial Informatics一刊,详情请见A Novel Imbalanced Data Classification Method Based on Weakly Supervised Learning for Fault Diagnosis | IEEE Journals & Magazine | IEEE Xplore.


今日编辑:徐敏