Page 82 - 无损检测2023年第一期
P. 82
李 伟, 等:
基于 SMOTE-GWO-SVM 模型的储罐底板腐蚀声发射检测智能评价
了大规模应用。国内, 陈荣刚 [ 2 ] 通过遗传算法优化 83.7% , 1 , 4级均仅占16.3% , 存在样本分布不均衡
贝叶斯网络实现了对储罐底板腐蚀状态的预测, 并 的情况, 为提高后续模型的训练效果, 采用 SMOTE
将储罐的宏观特征作为评价模型的输入特征, 提高 算法对少数类样本进行扩充。 SMOTE 算法对距离
模型预测的准确率。张延兵等 [ 3 ] 、 宋高峰等 [ 4 ] 、 刘琪 较近的少数类样本进行线性插值生成新的少数类样
华等 [ 5 ] 等则利用 BP神经网络及其优化算法建立了 本, 以实现数据平衡 [ 7 ] 。其主要计算过程为: ① 对
储罐底板腐蚀状态的预测模型, 实现了对储罐底板 于每一个少数类样本x , 计算其到该类中其余所有
腐蚀等级的预测。 样本的欧氏距离并得到k 近邻; ② 根据数据集的不
储罐底板腐蚀声发射智能评价系统的建立需要 平衡比例设置采样倍率 N , 从少数类样本x 的 k 近
大量的声发射检测数据支持, 这不仅对数据的量有 邻中随机选择若干个实例, 假设选择的近邻样本为
要求, 数据的分布情况也同样会影响智能评价系统 x n ③ 将随机选择的样本x n 按照式( 1 ) 计算出新的
;
的准确性。储罐底板腐蚀检测数据库中各等级样本 样本, 并加入到数据集中。
分布如图1所示, 可见, 储罐底板腐蚀状况的实际分 x new= x+rand ( 0 , 1 ) ( x n -x ) ( 1 )
×
布情况往往并不均衡, 其中1级( 非常微小腐蚀) 和 式中: x 为少数类样本; x new 为生成的新样本; rand
4级( 存在动态腐蚀) 的储罐均只有20台, 而大部分 为随机函数。
储罐的声发射评价等级为2级( 存在少量腐蚀) 和3 1.2 基 于 灰 狼 优 化 算 法 的 支 持 向 量 机 ( GWO-
级( 存在中等腐蚀)。缺陷样本在数据空间分布上存 SVM ) 智能评价模型
在差异, 尤其是在底板腐蚀状态极好和极差的储罐 SVM ( 支持向量机) 是一种处理分类和回归问
题的监督式机器学习算法。在样本数据量不充足的
声发射检测数据不足的情况下, 往往会造成1 , 4 , 5
等级的欠学习和2 , 3等级的过学习, 从而降低底板 情况下, 与人工神经网络等其他需要大量数据训练
腐蚀状态智能评价系统的准确性。 的分类算法相比, 具有更好的学习效果 [ 8 ] 。对于线
性分类问题, 其利用间隔最大化求解最优分离超平
面; 对于非线性分类问题, 其通过核函数将原空间的
数据映射到新空间, 在新的空间里用线性分类学习
方法学习分类模型。对于非线性可分的 SVM 形式
可描述为 [ 9 ]
N
1
min w 2 +C ∑ ξ i ( 2 )
w , b , ξ 2
i = 1
,
s.t. y i wx i+ b ) ≥1- ξ i i= 1 , 2 , 1 ,…, N
(
图1 储罐底板腐蚀检测数据库中各等级样本分布 ( 3 )
针对以上问题, 在结合专业人员相关经验的基 N
α
=
(
, )
础上, 充分考虑了储罐的宏观特征和声发射特征, 并 f x ) s g n ∑ i y i K ( x i x j + b ( 4 )
i = 1
以可能的腐蚀导向对特征进行了合理的预处理, 同 x i-x j 2
K ( x i x j = ex p- =
, )
时提出采用过采样技术来优化样本空间, 改善数据 2 σ 2
集的平衡性。过采样技术是一种广泛应用的数据增 ex p-g x i-x j 2 ( 5 )
强方法, 其中 SMOTE 算法是该领域影响力最大的 式中: w 为权值; b 为误差; C 为惩罚因子; 为松
ξ i
过采样方法, 能大幅度改善数据集的平衡性 [ 6 ] , 最后 弛变量; N 为训练样本数; s.t. 为约束条件; x i x j
,
结合灰狼算法优化的支持向量机( GWO-SVM ), 实 为样本; 为类别号; K ( x i x j 为拉
y i
, ) 为核函数; α i
格朗日乘子; s g n为判别函数; ( x ) 为分类决策函
现对储罐底板腐蚀声发射检测等级的智能评价。 f
2
数; σ 为 核 函 数 参 数; g 为 内 部 参 数, g =
1 SMOTE-GWO-SVM 储罐底板腐蚀声发射 2
检测等级智能评价模型 1 /( 2 σ )。
惩罚因子 C 和核函数内部参数 g 共同决定了
1.1 基于SMOTE算法的样本优化 SVM 模型的精度, 依靠经验确定 SVM 的参数难以
与试验数据不同, 储罐底板腐蚀的现场声发射 使模型达到最大准确率, 因此对 SVM 的参数 C 和
检测数据非常珍贵, 在246个样本数据中, 2 , 3级占 g 进行优化, 确定最优值十分重要。
8
4
2023年 第45卷 第1期
无损检测

