Visual detection of sand concrete cracks in railway tunnel lining mechanism based on Mask R-CNN model
-
摘要:
铁路隧道衬砌结构裂缝图像具有复杂的灰度分布和变化特征,局部和全局的多特征信息会干扰跟踪方向和边界跟踪参数,模型可扩展性受限,检测准确率较低。为此,提出基于Mask R-CNN模型的铁路隧道衬砌机制砂混凝土裂缝视觉检测方法。首先输入分段线性变换后的砂混凝土裂缝图像,抽取阈值,生成连通域标识,再以像素点为背景点,在Mask R-CNN模型中,同时检测裂缝区域的位置和标记像素级的边缘掩膜,判定裂缝边界起点与裂缝宽度;然后进行累加视觉检测方法设计,按照裂缝的几何特征以及排序结果,求解裂缝长度,获得完整的裂缝轮廓。试验结果表明,所提方法可以较为完整地检测所有关键位置,裂缝参数信息检测准确率较高;迭代次数升高后,检测结果受到的影响较小,可扩展性得到了改善,可适应任务需求,具有较好的应用价值。
-
关键词:
- Mask R-CNN模型 /
- 铁路隧道 /
- 衬砌机制 /
- 砂混凝土裂缝 /
- 视觉检测
Abstract:The crack image of railway tunnel lining structure has complex grayscale distribution and variation characteristics, and local and global multi feature information interferes with tracking direction and boundary tracking parameters. The model’s scalability is limited, and the detection accuracy is low. Therefore, a visual detection of sand concrete cracks in railway tunnel lining mechanism based on Mask R-CNN model was proposed. Firstly, after inputting the segmented linear transformation of the sand concrete crack image, a threshold was extracted to generate a connected domain identifier. Pixel points were used as background points in the Mask R-CNN model to simultaneously detect the position of the crack area and mark pixel level edge masks, the starting point and width of the crack boundary was determined, and a cumulative visual detection method was designed. Based on the geometric characteristics and sorting results of the cracks, the crack length was calculated, and the complete crack contour was obtained. The experimental results showed that after using the method proposed in this paper, all key positions can be detected completely; After increasing the number of iterations, the detection results were less affected, indicating that its scalability had been improved and can adapt to task requirements; and therefore, it has good application value.
-
Keywords:
- Mask R-CNN model /
- railway tunnel /
- lining mechanism /
- sand concrete crack /
- visual inspection
-
瓷砖是一种兼具实用性和装饰性的建筑材料,具有耐腐蚀、耐磨、防水、防火、易清洁等优良特性,因此在各行各业中应用十分广泛。如果在瓷砖的粘贴过程中胶泥使用不当,或者施工不规范,瓷砖在长期的使用过程中容易与粘连面产生间隙形成空鼓,从而引发瓷砖的松动或脱落,造成极大的安全隐患。由于形成空鼓的瓷砖间隙被空气填充产生了空气隔层,与实心瓷砖相比结构上出现了差异,在外力敲击下两者所发出声音的高、低频分量及其占比等区分明显。虽然对敲击声进行简单的频谱分析也能判断出瓷砖是否有空鼓,但是准确度不高,并且无法有效区分空鼓的类型。
文章采用声纹识别技术对瓷砖的空鼓率进行识别,不仅能有效提高辨识精度,还能对不同空鼓率下的瓷砖敲击声进行空鼓瓷砖模型库的构建,以便在各种场合下测试使用,具有良好的应用前景及实用价值。
声纹识别技术的关键在于声信号特征参数的选择、提取以及对提取参数分类识别模型的构建。目前,常用的特征参数有线性预测倒谱系数(Linear prediction cepstral coefficients,LPCC)、梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)及伽马同频率倒谱系数(Gammatone frequency cepstral coefficients,GFCC)等[1-3]。常用的分类识别模型有基于模板匹配的动态时间规整模型(Dynamic time warping,DTW)、矢量量化模型(Vector quantization,VQ)、基于判决模型深度学习的长短时记忆(Long short-term memory,LSTM)神经网络模型、基于概率模型的隐马尔可夫模型(Hidden Markov model,HMM)以及高斯混合模型(Gaussian mixture model,GMM)等[4-8]。声信号特征参数和分类识别模型选择的正确与否,直接影响到整个系统的识别性能。
文章在分析各种声纹识别技术的基础上对瓷砖空鼓率进行了试验。鉴于空鼓率不同的瓷砖敲击声在低频部分的差异更为明显,采用MFCC法对瓷砖敲击声进行特征参数的提取,结合使用GMM来识别判断不同瓷砖的空鼓情况,同时设计并完成了一套基于MFCC特征提取和GMM识别的试验系统,并在试验中取得了良好的测试效果。
1. 基本原理
MFCC是一种声信号的特征参数提取方法,常被应用于语音识别、语音合成、语音增强等语音信号处理领域,其根据人耳对语音信号的频率非线性感知特性,通过在Mel频率刻度下对语音信号做分段滤波、频谱能量等处理来获得MFCC的特征参数[9-10]。MFCC具有较高的识别性能,目前也常被应用于其他音频信号的识别领域。
在模型识别方面,GMM是一种常用的统计模型,常被应用于各种声信号的特征建模(如语音中的单词和短语建模)、聚类分析、模式识别等领域,其通过多个单高斯分布模型的线性组合混合成一个新的概率模型,可以逼近任意形状的概率分布,具有更强的表达性,既解决了短时模型描述平稳信号的问题又具有运算速度快、模型训练复杂度低、鲁棒性好等特点,从而被广泛应用[11]。
1.1 MFCC特征提取
声信号的MFCC特征提取包括声信号的预处理、快速傅里叶变换(FFT)、Mel频率转换、Mel滤波器组滤波、离散余弦变换(DCT)等,具体计算过程如下。
1.1.1 声信号预处理
声信号预处理包括对声信号进行的预加重、分帧、加窗、去噪等处理。
(1) 预加重:空鼓瓷砖敲击声在传输和接收过程中高频分量相对衰减较大,可采用数字滤波的方法来补偿高频部分。通过一个数字高通滤波器提升高频分量,该滤波器的传递函数H(z)可表示为
(1) 式中:μ为预加重系数,通常取0.9~1.0。
(2) 分帧:将采集到的时间较长的声信号进行分帧,分帧后的短时信号可看作平稳的随机信号,便于短时或瞬时特征的提取。采用交叠分段法进行分帧,设置固定的帧移使每帧之间平滑过渡,用采样点个数N和ΔN分别表示帧长和帧移。
(3) 加窗:分帧后信号的起始点和终止点可能存在幅度的突变,为了减小这种突变对信号处理结果的影响,对分帧信号进行Hamming或Hanning窗函数加窗处理。
(4) 去噪:根据实际情况设置小的信号切除阈值,切除接收声信号中存在的微小噪声。
1.1.2 快速傅里叶变换
对预处理后的帧长为N的每帧信号做快速傅里叶变换(FFT),求得其频谱X0(k),0≤k≤N-1。
1.1.3 Mel频率转换
将求得的离散谱中的线性频率f转换为非线性Mel频率Mf,转换公式为
(2) 可得到Mel频率转换后的Mel频谱X1(k)。
1.1.4 Mel滤波器组滤波
在瓷砖敲击声频率范围内设置由M个Mel滤波器Hm(k)构成的Mel滤波器组,对Mel频谱X1(k)进行滤波处理。Mel滤波器组在Mel频率轴上为均匀分布,且呈相互重叠的等高三角窗形状,每个滤波器的起始点在上一个滤波器的中点处,如图1所示。
1.1.5 取对数
对滤波器组中每个滤波器的输出取能量对数,得到相应的对数功率谱s(m)为
(3) 式中:m为滤波器序号,0≤m≤M-1;0≤k≤N-1。
1.1.6 离散余弦变换
将式(3)计算出的对数能量s(m)进行离散余弦变换(DCT),得到MFCC系数C(n)为
(4) 式中:L为DCT输出的系数个数,即MFCC系数的维度 ,L≤M。
实际应用中,平稳信号常见的MFCC维度为5~15。式(4)计算得到的C(n)为标准的MFCC系数,反映了信号的静态特征,可通过C(n)的一阶或二阶差分来提取信号的动态特征。
C(n)一阶差分d(n)的计算公式为
(5) 式中:K表示一阶差分的时间差,可取1或2。
将一阶差分计算结果再次代入式(5)就可以得到MFCC的二阶差分参数。将MFCC的静态特征、一阶差分及二阶差分参数进行混合,最终可构成一个3L维度的特征向量。
1.2 空鼓识别模型
对于采集到的瓷砖敲击声信号,如果将整个声信号分成J帧,而每帧信号通过MFCC方法提取得到3L维度的特征向量,则对整个声信号进行处理后可得到一个J×3L(J行,3L列)的特征参数矩阵。由于特征参数矩阵的数据量较大,不利于后续的分类、识别处理,因此采用高斯混合模型的方法,利用其对多种数据的灵活处理能力,进一步优化处理数据过程。
高斯混合模型采用由多个单高斯密度函数线性加权组合的方法来逼近所要分析的特征参量X,其表达式如下
(6) 式中:Q为单高斯概率密度函数bi(x)的个数或混合数;ωi为bi(x)对应的权重。
单高斯概率密度函数bi(x)可表示为
(7) 式中:D为特征参量维度;μi为bi(x)的均值向量;
(j= 1,…,D)为bi(x)所对应的特征矢量的第j维分量的方差,
为协方差矩阵。
λ是由权重ωi、均值向量μi、协方差矩阵Ci组成的GMM参数集,表示一个由J帧信号构成的完整声信号所对应的GMM模型,可表示为
(8) λ可以采用最大似然准则法通过期望最大(Expectation maximization,EM)算法求得[12]。EM算法的基本思想为:从初始模型λ出发,去估计另一个新模型λ′,使p(x|λ′)≥p(x|λ);得到的新模型在下次迭代中作为新的初始模型进行估计,如此反复迭代直至达到收敛阈值后终止。迭代完成后的最终λg构成一个GMM参数模型。
整个瓷砖空鼓率的识别流程如图2所示,流程分为模型训练和模型测试两部分。实际应用时,将不同空鼓率瓷砖的多次敲击声分成两组,其中一组作为训练样本,另一组作为测试样本。首先对各个训练样本进行处理,以MFCC作为特征参数,采用期望最大EM算法对训练样本进行GMM参数集的求取,同时通过所有训练样本构建不同空鼓率瓷砖样本的GMM模型库;然后对各个测试样本进行MFCC特征参数和GMM参数集的求取,并与训练样本GMM模型库中的参数模型进行比较,通过似然函数值L(y)的大小来判断测试样本与模型库中的哪个样本最为接近,进而完成瓷砖空鼓率的识别。
似然函数值L(y)的计算公式如下
(9) 式中:y=y1,y2,…,yJ,为由各个测试样本的J帧信号特征向量构成的合集。测试样本与训练样本中某个样本的L(y)值越大,表示二者的接近程度越高。
2. 系统介绍
为了对瓷砖空鼓率进行识别,构建了一套由麦克风、声信号调理采集仪及上位机构成的试验测试系统,系统的结构框图及实物如图3所示。麦克风用于瓷砖敲击声信号的接收,声信号调理采集仪用于对麦克风接收信号的调理、放大与采集,上位机用于对采集信号的处理及识别。
声信号调理采集仪由接收信号调理放大电路及AD采集电路两部分构成,其中接收信号调理放大电路由前置放大器、可控增益放大器、有源滤波器、主放大器构成,可以对麦克风接收信号进行可控增益放大及根据瓷砖敲击声频率范围设定的100 Hz~5 kHz的有源带通滤波。调理放大后的信号由AD采集电路进行采集,AD采集电路的采样位数为16位,采样率可以在1~16 kHz内任意设置。采样后的信号通过网络接口传送给上位机,由上位机对接收信号进行进一步的分析与处理。
为了实现系统所需的功能,用MATLAB设计了相应的上位机采集控制软件及声信号处理软件,其中上位机采集控制软件主要用于声信号调理采集仪的接收信号增益控制、采样率控制及接收信号的采集;声信号处理软件主要用于声信号的MFCC特征提取、GMM参数集求取、GMM模型训练及GMM分类识别等,声信号处理时的各种参数如帧长N、MFCC维度L、GMM混合数Q等也可通过该软件进行设置。
3. 试验结果与分析
为了进行瓷砖空鼓率的测试试验,在实验室墙上根据胶泥涂抹面积的占比不同分别铺贴了实心瓷砖以及空鼓率为10%,20%,30%的瓷砖各10块。空鼓瓷砖的空鼓主要位于瓷砖的中心处,如图4所示。B为瓷砖的空鼓区域,A为剩余的实心区域,粘贴时尽可能将空鼓区域B位于瓷砖的中心处。
瓷砖粘贴完成后,分别随机选取了4类不同空鼓率瓷砖中的6块作为训练样本,用于提取瓷砖敲击声以及建立GMM模型库。提取声音训练样本时,对每块瓷砖用同一硬质锤以适当的力度在瓷砖中心处进行敲击,采集其中的25次敲击声共计600个信号作为训练样本。
在声音训练样本的特征提取及GMM模型库建立的过程中,对MFCC和GMM的各种参数进行了调节,并比较了不同参数下的分析效果,最后选定的参数设置值如表1所示。EM算法计算时的最大迭代次数选定为1 000次。
Table 1. MFCC及GMM处理时的主要参数设置采样率/kHz 预加重系数μ 帧长/采样点数N 帧移/采样点数ΔN 窗函数 小信号切除阈值/% MEL滤波器个数M MFCC维度L GMM混合数Q 16 0.937 5 256 90 Hamming 10 29 36 16 4种不同空鼓率瓷砖的36维度MFCC特征图谱如图5所示,可以看出,随着瓷砖空鼓率的变化,MFCC特征图谱在不同维度上的分量也在发生变化,这也说明用MFCC作为特征参数具有良好的识别性,可以更好地判断和识别瓷砖空鼓率。
对采样得到的600个声音训练样本进行处理并建立GMM模型库后,分别对4类瓷砖中作为训练样本的6块瓷砖和剩余的4块瓷砖进行了空鼓率识别试验。试验测试时,除在瓷砖中心处进行敲击外还扩大了敲击范围,即在中心附近不超过B区域的范围内随机敲击以验证其效果。试验测试的结果如表2所示,可以看出,对于作为训练样本的瓷砖,空鼓识别正确率很高,可达100 %,而对于未经训练的作为测试样本的瓷砖,空鼓识别正确率也较高,最低可达97 %。
Table 2. 不同空鼓率瓷砖的识别结果空鼓率 实心瓷砖 10 %空鼓 20 %空鼓 30 %空鼓 训练样本瓷砖 测试次数/次 100 100 100 100 正确次数/次 100 100 100 100 正确率/% 100 100 100 100 测试样本瓷砖 测试次数/次 100 100 100 100 正确次数/次 100 97 99 100 正确率/% 100 97 99 100 进一步地,对3类空鼓瓷砖分别进行了敲击位置与空鼓识别正确率之间的关系试验,结果表明,空鼓识别正确率的高低与敲击点位置有关,当敲击点位于B区域的中心位置时识别率最高,约为99.7 %;当敲击点位于B区域中心位置附近时识别率有所降低,约为92.4 %;当敲击点位于A、B区域的交界位置时,识别率降低严重甚至会出现将空鼓瓷砖识别为实心瓷砖的情况。试验结果表明,系统对瓷砖敲击声的时频分布特性较为敏感,能有效区分不同敲击声之间时频分布特性的细微变化,从而有效识别是否空鼓及空鼓率的大小。
4. 结语
文章采用MFCC法提取瓷砖敲击声信号的时频分布特征,再用GMM法对MFCC法提取的特征参数进行分类和识别。利用研制的试验系统对不同空鼓率瓷砖进行检测试验,结果表明,采用MFCC与GMM相结合的方法,能有效提高瓷砖空鼓率的识别精度,实现空鼓率的高性能检测,具有良好的应用前景。
-
Table 1 Mask R-CNN模型参数
项目 参数 项目 参数 动量 0.7 批量处理大小 3 权重衰减 0.000 5 迭代次数 250 损失函数 Dice 优化器 SGD(随机梯度下降) Table 2 样本2的裂缝参数信息检测结果
-
[1] 王平让,黄宏伟,薛亚东 .隧道衬砌裂缝机器视觉检测系统研制与应用[J].公路,2022,67(10):439-446. [2] 毕东月 .基于深度学习的输煤皮带故障视觉检测方法研究[J].中国安全生产科学技术,2021,17(8):84-90. [3] 王保宪,白少雄,赵维刚 .基于特征增强学习的路面裂缝病害视觉检测方法[J].铁道科学与工程学报,2022,19(7):1927-1935. [4] 许霄煜,郭振武,周唯逸,等 .基于目标提取与SVM的排洪隧洞裂缝视觉检测算法研究[J].有色金属工程,2022,12(6):101-111. [5] 马晓雄,熊晓燕,兰媛,等 .金属棒材表面缺陷的机器视觉检测方法研究[J].机械设计与制造,2023(4):196-200,205. [6] 左旺,陈仲生,李潮林,等 .基于正样本的产品表面缺陷视觉检测方法[J].湖南工业大学学报,2023,37(1):69-74. [7] 郭井宽,张森,张延松 .管屏拼焊焊缝表面缺陷的激光视觉检测方法[J].焊接,2022(12):30-35. [8] 严宇,张宏伟,肖奕,等 .基于轻量级卷积网络的电力绝缘子视觉检测[J].电力科学与工程,2022,38(12):38-46. [9] 付学俊 .视觉检测技术在带式输送机堆煤故障监测中的应用[J].机械管理开发,2022,37(12):187-188,191. [10] 罗文彬,刘敏,李琳,等 .基于视觉检测的红外与可见光图像区域匹配研究[J].激光杂志,2023,44(2):186-190.