• 中国科技论文统计源期刊
  • 中文核心期刊
  • 中国科技核心期刊
  • 中国机械工程学会无损检测分会会刊
高级检索

基于MFCC和GMM的瓷砖空鼓率识别系统及方法

周浩, 梁军汀, 卢杰

周浩, 梁军汀, 卢杰. 基于MFCC和GMM的瓷砖空鼓率识别系统及方法[J]. 无损检测, 2024, 46(3): 28-32. DOI: 10.11973/wsjc202403007
引用本文: 周浩, 梁军汀, 卢杰. 基于MFCC和GMM的瓷砖空鼓率识别系统及方法[J]. 无损检测, 2024, 46(3): 28-32. DOI: 10.11973/wsjc202403007
ZHOU Hao, LIANG Junting, LU Jie. Ceramic tile hollow drum rate identification system and method based on MFCC and GMM[J]. Nondestructive Testing, 2024, 46(3): 28-32. DOI: 10.11973/wsjc202403007
Citation: ZHOU Hao, LIANG Junting, LU Jie. Ceramic tile hollow drum rate identification system and method based on MFCC and GMM[J]. Nondestructive Testing, 2024, 46(3): 28-32. DOI: 10.11973/wsjc202403007

基于MFCC和GMM的瓷砖空鼓率识别系统及方法

详细信息
    作者简介:

    周浩(1999-),男,硕士研究生,研究方向为超声检测

    通讯作者:

    周浩,2130954@tongji.edu.cn

  • 中图分类号: TG115.28

Ceramic tile hollow drum rate identification system and method based on MFCC and GMM

  • 摘要:

    针对瓷砖因内部空鼓而引起的松动、脱落等质量问题或其他安全隐患问题,研制了一套用于瓷砖空鼓率识别的试验系统。该系统采用梅尔倒谱系数(MFCC)法提取瓷砖敲击声的特征参数,再用高斯混合模型(GMM)法对MFCC特征参数进行分类和识别。试验结果表明,采用MFCC和GMM相结合的方法,可以对瓷砖空鼓情况进行有效识别,该方法具有良好的应用前景。

    Abstract:

    In view of the quality problems such as loosening, falling off and other safety risks caused by the hollow drum inside ceramic tile, this paper developed a set of experimental system for the hollow drum rate identification of ceramic tile. The Mel-frequency cepstrum coefficient (MFCC) method was used to extract the characteristic parameters of tile knocking sound, and then the Gaussian mixture model (GMM) method was used to classify and recognize the MFCC characteristic parameters. The test results showed that the method of MFCC and GMM can effectively identify the hollow drum condition of ceramic tile, which had a good application prospect.

  • 瓷砖是一种兼具实用性和装饰性的建筑材料,具有耐腐蚀、耐磨、防水、防火、易清洁等优良特性,因此在各行各业中应用十分广泛。如果在瓷砖的粘贴过程中胶泥使用不当,或者施工不规范,瓷砖在长期的使用过程中容易与粘连面产生间隙形成空鼓,从而引发瓷砖的松动或脱落,造成极大的安全隐患。由于形成空鼓的瓷砖间隙被空气填充产生了空气隔层,与实心瓷砖相比结构上出现了差异,在外力敲击下两者所发出声音的高、低频分量及其占比等区分明显。虽然对敲击声进行简单的频谱分析也能判断出瓷砖是否有空鼓,但是准确度不高,并且无法有效区分空鼓的类型。

    文章采用声纹识别技术对瓷砖的空鼓率进行识别,不仅能有效提高辨识精度,还能对不同空鼓率下的瓷砖敲击声进行空鼓瓷砖模型库的构建,以便在各种场合下测试使用,具有良好的应用前景及实用价值。

    声纹识别技术的关键在于声信号特征参数的选择、提取以及对提取参数分类识别模型的构建。目前,常用的特征参数有线性预测倒谱系数(Linear prediction cepstral coefficients,LPCC)、梅尔频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)及伽马同频率倒谱系数(Gammatone frequency cepstral coefficients,GFCC)等[1-3]。常用的分类识别模型有基于模板匹配的动态时间规整模型(Dynamic time warping,DTW)、矢量量化模型(Vector quantization,VQ)、基于判决模型深度学习的长短时记忆(Long short-term memory,LSTM)神经网络模型、基于概率模型的隐马尔可夫模型(Hidden Markov model,HMM)以及高斯混合模型(Gaussian mixture model,GMM)等[4-8]。声信号特征参数和分类识别模型选择的正确与否,直接影响到整个系统的识别性能。

    文章在分析各种声纹识别技术的基础上对瓷砖空鼓率进行了试验。鉴于空鼓率不同的瓷砖敲击声在低频部分的差异更为明显,采用MFCC法对瓷砖敲击声进行特征参数的提取,结合使用GMM来识别判断不同瓷砖的空鼓情况,同时设计并完成了一套基于MFCC特征提取和GMM识别的试验系统,并在试验中取得了良好的测试效果。

    MFCC是一种声信号的特征参数提取方法,常被应用于语音识别、语音合成、语音增强等语音信号处理领域,其根据人耳对语音信号的频率非线性感知特性,通过在Mel频率刻度下对语音信号做分段滤波、频谱能量等处理来获得MFCC的特征参数[9-10]。MFCC具有较高的识别性能,目前也常被应用于其他音频信号的识别领域。

    在模型识别方面,GMM是一种常用的统计模型,常被应用于各种声信号的特征建模(如语音中的单词和短语建模)、聚类分析、模式识别等领域,其通过多个单高斯分布模型的线性组合混合成一个新的概率模型,可以逼近任意形状的概率分布,具有更强的表达性,既解决了短时模型描述平稳信号的问题又具有运算速度快、模型训练复杂度低、鲁棒性好等特点,从而被广泛应用[11]

    声信号的MFCC特征提取包括声信号的预处理、快速傅里叶变换(FFT)、Mel频率转换、Mel滤波器组滤波、离散余弦变换(DCT)等,具体计算过程如下。

    声信号预处理包括对声信号进行的预加重、分帧、加窗、去噪等处理。

    (1) 预加重:空鼓瓷砖敲击声在传输和接收过程中高频分量相对衰减较大,可采用数字滤波的方法来补偿高频部分。通过一个数字高通滤波器提升高频分量,该滤波器的传递函数H(z)可表示为

    (1)

    式中:μ为预加重系数,通常取0.9~1.0。

    (2) 分帧:将采集到的时间较长的声信号进行分帧,分帧后的短时信号可看作平稳的随机信号,便于短时或瞬时特征的提取。采用交叠分段法进行分帧,设置固定的帧移使每帧之间平滑过渡,用采样点个数N和ΔN分别表示帧长和帧移。

    (3) 加窗:分帧后信号的起始点和终止点可能存在幅度的突变,为了减小这种突变对信号处理结果的影响,对分帧信号进行Hamming或Hanning窗函数加窗处理。

    (4) 去噪:根据实际情况设置小的信号切除阈值,切除接收声信号中存在的微小噪声。

    对预处理后的帧长为N的每帧信号做快速傅里叶变换(FFT),求得其频谱X0(k),0≤kN-1。

    将求得的离散谱中的线性频率f转换为非线性Mel频率Mf,转换公式为

    (2)

    可得到Mel频率转换后的Mel频谱X1(k)。

    在瓷砖敲击声频率范围内设置由M个Mel滤波器Hm(k)构成的Mel滤波器组,对Mel频谱X1(k)进行滤波处理。Mel滤波器组在Mel频率轴上为均匀分布,且呈相互重叠的等高三角窗形状,每个滤波器的起始点在上一个滤波器的中点处,如图1所示。

    图  1  Mel滤波器组分布与形状

    对滤波器组中每个滤波器的输出取能量对数,得到相应的对数功率谱s(m)为

    (3)

    式中:m为滤波器序号,0≤mM-1;0≤kN-1。

    将式(3)计算出的对数能量s(m)进行离散余弦变换(DCT),得到MFCC系数C(n)为

    (4)

    式中:L为DCT输出的系数个数,即MFCC系数的维度 ,LM

    实际应用中,平稳信号常见的MFCC维度为5~15。式(4)计算得到的C(n)为标准的MFCC系数,反映了信号的静态特征,可通过C(n)的一阶或二阶差分来提取信号的动态特征。

    C(n)一阶差分d(n)的计算公式为

    (5)

    式中:K表示一阶差分的时间差,可取1或2。

    将一阶差分计算结果再次代入式(5)就可以得到MFCC的二阶差分参数。将MFCC的静态特征、一阶差分及二阶差分参数进行混合,最终可构成一个3L维度的特征向量。

    对于采集到的瓷砖敲击声信号,如果将整个声信号分成J帧,而每帧信号通过MFCC方法提取得到3L维度的特征向量,则对整个声信号进行处理后可得到一个J×3LJ行,3L列)的特征参数矩阵。由于特征参数矩阵的数据量较大,不利于后续的分类、识别处理,因此采用高斯混合模型的方法,利用其对多种数据的灵活处理能力,进一步优化处理数据过程。

    高斯混合模型采用由多个单高斯密度函数线性加权组合的方法来逼近所要分析的特征参量X,其表达式如下

    (6)

    式中:Q为单高斯概率密度函数bi(x)的个数或混合数;ωibi(x)对应的权重。

    单高斯概率密度函数bi(x)可表示为

    (7)

    式中:D为特征参量维度;μibi(x)的均值向量;j= 1,…,D)为bi(x)所对应的特征矢量的第j维分量的方差,为协方差矩阵。

    λ是由权重ωi、均值向量μi、协方差矩阵Ci组成的GMM参数集,表示一个由J帧信号构成的完整声信号所对应的GMM模型,可表示为

    (8)

    λ可以采用最大似然准则法通过期望最大(Expectation maximization,EM)算法求得[12]。EM算法的基本思想为:从初始模型λ出发,去估计另一个新模型λ′,使p(x|λ′)≥p(x|λ);得到的新模型在下次迭代中作为新的初始模型进行估计,如此反复迭代直至达到收敛阈值后终止。迭代完成后的最终λg构成一个GMM参数模型。

    整个瓷砖空鼓率的识别流程如图2所示,流程分为模型训练和模型测试两部分。实际应用时,将不同空鼓率瓷砖的多次敲击声分成两组,其中一组作为训练样本,另一组作为测试样本。首先对各个训练样本进行处理,以MFCC作为特征参数,采用期望最大EM算法对训练样本进行GMM参数集的求取,同时通过所有训练样本构建不同空鼓率瓷砖样本的GMM模型库;然后对各个测试样本进行MFCC特征参数和GMM参数集的求取,并与训练样本GMM模型库中的参数模型进行比较,通过似然函数值L(y)的大小来判断测试样本与模型库中的哪个样本最为接近,进而完成瓷砖空鼓率的识别。

    图  2  瓷砖空鼓率识别流程

    似然函数值L(y)的计算公式如下

    (9)

    式中:y=y1,y2,…,yJ,为由各个测试样本的J帧信号特征向量构成的合集。测试样本与训练样本中某个样本的L(y)值越大,表示二者的接近程度越高。

    为了对瓷砖空鼓率进行识别,构建了一套由麦克风、声信号调理采集仪及上位机构成的试验测试系统,系统的结构框图及实物如图3所示。麦克风用于瓷砖敲击声信号的接收,声信号调理采集仪用于对麦克风接收信号的调理、放大与采集,上位机用于对采集信号的处理及识别。

    图  3  系统结构示意及实物

    声信号调理采集仪由接收信号调理放大电路及AD采集电路两部分构成,其中接收信号调理放大电路由前置放大器、可控增益放大器、有源滤波器、主放大器构成,可以对麦克风接收信号进行可控增益放大及根据瓷砖敲击声频率范围设定的100 Hz~5 kHz的有源带通滤波。调理放大后的信号由AD采集电路进行采集,AD采集电路的采样位数为16位,采样率可以在1~16 kHz内任意设置。采样后的信号通过网络接口传送给上位机,由上位机对接收信号进行进一步的分析与处理。

    为了实现系统所需的功能,用MATLAB设计了相应的上位机采集控制软件及声信号处理软件,其中上位机采集控制软件主要用于声信号调理采集仪的接收信号增益控制、采样率控制及接收信号的采集;声信号处理软件主要用于声信号的MFCC特征提取、GMM参数集求取、GMM模型训练及GMM分类识别等,声信号处理时的各种参数如帧长N、MFCC维度L、GMM混合数Q等也可通过该软件进行设置。

    为了进行瓷砖空鼓率的测试试验,在实验室墙上根据胶泥涂抹面积的占比不同分别铺贴了实心瓷砖以及空鼓率为10%,20%,30%的瓷砖各10块。空鼓瓷砖的空鼓主要位于瓷砖的中心处,如图4所示。B为瓷砖的空鼓区域,A为剩余的实心区域,粘贴时尽可能将空鼓区域B位于瓷砖的中心处。

    图  4  空鼓瓷砖示意

    瓷砖粘贴完成后,分别随机选取了4类不同空鼓率瓷砖中的6块作为训练样本,用于提取瓷砖敲击声以及建立GMM模型库。提取声音训练样本时,对每块瓷砖用同一硬质锤以适当的力度在瓷砖中心处进行敲击,采集其中的25次敲击声共计600个信号作为训练样本。

    在声音训练样本的特征提取及GMM模型库建立的过程中,对MFCC和GMM的各种参数进行了调节,并比较了不同参数下的分析效果,最后选定的参数设置值如表1所示。EM算法计算时的最大迭代次数选定为1 000次。

    Table  1.  MFCC及GMM处理时的主要参数设置
    采样率/kHz预加重系数μ帧长/采样点数N帧移/采样点数ΔN窗函数小信号切除阈值/%MEL滤波器个数MMFCC维度LGMM混合数Q
    160.937 525690Hamming10293616
    下载: 导出CSV 
    | 显示表格

    4种不同空鼓率瓷砖的36维度MFCC特征图谱如图5所示,可以看出,随着瓷砖空鼓率的变化,MFCC特征图谱在不同维度上的分量也在发生变化,这也说明用MFCC作为特征参数具有良好的识别性,可以更好地判断和识别瓷砖空鼓率。

    图  5  4种不同空鼓率瓷砖的36维度MFCC特征图谱

    对采样得到的600个声音训练样本进行处理并建立GMM模型库后,分别对4类瓷砖中作为训练样本的6块瓷砖和剩余的4块瓷砖进行了空鼓率识别试验。试验测试时,除在瓷砖中心处进行敲击外还扩大了敲击范围,即在中心附近不超过B区域的范围内随机敲击以验证其效果。试验测试的结果如表2所示,可以看出,对于作为训练样本的瓷砖,空鼓识别正确率很高,可达100 %,而对于未经训练的作为测试样本的瓷砖,空鼓识别正确率也较高,最低可达97 %。

    Table  2.  不同空鼓率瓷砖的识别结果
    空鼓率实心瓷砖10 %空鼓20 %空鼓30 %空鼓
    训练样本瓷砖测试次数/次100100100100
    正确次数/次100100100100
    正确率/%100100100100
    测试样本瓷砖测试次数/次100100100100
    正确次数/次1009799100
    正确率/%1009799100
    下载: 导出CSV 
    | 显示表格

    进一步地,对3类空鼓瓷砖分别进行了敲击位置与空鼓识别正确率之间的关系试验,结果表明,空鼓识别正确率的高低与敲击点位置有关,当敲击点位于B区域的中心位置时识别率最高,约为99.7 %;当敲击点位于B区域中心位置附近时识别率有所降低,约为92.4 %;当敲击点位于A、B区域的交界位置时,识别率降低严重甚至会出现将空鼓瓷砖识别为实心瓷砖的情况。试验结果表明,系统对瓷砖敲击声的时频分布特性较为敏感,能有效区分不同敲击声之间时频分布特性的细微变化,从而有效识别是否空鼓及空鼓率的大小。

    文章采用MFCC法提取瓷砖敲击声信号的时频分布特征,再用GMM法对MFCC法提取的特征参数进行分类和识别。利用研制的试验系统对不同空鼓率瓷砖进行检测试验,结果表明,采用MFCC与GMM相结合的方法,能有效提高瓷砖空鼓率的识别精度,实现空鼓率的高性能检测,具有良好的应用前景。

  • 图  1   Mel滤波器组分布与形状

    图  2   瓷砖空鼓率识别流程

    图  3   系统结构示意及实物

    图  4   空鼓瓷砖示意

    图  5   4种不同空鼓率瓷砖的36维度MFCC特征图谱

    Table  1   MFCC及GMM处理时的主要参数设置

    采样率/kHz预加重系数μ帧长/采样点数N帧移/采样点数ΔN窗函数小信号切除阈值/%MEL滤波器个数MMFCC维度LGMM混合数Q
    160.937 525690Hamming10293616
    下载: 导出CSV

    Table  2   不同空鼓率瓷砖的识别结果

    空鼓率实心瓷砖10 %空鼓20 %空鼓30 %空鼓
    训练样本瓷砖测试次数/次100100100100
    正确次数/次100100100100
    正确率/%100100100100
    测试样本瓷砖测试次数/次100100100100
    正确次数/次1009799100
    正确率/%1009799100
    下载: 导出CSV
  • [1] AGGARWAL G,SINGH LAge classification with LPCC features using SVM and ANNInformation and Communication Technology for Competitive StrategiesSingaporeSpringer Singapore2018399408AGGARWAL G ,SINGH L .Age classification with LPCC features using SVM and ANN[C]//Information and Communication Technology for Competitive Strategies.Singapore:Springer Singapore,2018:399-408.
    [2] ALSABEK M B ,SHAHIN I ,HASSAN A .Studying the similarity of COVID-19 sounds based on correlation analysis of MFCC[J]. IEEE, 2020,14(2):123-128.
    [3] 周萍,沈昊,郑凯鹏 .基于MFCC与GFCC混合特征参数的说话人识别[J].应用科学学报, 2019, 37(1):24-32.
    [4] 吕霄云基于MFCC和GMM的异常声音识别算法研究成都西南交通大学2010吕霄云 .基于MFCC和GMM的异常声音识别算法研究[D].成都:西南交通大学,2010.
    [5] 王恩泽,何东健 .基于MFCC和双重GMM的鸟类识别方法[J].计算机工程与设计, 2014, 35(5):1868-1871.
    [6] 罗森林,王坤,谢尔曼,等 .融合GMM及SVM的特定音频事件高精度识别方法[J].北京理工大学学报, 2014, 34(7):716-722.
    [7] CHENG X Y ,HUANG B K .CSI-based human continuous activity recognition using GMM–HMM[J].IEEE Sensors Journal, 2022, 22(19):18709-18717.
    [8] 黄凯,郑瑶辰,邓兆祥 .基于MFCC的汽车敲击异响识别[J].振动与冲击, 2022, 41(13):275-282.
    [9] HANZ Y ,WANG J ,WANG X ,et al .Robust feature extraction for speech recognition based on perceptually motivated MUSIC and CCBC[J].Chinese Journal of Electronics, 2011, 20(1):105-110.
    [10] SHI T L,ZHEN J QOptimization of MFCC algorithm for embedded voice systemLecture Notes in Electrical EngineeringSingaporeSpringer Singapore2021657660SHI T L ,ZHEN J Q .Optimization of MFCC algorithm for embedded voice system[C]//Lecture Notes in Electrical Engineering.Singapore:Springer Singapore,2021:657-660.
    [11] 陈刚,吴振家 .一种基于GMM-EM的非平衡数据的概率增强算法[J].控制与决策, 2020, 35(3):763-768.
    [12] 李航 .统计学习方法[M].北京:清华大学出版社,2019.
图(5)  /  表(2)
计量
  • 文章访问数:  23
  • HTML全文浏览量:  1
  • PDF下载量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-12-07
  • 刊出日期:  2024-03-09

目录

/

返回文章
返回