Page 63 - 无损检测2024年第三期
P. 63
周 浩, 等:
基于 MFCC和 GMM 的瓷砖空鼓率识别系统及方法
( Vector q uantization , VQ )、 基于判决模型深度学习 H ( z ) 1- μ z - 1 ( 1 )
=
,
的长短时记忆( Lon gshort-term memor y LSTM ) 式中: 为预加重系数, 通常取0.9~1.0 。
μ
神经网络模型、 基于概率模型的隐马尔可夫模型 ( 2 )分帧: 将采集到的时间较长的声信号进行
( HiddenMarkovmodel , HMM ) 以及高斯混合模型 分帧, 分帧后的短时信号可看作平稳的随机信号, 便
( Gaussianmixturemodel , GMM ) 等 [ 4-8 ] 。声信号特 于短时或瞬时特征的提取。采用交叠分段法进行分
征参数和分类识别模型选择的正确与否, 直接影响 帧, 设置固定的帧移使每帧之间平滑过渡, 用采样点
到整个系统的识别性能。 个数 N 和ΔN 分别表示帧长和帧移。
文章在分析各种声纹识别技术的基础上对瓷砖 ( 3 )加窗: 分帧后信号的起始点和终止点可能
空鼓率进行了试验。鉴于空鼓率不同的瓷砖敲击声 存在幅度的突变, 为了减小这种突变对信号处理结
在低频部分的差异更为明显, 采用 MFCC 法对瓷砖 果的影响, 对分帧信号进行 Hammin g 或 Hannin g
敲击声进行特征参数的提取, 结合使用 GMM 来识 窗函数加窗处理。
别判断不同瓷砖的空鼓情况, 同时设计并完成了一 ( 4 )去噪: 根据实际情况设置小的信号切除阈
套基于 MFCC特征提取和 GMM 识别的试验系统, 值, 切除接收声信号中存在的微小噪声。
并在试验中取得了良好的测试效果。 1.1.2 快速傅里叶变换
对预处理后的帧长为 N 的每帧信号做快速傅
1 基本原理
(
里叶 变 换 ( FFT ), 求 得 其 频 谱 X 0 k ), 0≤k≤
MFCC是一种声信号的特征参数提取方法, 常 N-1 。
被应用于语音识别、 语音合成、 语音增强等语音信号 1.1.3 Mel 频率转换
处理领域, 其根据人耳对语音信号的频率非线性感 将求得的离散谱中的线性频率 f 转换为非线
知特性, 通过在 Mel 频率刻度下对语音信号做分段 性 Mel 频率 M f , 转换公式为
滤波、 频 谱 能 量 等 处 理 来 获 得 MFCC 的 特 征 参 f
M f = 2595l g1+ ( 2 )
数 [ 9-10 ] 。 MFCC具有较高的识别性能, 目前也常被 700
(
应用于其他音频信号的识别领域。 可得到 Mel 频率转换后的 Mel 频谱 X 1 k )。
在模型识别方面, GMM 是一种常用的统计模 1.1.4 Mel 滤波器组滤波
型, 常被应用于各种声信号的特征建模( 如语音中的 在瓷砖敲击声频率范围内设置由 M 个 Mel 滤
(
单词和短语建模)、 聚类分析、 模式识别等领域, 其通 波器 H m k ) 构成的 Mel滤波器组, 对 Mel频谱
(
过多个单高斯分布模型的线性组合混合成一个新的 X 1 k ) 进行滤波处理。 Mel滤波器组在 Mel频率
概率模型, 可以逼近任意形状的概率分布, 具有更强 轴上为均匀分布, 且呈相互重叠的等高三角窗形状,
的表达性, 既解决了短时模型描述平稳信号的问题 每个滤波器的起始点在上一个滤波器的中点处, 如
又具有运算速度快、 模型训练复杂度低、 鲁棒性好等 图1所示。
特点, 从而被广泛应用 [ 11 ] 。
1.1 MFCC特征提取
声信号的 MFCC 特征提取包括声信号的预处
理、 快速傅里叶变换( FFT )、 Mel频率转换、 Mel滤
波器组滤波、 离散余弦变换( DCT ) 等, 具体计算过
程如下。
1.1.1 声信号预处理
声信号预处理包括对声信号进行的预加重、 分 图1 Mel 滤波器组分布与形状
帧、 加窗、 去噪等处理。 1.1.5 取对数
( 1 )预加重: 空鼓瓷砖敲击声在传输和接收过 对滤波器组中每个滤波器的输出取能量对数,
程中高频分量相对衰减较大, 可采用数字滤波的方 得到相应的对数功率谱 s ( m ) 为
法来补偿高频部分。通过一个数字高通滤波器提升 N- 1 ( 2 ( ( 3 )
|H m k )
=
s ( m ) ln | X 1 k )
高频分量, 该滤波器的传递函数 H ( z ) 可表示为 ∑ k= 0
式中: m 为滤波器序号, 0≤m ≤M -1 ; 0≤k≤
9
2
2024年 第46卷 第3期
无损检测

