
技术摘要:
本发明提供了一种语音检测的方法及其装置。获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,所述时频掩蔽值包括时间序列表征和频带表征;根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;根据所述谐波乘积谱的峰值 全部
背景技术:
现有技术中,语音检测是指检测出语音信号中的语音起止点信息,标志出噪声与 信号区间,在语音交互中具有十分重要的意义,可以有效的减少误唤醒和误识别,同时大幅 降低语音交互系统计算量。近场、安静或平稳噪声的环境下,语音检测性能已经比较理想, 但在远场、非平稳噪声环境下语音检测性能急剧下降,基于深度学习的语音检测技术发展 后,非平稳噪声下语音检测性能有所改善,但依然没有彻底解决该问题,其本质上来说深度 学习虽然拥有强大的建模能力,但没有合理利用语音中有效的先验结构信息,比如语音所 具备的谐波结构信息,在传统的语音信号处理中使用谐波乘积谱可以在较强噪声下将语音 和噪声区分开,但谐波乘积谱也有其缺点,就是各个频带能量不均衡,造成阈值划定困难, 不同场景泛化能力不足。
技术实现要素:
本发明提供语音检测的方法及其装置,用以解决语音检测不准确的情况。 一种语音检测的方法,其特征在于,包括: 获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其 中, 所述时频掩蔽值包括时间序列表征和频带表征; 根据所时频掩蔽值述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波 乘积谱; 根据所述谐波乘积谱峰值和峰值位置,判断所述语音数据为语音或噪音。 作为本发明的一种实施例:所述获取语音数据,并导入训练好的深度学习模型,预 测语音数据的时频掩蔽值,包括: 预设干净语音数据库和噪声数据库; 根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音; 通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出 对应的掩膜M=|S|/|Y|; 根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征; 将所述带噪语音的语音特征和掩膜带入深度学习网络得到所述网络模型; 获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网 络模型的神经网络计算得到时频掩蔽值。 作为本发明的一种实施例:所述根据所述时频掩蔽值,对所述语音数据的掩蔽值 进行降采样,确定谐波乘积谱,包括: 通过所述频带表征,将所述语音数据的进行分帧; 5 CN 111613243 A 说 明 书 2/8 页 获取分帧后语音数据的掩蔽值; 对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的 序列; 根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其 中, 当所述掩蔽值的序列为n时,所述谐波乘积谱如下式: Y(k)=X(k)*X2(k)*……Xn(k); 其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。 作为本发明的一种实施例:所述根据所述谐波乘积谱峰值和峰值位置,判断所述 语音数据中的语音或噪音,包括: 获取所述谐波乘积谱峰值分布图; 确定所述谐波乘积谱峰值和峰值位置; 将所述波乘积谱的峰值和峰值位置与阈值对比,确定对比结果; 根据所述对比结果判定所述语音数据中的语音和噪声。 作为本发明的一种实施例:所述根据波乘积谱的峰值和峰值位置判定所述语音数 据中的语音和噪声,还包括: 根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪 声数据库的谐波乘积谱; 根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语 音数据库和噪声数据库的峰值分布; 根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值 范围;其中, 所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。 一种语音检测的装置,包括: 预测模块:用于获取语音数据,并导入训练好的深度学习模型,预测语音数据的时 频掩蔽值;其中, 所述时频掩蔽值包括时间序列表征和频带表征; 第一处理模块:根据所时频掩蔽值,对所述语音数据的掩蔽值进行降采样,确定谐 波乘积谱; 第一确定模块:根据所述谐波乘积谱峰值和峰值位置,判断所述语音数据为语音 或噪音。 作为本发明的一种实施例:所述预测模块包括: 第一获取单元:用于预设干净语音数据库和噪声数据库; 第二获取单元:用于根据所述噪声数据库,对所述干净语音数据库进行加噪处理, 生成带噪语音; 第一处理单元:通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频 谱|S|,并计算出对应的掩膜M=|S|/|Y|; 根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征; 将所述带噪语音的语音特征和掩膜带入深度学习网络得到所述网络模型; 6 CN 111613243 A 说 明 书 3/8 页 第一预估单元:获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度 谱特征并导入网络模型的神经网络计算得到时频掩蔽值。 作为本发明的一种实施例:所述处理模块包括: 第二处理单元:用于通过所述频带表征,将所述语音数据的进行分帧; 第三获取单元:用于获取分帧后语音数据的掩蔽值; 第一采集单元:用于对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采 样,得到降采样后的序列; 第一计算单元:用于根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数 据的谐波乘积谱;其中, 当所述掩蔽值的序列为n时,所述谐波乘积谱如下式: Y(k)=X(k)*X2(k)*……Xn(k); 其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。 作为本发明的一种实施例:所述获取模块包括: 第四获取单元:用于获取所述谐波乘积谱峰值分布图,确定所述谐波乘积谱峰值 和峰值位置;; 第五获取单元:用于将所述波乘积谱的峰值和峰值位置与阈值对比,确定对比结 果;根据所述对比结果判定所述语音数据中的语音和噪声。 作为本发明的一种实施例:所述第一确定模块包括: 第一确定单元:用于根据所述预设干净语音数据库和噪声数据库,确定所述预设 干净语音数据库和噪声数据库的谐波乘积谱; 第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱, 确定所述预设干净语音数据库和噪声数据库的峰值分布; 第三确定单元:用于根据所述预设干净语音数据库和噪声数据库的峰值分布,确 定语音和噪音的阈值范围;其中, 所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。 本发明的有益效果在于:本专利使用深度学习的建模能力得到时频域的掩蔽值, 然后在时频掩蔽值上计算谐波乘积谱,即利用深度学习技术良好的建模能力,再利用语音 特有的谐波结构信息。基于深度学习技术,估计语音信号时频点的掩蔽值时,利用掩蔽值根 据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐 波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高 语音检测的性能。 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书以及附图中所特别指出的结构来实现和获得。 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。 附图说明 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。 7 CN 111613243 A 说 明 书 4/8 页 在附图中: 图1为本发明实施例中一种语音检测方法的方法流程图; 图2为本发明实施例中一种语音检测方法的算法结构图; 图3为本发明实施例中一种语音检测装置的模块结构图;