logo好方法网

一种车载多音区语音处理的方法和相关装置


技术摘要:
本申请公开了一种车载多音区语音处理的方法和相关装置,该方法包括:通过各个车载座椅传感器检测得到包括至少一个位置方向的位置信息;利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音频;结合位置信息和多路音频综合确定语音识别的目标方向。由此可见,在  全部
背景技术:
随着科技的快速发展,语音交互技术逐渐应用于车载互联场景中,用户越来越习 惯通过语音与车载设备进行交互,从而对车载语音交互系统的要求和需求日益增多。为了 满足车内各个用户与车载设备之间的语音交互,车载语音交互系统推出车载多音区语音交 互服务,以拓展语音交互的范围。 现有的车载多音区语音交互是指通过回声消除技术消除车载麦克风拾取的多路 麦克风音频中的系统回声,并通过窄波束算法实现语音降噪和语音分离,以得到多路音频 进行语音唤醒和语音识别,若多路音频中存在触发唤醒回调的音频,在语音唤醒时进行声 源定位确定语音识别的方向,以便后续进行定向语音识别,从而实现车载多音区语音交互。 但是,发明人经过研究发现,在恶劣语音唤醒场景下,语音唤醒时极其容易发生声 源定位干扰,导致语音唤醒时声源定位出错,大大降低声源定位的准确性,严重影响车载多 音区语音交互的效果,从而影响车载多音区语音交互的用户体验。
技术实现要素:
有鉴于此,本申请实施例提供一种车载多音区语音处理的方法和相关装置,能够 有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位干扰,以 提高车载多音区语音交互过程中语音唤醒时声源定位的准确性,从而实现更精准的车载多 音区语音交互,提升车载多音区语音交互的用户体验。 第一方面,本申请实施例提供了一种车载多音区语音处理的方法,所述方法包括: 获得各个车载座椅传感器检测的位置信息,所述位置信息包括至少一个位置方 向; 对多路麦克风音频进行回声消除处理和窄波束算法处理获得多路音频; 基于所述位置信息和所述多路音频,确定语音识别的目标方向。 可选的,所述基于所述位置信息和所述多路音频,确定语音识别的目标方向,包 括: 当所述位置信息只包括一个位置方向时,若所述多路音频中对应所述位置方向的 音频触发唤醒回调,将所述位置方向确定为所述目标方向; 当所述位置信息包括多个位置方向时,将所述多路音频中对应所述多个位置方向 中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频,基于所述唤醒音频确定所 述目标方向。 可选的,所述基于所述唤醒音频确定所述目标方向,包括: 当所述唤醒音频为一路唤醒音频时,将所述唤醒音频对应的位置方向确定为所述 4 CN 111599366 A 说 明 书 2/14 页 目标方向; 当所述唤醒音频为多路唤醒音频时,基于所述多路唤醒音频中每路唤醒音频的唤 醒得分和频谱能量,从所述多路唤醒音频中确定目标唤醒音频,将所述目标唤醒音频对应 的位置方向确定为所述目标方向。 可选的,所述基于所述多路唤醒音频中每路唤醒音频的唤醒得分和频谱能量,从 所述多路唤醒音频中确定目标唤醒音频,包括: 确定所述多路唤醒音频中最高唤醒得分和最高频谱能量对应的唤醒音频分别为 第一唤醒音频和第二唤醒音频; 当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异大于预设唤醒得分差 异且频谱能量差异小于第一预设频谱能量差异时,将所述第一唤醒音频确定为所述目标唤 醒音频; 当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异小于等于所述预设唤 醒得分差异或频谱能量差异大于等于所述第一预设频谱能量差异时,将所述第二唤醒音频 确定为所述目标唤醒音频。 可选的,还包括: 当位置信息包括的多个位置方向的数量小于车内各个位置方向的数量时,将所述 多路音频中对应车内各个位置方向中除所述多个位置方向之外的每个其他位置方向的音 频确定为降噪参考音频; 对应地,所述基于所述唤醒音频确定所述目标方向,具体为: 基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒 音频,基于所述降噪唤醒音频确定所述目标方向。 可选的,所述基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获 得降噪唤醒音频,包括: 提取所述降噪参考音频的状态噪声信息; 基于所述状态噪声信息对所述唤醒音频进行自适应滤波算法处理获得所述降噪 唤醒音频。 可选的,还包括: 获得多路待识别音频; 将所述多路待识别音频中对应所述目标方向的待识别音频确定为目标方向待识 别音频; 基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识 别音频的频谱能量,强降噪处理所述目标方向待识别音频获得强降噪目标方向待识别音 频;所述主波束方向为所述目标方向。 可选的,所述基于预设时间内所述目标方向待识别音频中主波束方向和非主波束 方向的待识别音频的频谱能量,强降噪处理所述目标方向待识别音频获得强降噪目标方向 待识别音频,包括: 基于预设时间内所述目标方向待识别音频中主波束方向和非主波束方向的待识 别音频的频谱能量,获得所述目标方向待识别音频中主波束方向和非主波束方向的待识别 音频的频谱能量差异; 5 CN 111599366 A 说 明 书 3/14 页 若所述目标方向待识别音频中主波束方向和非主波束方向的待识别音频的频谱 能量差异大于等于第二预设频谱能量差异,剔除所述目标方向待识别音频中所述非主波束 方向的待识别音频,获得所述强降噪目标方向待识别音频。 可选的,所述方法还包括: 基于所述基于所述目标方向待识别音频中主波束方向和非主波束方向的待识别 音频对应的用户音频特点,调整所述预设时间和/或所述第二预设频谱能量差异。 第二方面,本申请实施例提供了一种车载多音区语音处理的装置,所述装置包括: 位置信息获得单元,用于获得各个车载座椅传感器检测的位置信息,所述位置信 息包括至少一个位置方向; 多路音频获得单元,用于对多路麦克风音频进行回声消除处理和窄波束算法处理 获得多路音频; 目标方向确定单元,用于基于所述位置信息和所述多路音频,确定语音识别的目 标方向。 可选的,所述第一确定单元包括: 第一确定子单元,用于当所述位置信息只包括一个位置方向时,若所述多路音频 中对应所述位置方向的音频触发唤醒回调,将所述位置方向确定为所述目标方向; 第二确定子单元,用于当所述位置信息包括多个位置方向时,将所述多路音频中 对应所述多个位置方向中每个位置方向的音频中触发唤醒回调的音频确定为唤醒音频,基 于所述唤醒音频确定所述目标方向。 可选的,所述第二确定子单元包括: 第一确定模块,用于当所述唤醒音频为一路唤醒音频时,将所述唤醒音频对应的 位置方向确定为所述目标方向; 第二确定模块,用于当所述唤醒音频为多路唤醒音频时,基于所述多路唤醒音频 中每路唤醒音频的唤醒得分和频谱能量,从所述多路唤醒音频中确定目标唤醒音频,将所 述目标唤醒音频对应的位置方向确定为所述目标方向。 可选的,所述第二确定模块包括: 第一确定子模块,用于确定所述多路唤醒音频中最高唤醒得分和最高频谱能量对 应的唤醒音频分别为第一唤醒音频和第二唤醒音频; 第二确定子模块,用于当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异 大于预设唤醒得分差异且频谱能量差异小于第一预设频谱能量差异时,将所述第一唤醒音 频确定为所述目标唤醒音频; 第三确定子模块,用于当所述第一唤醒音频与所述第二唤醒音频的唤醒得分差异 小于等于所述预设唤醒得分差异或频谱能量差异大于等于所述第一预设频谱能量差异时, 将所述第二唤醒音频确定为所述目标唤醒音频。 可选的,所述装置还包括: 第二确定单元,用于当位置信息包括的多个位置方向的数量小于车内各个位置方 向的数量时,将所述多路音频中对应车内各个位置方向中除所述多个位置方向之外的每个 其他位置方向的音频确定为降噪参考音频; 对应地,所述第二确定子单元具体用于: 6 CN 111599366 A 说 明 书 4/14 页 基于所述降噪参考音频对所述唤醒音频进行自适应滤波算法处理获得降噪唤醒 音频,基于所述降噪唤醒音频确定所述目标方向。 可选的,所述第二确定子单元包括: 提取模块,用于提取所述降噪参考音频的状态噪声信息; 获得模块,用于基于所述状态噪声信息对所述唤醒音频进行自适应滤波算法处理 获得所述降噪唤醒音频。 可选的,所述装置还包括: 第三获得单元,用于获得多路待识别音频; 第三确定单元,用于将所述多路待识别音频中对应所述目标方向的待识别音频确 定为目标方向待识别音频; 第四获得单元,用于基于预设时间内所述目标方向待识别音频中主波束方向和非 主波束方向的待识别音频的频谱能量,强降噪处理所述目标方向待识别音频获得强降噪目 标方向待识别音频;所述主波束方向为所述目标方向。 可选的,所述第四获得单元包括: 第一获得子单元,用于基于预设时间内所述目标方向待识别音频中主波束方向和 非主波束方向的待识别音频的频谱能量,获得所述目标方向待识别音频中主波束方向和非 主波束方向的待识别音频的频谱能量差异; 第二获得子单元,用于若所述目标方向待识别音频中主波束方向和非主波束方向 的待识别音频的频谱能量差异大于等于第二预设频谱能量差异,剔除所述目标方向待识别 音频中所述非主波束方向的待识别音频,获得所述强降噪目标方向待识别音频。 可选的,所述装置还包括: 调整单元,用于基于所述基于所述目标方向待识别音频中主波束方向和非主波束 方向的待识别音频对应的用户音频特点,调整所述预设时间和/或所述第二预设频谱能量 差异。 第三方面,本申请实施例提供了一种终端设备,所述终端设备包括处理器以及存 储器: 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器; 所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的车 载多音区语音处理的方法。 第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储 介质用于存储程序代码,所述程序代码用于执行上述第一方面任一项所述的车载多音区语 音处理的方法。 与现有技术相比,本申请至少具有以下优点: 采用本申请实施例的技术方案,通过各个车载座椅传感器检测得到包括至少一个 位置方向的位置信息;利用回声消除技术和窄波束算法处理多路麦克风音频得到多路音 频;结合位置信息和多路音频综合确定语音识别的目标方向。由此可见,在多路音频的基础 上,将各个车载座椅传感器检测得到位置信息作为辅助信息,综合确定语音识别的目标方 向,能够有效避免恶劣语音唤醒场景下车载多音区语音交互过程中语音唤醒时的声源定位 干扰,以提高车载多音区语音交互过程中语音唤醒时声源定位的准确性,从而实现更精准 7 CN 111599366 A 说 明 书 5/14 页 的车载多音区语音交互,提升车载多音区语音交互的用户体验。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其它的附图。 图1为本申请实施例中一种应用场景所涉及的系统框架示意图; 图2为本申请实施例提供的一种车载多音区语音处理的方法的流程示意图; 图3为本申请实施例提供的另一种车载多音区语音处理的方法的流程示意图; 图4为本申请实施例提供的一种车载多音区语音处理的装置的结构示意图。
分享到:
收藏