logo好方法网

语音分析方法、装置、计算机设备和存储介质


技术摘要:
本申请涉及一种语音分析方法、装置、计算机设备和存储介质。所述方法包括:获取包括多个语音帧的语音序列;将各语音帧输入多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特征;将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有  全部
背景技术:
随着远程通讯的普及以及计算机技术的发展,在日常生活中,每天会产生大量的 语音数据,对语音数据进行分析非常重要。比如:电话客服中心和营销部门可以通过分析客 服和客户的对话内容的语音数据,筛选目标客户。再比如:机器人在人机交互中,若能智能 地分析出语音中的有用信息,也可以极大地提升机器人的智能化水平。 传统技术中,一般是从某一单一方面对语音进行分析,比如:对语音中的内容进行 分析,从而确定说话人的意图或感情色彩等。然而,这样只对一个方面进行分析比较片面, 从而导致语音分析准确性比较低。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种能够提高语音分析准确性的语音分 析方法、装置、计算机设备和存储介质。 一种语音分析方法,所述方法包括: 获取语音序列;所述语音序列中包括多个语音帧; 将各所述语音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应 于各所述语音帧的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多 个语音分析任务; 将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私有网 络层;不同所述任务私有网络层对应于不同的所述语音分析任务; 通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音帧的 所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级任务 对应的分析结果; 通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间特征 进行语音分析,输出与所述帧级任务对应的分析结果。 在其中一个实施例中,所述语音分析任务包括语音活动检测任务; 在所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务 私有网络层之前,所述方法还包括: 将各所述语音帧的共享中间特征,输入至所述语音活动检测任务所对应的任务私有网 络层,从所述语音帧中检测出属于人声的语音帧; 所述将所述共享中间特征分别并行地输入至所述多任务语音分析模型中的各任务私 有网络层包括: 将所述属于人声的语音帧的所述共享中间特征,分别并行地输入至多任务语音分析模 5 CN 111599382 A 说 明 书 2/12 页 型中的各任务私有网络层。 在其中一个实施例中,所述句级任务对应的任务私有网络层中包括句级池化层; 所述通过与所述语音分析任务中的句级任务对应的任务私有网络层,根据各所述语音 帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分析,输出与所述句级 任务对应的分析结果包括: 通过与所述语音分析任务中的句级任务对应的任务私有网络层中的所述句级池化层, 对各所述语音帧的所述共享中间特征进行池化处理,生成相应的句级特征;所述句级特征, 用于表征相应共享中间特征所对应的句子的特征;所述句子为所述相应共享中间特征所提 取自的所述语音帧所属于的句子; 通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所述句 级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果。 在其中一个实施例中,所述句级任务包括句级预测任务和句级分类任务中的至少 一种; 所述通过所述句级任务对应的任务私有网络层中所述句级池化层之后的网络层,对所 述句级池化层输出的所述句级特征进行分析,输出所述句级任务对应的分析结果包括: 当所述句级任务包括句级预测任务时,则通过所述句级预测任务对应的任务私有网络 层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行预测处理, 输出所述句级预测任务针对所述语音序列的预测结果; 当所述句级任务包括句级分类任务时,则通过所述句级分类任务对应的任务私有网络 层中的句级池化层之后的网络层,对所述句级池化层输出的所述句级特征进行分类处理, 输出所述句级分类任务针对所述语音序列的分类结果。 在其中一个实施例中,所述句级预测任务包括年龄预测任务; 所述通过所述句级预测任务对应的任务私有网络层中的句级池化层之后的网络层,对 所述句级池化层输出的所述句级特征进行预测处理,输出所述句级预测任务针对所述语音 序列的预测结果包括: 通过所述年龄预测任务对应的任务私有网络层中的句级池化层之后的网络层,对所述 句级池化层输出的所述句级特征进行年龄预测处理,输出所述语音帧所属于的句子对应的 发声者的年龄。 在其中一个实施例中,所述句级分类任务包括语种识别任务; 所述通过所述句级分类任务对应的任务私有网络层中的句级池化层之后的网络层,对 所述句级池化层输出的所述句级特征进行分类处理,输出所述句级分类任务针对所述语音 序列的分类结果包括: 通过所述语种识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述 句级池化层输出的所述句级特征进行语种分类处理,输出所述语音帧所属于的句子对应的 语种。 在其中一个实施例中,句级分类任务包括性别识别任务;所述通过所述句级分类 任务对应的任务私有网络层中的句级池化层之后的网络层,对所述句级池化层输出的所述 句级特征进行分类处理,输出所述句级分类任务针对所述语音序列的分类结果包括: 通过所述性别识别任务对应的任务私有网络层中的句级池化层之后的网络层,对所述 6 CN 111599382 A 说 明 书 3/12 页 句级池化层输出的所述句级特征进行性别分类处理,输出所述语音帧所属于的句子对应的 发声者的性别。 在其中一个实施例中,所述帧级任务包括帧级预测任务和帧级分类任务中的至少 一种; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间 特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 当所述帧级任务包括所述帧级预测任务时,通过与所述帧级预测任务对应的任务私有 网络层,对各所述语音帧的所述共享中间特征进行预测处理,输出所述帧级预测任务针对 所述语音序列的预测结果; 当所述帧级任务包括帧级分类任务时,通过与所述帧级分类任务对应的任务私有网络 层,对所述共享中间特征进行分类处理,输出所述帧级分类任务针对所述语音序列的分类 结果。 在其中一个实施例中,所述帧级预测任务包括语音活动检测任务; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间 特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 通过与所述语音分析任务中的语音活动检测任务对应的任务私有网络层,对所述共享 中间特征进行语音活动概率预测处理,输出各所述语音帧为活动语音的概率。 在其中一个实施例中,所述帧级分类任务包括语音识别任务; 所述通过与所述语音分析任务中的帧级任务对应的任务私有网络层,对所述共享中间 特征进行语音分析,输出与所述帧级任务对应的分析结果包括: 通过与所述语音分析任务中的语音识别任务对应的任务私有网络层,对所述共享中间 特征进行语音识别处理,输出各所述语音帧对应的语音内容。 一种语音分析装置,所述装置包括: 共享特征提取模块,用于获取语音序列;所述语音序列中包括多个语音帧;将各所述语 音帧输入预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各所述语音帧 的共享中间特征;所述多任务语音分析模型,用于对所述语音序列执行多个语音分析任务; 共享特征提取模块还用于将所述共享中间特征分别并行地输入至多任务语音分析模 型中的各任务私有网络层;不同所述任务私有网络层对应于不同的所述语音分析任务; 句级语音分析模块,用于通过与所述语音分析任务中的句级任务对应的任务私有网络 层,根据各所述语音帧的所述共享中间特征生成句级特征,并对所述句级特征进行语音分 析,输出与所述句级任务对应的分析结果; 帧级语音分析模块,用于通过与所述语音分析任务中的帧级任务对应的任务私有网络 层,对所述共享中间特征进行语音分析,输出与所述帧级任务对应的分析结果。 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计 算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的语音分析方法 中的步骤。 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述 计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的语音分析方法中 的步骤。 7 CN 111599382 A 说 明 书 4/12 页 上述语音分析方法、装置、计算机设备和存储介质,将语音序列中的各语音帧输入 预先训练的多任务语音分析模型中的共享网络层,提取分别对应于各语音帧的共享中间特 征,然后将共享中间特征分别并行地输入至多任务语音分析模型中的各任务私有网络层, 通过句级任务对应的任务私有网络层,输出与句级任务对应的分析结果,通过帧级任务对 应的任务私有网络层,输出与帧级任务对应的分析结果。能够同时对语音数据进行多方面 的分析,从而得到多方面的分析结果,增加了语音分析获得的信息量,从而提高了语音分析 的准确性。 附图说明 图1为一个实施例中语音分析方法的应用环境图; 图2为一个实施例中语音分析方法的流程示意图; 图3为一个实施例中多任务语音分析模型的结构示意图; 图4为一个实施例中语音分析装置的结构框图; 图5为另一个实施例中语音分析装置的结构框图; 图6为一个实施例中计算机设备的内部结构图。
下载此资料需消耗2积分,
分享到:
收藏