logo好方法网

用于处理音频的方法、装置、电子设备和计算机可读介质


技术摘要:
本公开的实施例公开了用于处理音频的方法和装置。该方法的一具体实施方式包括:生成第一音频所对应的音频帧序列中每个音频帧的音高;根据上述音高,从上述音频帧序列中选择音频帧作为待调整音频帧,得到待调整音频帧序列;基于上述待调整音频帧序列中每个待调整音频帧  全部
背景技术:
包括:生成 第一音频所对应的音频帧序列中每个音频帧的 音高;根据上述音高,从上述音频帧序列中选择 音频帧作为待调整音频帧,得到待调整音频帧序 列;基于上述待调整音频帧序列中每个待调整音 频帧的音高和预设阈值,调整上述待调整音频帧 的音高;基于调整后的音频帧与上述音频帧序列 中未调整的音频帧,生成第二音频。本公开的实 施例通过对原有音频数据进行调整,生成一批新 的音频数据,使用新的音频数据来对声码器进行 训练,使得训练后声码器在处理音频数据时有更 好的表现。 CN 111583945 A CN 111583945 A 权 利 要 求 书 1/2 页 1.一种用于处理音频的方法,包括: 生成第一音频所对应的音频帧序列中每个音频帧的音高; 根据所述音高,从所述音频帧序列中选择音频帧作为待调整音频帧,得到待调整音频 帧序列; 基于所述待调整音频帧序列中每个待调整音频帧的音高和预设阈值,调整所述待调整 音频帧的音高; 基于调整后的音频帧与所述音频帧序列中未调整的音频帧,生成第二音频。 2.根据权利要求1所述的方法,其中,所述生成第一音频所对应的音频帧序列中每个音 频帧的音高,包括: 将所述音频帧输入预先训练的基音周期提取模型,得到所述音频帧的基音周期; 根据所述音频帧的基音周期,生成所述音频帧的音高。 3.根据权利要求1所述的方法,其中,所述预设阈值包括: 第一预设子阈值和第二预设子阈值;以及 所述基于所述待调整音频帧序列中每个待调整音频帧的音高和预设阈值,调整所述待 调整音频帧的音高,包括: 响应于确定所述待调整音频帧的音高高于所述第一预设子阈值,调高所述待调整音频 帧的音高; 响应于确定所述待调整音频帧的音高低于所述第二预设子阈值,调低所述待调整音频 帧的音高。 4.根据权利要求1所述的方法,其中,所述基于调整后的音频帧与所述音频帧序列中未 调整的音频帧,生成第二音频,包括: 基于波形相似重叠相加算法wsola,将所述调整后的音频帧与所述音频帧序列中未调 整的音频帧进行拼接,生成所述第二音频。 5.根据权利要求1-4之一所述的方法,其中,所述方法还包括: 基于所述第一音频和所述第二音频,训练得到第二声码器。 6.根据权利要求5所述的方法,其中,所述基于所述第一音频和所述第二音频,训练得 到第二声码器,包括: 提取所述第一音频的声学特征,得到第一声学特征; 基于所述第一声学特征和所述第一音频,生成第一声码器; 提取所述第二音频的声学特征,得到第二声学特征; 基于所述第二声学特征、所述第二音频和所述第一声码器,生成所述第二声码器。 7.根据权利要求6所述的方法,其中,所述基于所述第一声学特征和所述第一音频,生 成第一声码器,包括: 将所述第一声学特征输入初始声码器,得到第一输出结果; 将所述第一输出结果与所述第一音频进行分析,确定第一损失值; 基于所述第一损失值,调整所述初始声码器的参数,直至满足第一预定条件,得到所述 第一声码器。 8.根据权利要求6所述的方法,其中,所述基于所述第二声学特征、所述第二音频和所 述第一声码器,生成所述第二声码器,包括: 2 CN 111583945 A 权 利 要 求 书 2/2 页 将所述第二声学特征输入所述第一声码器,得到第二输出结果; 将所述第二输出结果与所述第二音频进行分析,确定第二损失值; 基于所述第二损失值,调整所述第一声码器的参数,直至满足第二预定条件,得到所述 第二声码器。 9.一种用于处理音频的装置,包括: 第一生成单元,被配置成生成第一音频所对应的音频帧序列中每个音频帧的音高; 选择单元,被配置成根据所述音高,从所述音频帧序列中选择音频帧作为待调整音频 帧,得到待调整音频帧序列; 调整单元,被配置成基于所述待调整音频帧序列中每个待调整音频帧的音高和预设阈 值,调整所述待调整音频帧的音高; 第二生成单元,被配置成基于调整后的音频帧与所述音频帧序列中未调整的音频帧, 生成第二音频。 10.一种电子设备,包括: 一个或多个处理器; 存储装置,用于存储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器 实现如权利要求1-8中任一所述的方法。 11.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实 现如权利要求1-8中任一所述的方法。 3 CN 111583945 A 说 明 书 1/10 页 用于处理音频的方法、装置、电子设备和计算机可读介质 技术领域 本公开的实施例涉及计算机技术领域,具体涉及用于处理音频的方法、装置、电子 设备和计算机可读介质。
技术实现要素:
声码器可以用来实现电子化的人声效果,使用声码器来合成歌曲已经成为一个比 较火的领域。由于声码器是数据驱动的,为了使声码器有更好的表现,因此,在训练声码器 的时候,往往需要各种类型的音频数据来训练声码器。
分享到:
收藏