logo好方法网

一种单通道语音去混响方法及装置


技术摘要:
本发明公开了一种单通道语音去混响方法及装置,方法包括:获取单个麦克风在室内采集的语音信号;对语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;将频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将频域语  全部
背景技术:
室内麦克风接收语音信号存在混响,导致后端语音识别性能下降,现有技术中采 用最小二乘法进行去混响,可以提高对语音信号的识别准确率。但是该最小二乘法的计算 量大,复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,处理语音时间 较长,降低了前端语音处理效率。
技术实现要素:
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的第 一个目的在于提出一种单通道语音去混响方法,可以降低计算量及计算复杂度,缩短处理 语音信号时长,提高了对前端语音信号的处理效率。 本发明的第二个目的在于提出一种单通道语音去混响装置。 为达到上述目的,本发明第一方面实施例提出了一种单通道语音去混响方法,包 括: 获取单个麦克风在室内采集的语音信号; 对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号; 将所述频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降 法的递归最小二乘法,将所述频域语音信号分成多个频带信号; 根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数 对多个频带信号进行滤波,得到去混响后的频域语音信号。 根据本发明第一方面实施例提出的一种单通道语音去混响方法,二分坐标下降法 在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂 度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大, 复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法 可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提 高算法处理效率。 根据本发明的一些实施例,所述根据所述多个频带信号计算得到更新后的滤波器 系数,包括: 计算各个所述频带信号的协方差矩阵和相关向量初值; 根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器 系数的更新量; 根据所述滤波器系数的更新量计算得到更新后的滤波器系数。 根据本发明的一些实施例,在得到去混响后的频域语音信号后,还包括:对所述去 混响后的频域语音信号进行傅里叶逆变换,得到时域语音信号以便进行语音识别。 5 CN 111599374 A 说 明 书 2/9 页 根据本发明的一些实施例,所述预设初始参数包括: 其中,Mb为滤波器系数更新量的元素二进制表示的预设比特数,[-H,H]为二进制 表示的幅度范围,Nu为成功迭代的最大次数,K为滤波器阶数。 根据本发明的一些实施例,所述计算各个所述频带信号的协方差矩阵和相关向量 初值,算法如下: 对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到若干帧频域语音信 号,帧长为32ms,帧移为16ms,其中第t帧、第k个频点的信号为y(t,k); 根据线性预测理论计算去混响后的频域语音信号的先验值: e(t,k)=conj(y(t,k))-YH(t-Δ,k)G(t-1,k)                           (1) 其中,e(t,k)为第t帧、第k个频点的去混响后的频域语音信号的先验值,G(t-1,k) 为第t-1帧、第k个频点的滤波器系数,Y(t,k)=[y(t,k) ,…,y(t-K 1,k)]T,Δ>0为延时保 护,YH为矩阵或向量的共轭转置,conj( )为复数的共轭变换; 计算第t帧、第k个频点信号功率λt,k: λ 2t,k=|e(t,k)|                                                   (2) 计算协方差矩阵为: 其中,R(t,k)为第t帧、第k个频点的协方差矩阵,γ为遗忘因子,R(t-1,k)为第t-1 帧、第k个频点的协方差矩阵; 计算每一帧相关向量初值为: 其中,β0(t,k)为第t帧、第k个频点的相关向量初值,r(t-1,k)为第t-1帧、第k个频 点的相关向量。 根据本发明的一些实施例,在计算所述滤波器系数的更新量时,设置内循环最大 次数WM=2。 根据本发明的一些实施例,利用二分坐标下降法计算滤波器系数的更新量Gup(t, k),具体迭代流程为: 初始化迭代参数:Gup(t,k)=0M×1,r(t,k)=β0(t,k),α=H,q=0 其中,α为步长,用于控制滤波器的更新量,q为计算滤波器的更新量的变化次数, 用来控制算法的复杂度; 6 CN 111599374 A 说 明 书 3/9 页 其中,rn(t,k)为r(t,k)的第n行,Rn,n(t,k)为R(t,k)的第n行第n列,Gup(n)(t,k)为 G (t,k)的第n行,R(n)up (t,k)为R(t,k)的第n列,flag用于标记,控制算法的走向。 根据本发明的一些实施例,所述根据所述滤波器系数的更新量计算得到更新滤波 器系数G(t,k)为: G(t,k)=G(t-1,k) Gup(t,k)                                         (7) 根据本发明的一些实施例,所述根据更新后的滤波器系数对多个频带信号进行滤 波, 得到第t帧、第k个频点去混响后的频域信号x(t,k)为: x(t,k)=y(t,k)-GH(t,k)Y(t-Δ,k)                                  (8) 为达到上述目的,本发明第二方面实施例提出了一种单通道语音去混响装置,包 括: 第一获取模块,用于获取单个麦克风在室内采集的语音信号; 第一语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换 处理,得到频域语音信号; 第二语音信号处理模块,用于将所述频域语音信号输入设置有预设初始参数的滤 波器,采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信 号; 计算模块用于: 计算各个所述频带信号的协方差矩阵和相关向量初值; 根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代,得到滤波器 系数的更新量; 7 CN 111599374 A 说 明 书 4/9 页 根据所述滤波器系数的更新量计算得到更新后的滤波器系数; 第三语音信号处理模块,用于根据更新后的滤波器系数对多个频带信号进行滤 波,得到去混响后的频域语音信号。 根据本发明第二方面实施例提出的一种单通道语音去混响装置,二分坐标下降法 在迭代过程中只使用加法,不使用乘法,可以降低对语音信号处理时的计算量及计算复杂 度,缩短处理语音信号时长,提高了对前端语音信号的处理效率。最小二乘法的计算量大, 复杂度高,一般需要O(K2)级乘法和O(K2)级加法,其中K为滤波器阶数,通过二分坐标下降法 可以将计算复杂度降低为3K,同时设置预设初始参数,在保证去混响方法性能的情况下,提 高算法处理效率。 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书以及附图中所特别指出的结构来实现和获得。 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。 附图说明 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中: 图1是根据本发明一个实施例的一种单通道语音去混响方法的流程图; 图2是根据本发明又一个实施例的一种单通道语音去混响方法的流程图; 图3是根据本发明一个实施例的一种单通道语音去混响装置的框图; 图4是根据本发明又一个实施例的一种单通道语音去混响装置的框图; 图5是根据本发明一个实施例的计算更新后的滤波器系数的流程图。
分享到:
收藏