多个麦克风阵元在空间范围内按照不同的方式排列可以构成不同麦克风阵列拓扑结构。在实际的阵列设计和选择时要考虑麦克风数量、麦克风位置以及不同阵元间距对语音信号采集的影响。
麦克风阵列拓扑结构可分为:一维线性阵(均匀阵列、非均匀阵列和嵌套线性阵)、二维面阵(均匀和非均匀圆阵或方阵)和三维立体阵,
阵列的拓卦结构和麦克风阵列降噪系统的性能有很大的关系。
智能电视:一般会考虑采用4或6个麦克风组成均匀线性阵列。高度对称的拓扑结构使得它的空间分辨率只有180度,会造成方位角模糊。
智能音箱:一般会考虑采用6或8个麦克风组成半径为4厘米或5厘米的均匀圆阵。在整个方位范围内,圆阵具有均匀的空间分辨率的优点。
三维麦克风阵列一般指球型麦克风阵列,其优点是阵列响应的形状与信号频率无关,但价格比较昂贵。
时域采样为了避免频域混叠,采样率必须大于语音最高频率的两倍(奈奎斯特采样定理)。与之类似,阵列属于空域采样,为了避免空域混叠,需要满足d≤λmin2,其中λmin是最小波长,d是麦克风间距(m),波长计算公式为λ=343fmax。
以均匀线性阵列为例。假设声源S到阵列坐标中心的距离为r,任意两个相邻阵列间的间距为d,声波波长的最小值为λmin,λ=μT,μ是声速,T是周期,近场和远场模型如下图所示:
超过了这个距离就是远场,球面波变成平面波
r{≤2d2λmin近场>2d2λmin远场
噪声场是由噪声形成的声场。当语音信号经障碍物反射和折射会产生多个传播路径,这时声场处于“混响”状态。混响会削弱语音信号的输出,改变声场的空间特性。噪声场空间特性的改变就形成了不同类型的噪声场,根据不同噪声情况使用不同的方法进行降噪,我们可以根据噪声之间的互功率谱相关性判断是哪类噪声场。
τij(f)=ϕij(f)√ϕii(f)ϕjj(f)
其中ϕij是麦克风i和j信号的互功率谱密度,ϕii(f)和ϕjj(f)分别是麦克风i和j的自功率谱密度。依据τij(f)取值的不同,噪声场分为相关噪声场(τij(f)≈1)、非相关噪声场(τij(f)≈0)、散射噪声场。
相干噪声场:不同麦克风采集到同一噪声源发出的噪声是高度相似的,且信号的传播几乎无任何反射,常见于消声室内。
由于低频信号波长较长,在日常环境中,同一噪声源发出的噪声传播到不同麦克风也是有相似性的,有时低频分量的相似性相对中高频 还比较高,因此低频需要额外的处理。
非相干噪声场:麦克风接收的噪声信号之间几乎不具有相关性。
在麦克风阵列满足空域混叠的情况下,不同麦克风采集到的噪声完全不相干的可能性极小,但是由于麦克风属于半导体器件,而半导体器件自身产生电器噪声可以认为是完全不相关的,这类噪声通常可以设计到-65dB以下。
散射噪声场:噪声在各个方向上以相等的能量同时均匀传播,这使得麦克风接收到的信号相关性较小。散射噪声场可以用sinc或bessel函数建模。
散射噪声场适用于许多场景,如:办公室、汽车内等。
τij(f)=sinc(2πfdijc)
声音的方向性和频率有关,频率越高,方向性越强,辐射角度越小。如下图所示,不同频率信号的辐射角不一样,对波束宽度不随频率改变的波束方法(dealy-sum),波束后信号的各频率之比和波束前信号的各频率之比将会发生较大差异,从而造成一定程度的失真,影响语音的音质。
不同频率的声波辐射指向特性示意图
大多数波束形成方法的主瓣宽度有限,为了使波束在全频带上具有较强的适用性和鲁棒性,通常会对低频带和高频带做额外的处理。
波束成型(Beamforming)又叫波束赋形、空域滤波
作用:对多路麦克风信号进行合并处理,抑制非目标方向 的干扰信号,增强目标方向的声音信号。
原理:调整相位阵列的基本单元参数,使得某些角度的信号获得相长干涉,而另一些角度的信号获得相消干涉。对各个麦克风信号加权求和、滤波,最终得到期望方向的语音信号,相当于形成一个“波束”。
问题:
传统的波束形成技术主要分为固定波束形成和自适应波束形成技术。
固定波束形成:预先设计好的波束形成技术。它通过固定的权值(相位和幅度)来形成一个或多个方向上的波束。固定波束形成的特点是简单、实现成本低,但灵活性较差,无法根据环境变化进行实时调整。该方法通过加权平均来固定阵列的输出响应,使得输出不受信号数据变化的影响。
自适应波束形成:根据环境的变化实时调整波束的方向和形状。这种技术采用自适应算法(如LMS算法、RLS算法等)来动态调整阵列麦克风的权重和相位,从而最大限度地抑制干扰噪声并增强目标信号。自适应波束形成可以进一步细分为:
宽带波束形成主要分为时域方法和 频域方法:
由于时域方法受到采样精度的限制,多用于处理低频信号,处理高频信号更多采用频域方法。
麦克风阵列信号处理通常由 自适应波束形成 和 后置滤波 两个部分组成。
麦克风信号以均匀线性模型为例
窄带信号模型表示为
x1(t)=s(t)ejωtx2(t)=s(t)ejwtdj2πλdsinθ⋯⋅xN(t)=s(t)ejωtdj2πλ(N−1)dsinθ
将上式写为矩阵形式
X(t)=[x1(t)x2(t)…..xN(t)]=s(t)ejωt[1ej2πλdsinθ⋯2πλ(N−1)dsinθ]=s(t)a(θ)
其中,a(θ)为方向矢量。波束形成后的输出语音信号y(t)为M个通道经处理后的加权之和。
y(t)=∑Mi=1wHi(t)xi(t)=wHx=s(t)wHa(θ)
式中,w=[w1,w2,...,wN]T表示波束形成器的权值向量,T表示转置,H表示共轭转置。
因此,波束形成是对各个麦克风接收信号进行 加权因子调节并相加的过程。对各个麦克风来说,信号在一瞬间的幅值相同,一般只做信号的相位调整,不做幅度改变。由此可知,如果空间中仅存在一个θk方向的波信号a(θk),当权重矢量取w=a(θk)时,则输出信号最大值y(n)=a(θk)Ha(θk)=M。这时阵列各路信号加权相干叠加,为经典的固定波束形成 (Fixed Beamforming)。
无论是直接相加还是采用加不同窗函数的形式它们的权系数都是固定的。因此,要达到较好的效果需要依靠増加麦克风数量,这样会导致成本和资源消耗的增加,而且适应性也比较差。
延迟求和波束形成(Delay and Sum Beamforming, DSB)是一种常见的波束形成技术,其工作原理是首先对来自不同麦克风的信号进行相对延迟的补偿,然后将这些延时后的信号叠加,形成一个单一的输出信号。
优点:
缺点:
1969 年,J. Capon 提出了最小方差无失真响应(Minimum Variance Distortionless Response, MVDR)波束形成算法。该算法是应用得最为广泛的自适应波束形成方法之一。
原理:在期望信号无失真的约束条件下,选择合适的滤波器系数,使得阵列输出的平均功率最小化。
MVDR的权重优化问题可以表示为
{minwwHRxws.t. wHa(θs)=1
其中,a(θs)=[a1(θ)...aM(θ)]T为目标信号导向矢量,表示声源方向和麦克风之间的传递函数,可以通过纯净语音信号达到每个麦克风的不同延迟时间τ计算得到。Rx为空间信号相关协方差矩阵,根据快拍次数估计得到。当在时间上彼此不相关的k个噪声信号从不同方向到达麦克风麦克风时,空间相关协方差矩阵被定义为:
Rx(ω)=∑Kk=1a(ω,θk)aH(ω,θk)
运用拉格朗日乘子法计算得到最优权重为:
wMVDR(ω,θs)=R−1x(ω)a(ω,θs)aH(ω,θs)HR−1x(ω)a(ω,θs)
因为约束条件是纯净语音信号无失真,即纯净语音信号是保持不变的,为了使得输出的方差最小化,仅仅只需要让噪声信号最小化。所以上式信号相关矩阵Rx可以用噪声相关矩阵Rn替换。
补充:MVDR是理论上普遍采用的波束形成典型算法,在复杂环境下,由于协方差矩阵计算的不精确性算法会导致性能急剧下降。后来的研究者提出了许多基于对角加载的解决方法。这些方法解决了对角加载值不易确定且无法通过样本更改自动调整的问题,使协方差矩阵误差问题得到一定的改善。但是,这些算法相对比较复杂,效率较低。
1972年,L. Frost 提出了线性约束最小方差(Linearly Constrained Minimum Variance, LCMV)波束形成器。LCMV 波束形成在效果上实际是 MVDR 波束形成的扩展形式,它将后者中期望信号不受影响的这一约束扩展为一组约束,即为目标方向无失真同时对其它噪声干扰方向陷零。随后 L. Frost 基于约束最小均方自适应滤波器提出了LCMV 算法的自适应结构。
原理:在满足一组约束的同时,使波束形成输出(干扰信号、噪声)的功率最小化。
LCMV的约束条件可以表示为:
{wopt=argminwHRxws.t.wHC=f
其中,一组线性约束条件可以定位为M*P维的约束矩阵C,其中麦克风数量M需要小于线性约束条件P的个数。f表示P*1维的约束矢量,Rx=E[x(t)xH(t)]表示输出协方差矩阵。
采用拉格朗日乘子法计算,在接收的信号相关矩阵Rx存在可逆矩阵的前提下,获得最优解为
wLCMT=R−1xC(CHR−1xC)−1f
补充:当LCMV方法的约束条件取wHa(θ)=1时,演变为最小方差无失真响应波束形成器(MVDR,minimum variance distortionless-response),其原理是在阵列输出信号能量保持不变的约束条件下,通过调节权重系数使阵列信号输出总功率(相关功率与非相关功率之和)达到最小。由于目标信号的强度得以保持,而噪声的方差被最小化,可以说MVDR使阵列输出信号的信噪比(SNR)达到最大。
为了避免约束性自适应算法,1982 年J. Griffiths 提出了广义旁瓣相消器,可以证明在纯延时条件下 GSC 是 LCMV 的一种等效实现结构,GSC 结构将 LCMV 的约束优化问题转化为了无约束的优化问题。
原理:GSC 将LCMV 权重矢量分解为自适应权重和非自适应权重两个部分,其中自适应权重位于约束空间的正交空间中,非自适应权重位于约束子空间中。
G SC是LCMV的等效实现方式,主要由主路和辅路两部分组成,目标信号从主路通过,噪声和干扰从辅路通过。权矢量可表示为
w=wq−Bwa
其中wq=(CCH)−1Cf为非自适应权重,是权重矢量wLCMV在约束子空间上的投影,约束子空间由约束矩阵C表示;wa=(BHRxB)−1BHRxwq为自适应权重,是权重矢量wLCMV在最小方差子空间上的投影。最小方差子空间由M*(M-P)维的阻塞矩阵B表示,B的作用就是就是保证目标信号不进入辅路。组成B的列矢量处于约束子空间的正交互补空间中。由于约束矩阵和阻塞矩阵是相互正交的所以必须满足BHC=0。
GSC波束形成的结构图如上图所示,其主要结构由固定波束形成、阻塞矩阵和自适应噪声相消器构成。在GSC结构中,上支路由延时求和的固定波束形成器组成,由于是将接收信号投影到约束子空间,因此我们希望只有纯净期望语音通过。下支路由阻塞矩阵和自适应抵消器组成,由于是将接收信号投影到最小方差子空间,阻塞矩阵的输出希望只有噪声通过。固定波束形成器的输出、阻塞矩阵的输出以及自适应抵消器组成了多通道自适应滤波结构。阻塞矩阵被用来阻塞期望语音信号,令yc=wHqx,z=BHx,权矢量可以表示为wa=R−1zpz,wa是保证主辅路均方误差最小的维纳解。其中,Rz=BHRB是z的协方差矩阵,pz=BHRwq是z和yc的互相关矢量。当z支路中包含较少目标信号时,GSC效果较好;但是当声源移动或者混响比较严重时,z中包含的目标信号超过一定程度,将会产生期望信号的泄露,在接下来的自适应滤波过程中会造成噪声信号与上支路期望语音信号相互抵消的现象,导致期望语音的失真,算法性能下降。
所以1999 年,O. Hoshuyama 等人采用约束自适应滤波的方法代替原来的对齐相减,以及采用当期望语音存在时只更新阻塞矩阵,而当期望语音不存在的时候只更新自适应抵消器的系数来减小期望语音信号的泄露
2001 年,S. Gannot 考虑到房间的混响情况,在频域提出了传递函数广义旁瓣对消器。
TF-GSC 包括三个部分,
为了进一步提升降噪效果,许多改进的方案在波束形成算法后加入一个频域滤波器,如维纳滤波器或其他最小均方误差(Minimum Mean Square Error, MMSE)估计器。通过在初始步骤中对信号的统计参数进行估计,然后使用这些参数来执行传统的单信道降噪算法,如对数谱幅度估计或谱减法,即有望进一步抑制噪声。
参数化多通道维纳滤波是多通道维纳滤波器的推广形式,多通道维纳滤波器的基本思想是最小化期望信号与输出信号的均方误差,但是维纳滤波器不能保证输出的信号是无失真的。通常可以引入一个参数,使得语音失真和噪声抑制之间取得折中。参数化多通道维纳滤波就是引入了一个语音失真加权参数,并在此参数的影响下最小化期望信号与滤波输出的均方误差,可以表示如下
minwRss|1−wHh|2+μWHRnnw
求解得到的波束形成系数为
wPMWF=ϕssR−1nmhμ+ϕsshHR−1nmh
语音失真加权参数μ控制着语音失真与噪声抑制之间的平衡, μ值越接近于 1 算法的降噪能力就越强,但语音的失真程度就会越大,且当μ=1时,PMWF 退化为多通道维纳滤波器从而不再保证语音的失真程度。μ值越接近于 0 则语音的失真程度就越小,但算法的降噪能力会越弱,且当μ=0时,PMWF 退化为 MVDR 波束形成器。参数化多通道维纳滤波算法也可以称为语音失真加权多通道维纳滤波算法(Speech Distortion Weighted Multichannel Wiener Filter, SDW-MWF),在系统模型误差方面,其相较于标准的 GSC 算法具有更强的鲁棒性。
当噪声干扰信号不是点声源或有太多的干扰噪声从不同方向到达麦克风阵列时,波束形成器的降噪能力是有限的。同时非稳定干扰噪声的存在也会影响自适应波束形成器对噪声的抑制效果。在自适应波束形成的输出后接入一个后置滤波器可以有效地抑制残留噪声,如非相干噪声、散射噪声等。由于指向性波束只能产生有限数量的陷零,这就限制了散射噪声的抑制程度。短时谱估计的后置滤波算法基于期望信号与噪声在时频域的不同,而非空间位置的不同,所以可以有效地抑制散射噪声。
在上一节中我们提到的多通道维纳滤波实际上可以分解为MVDR波束形成和一个单通道的维纳滤波两部分,如图下所示,其中wi(k)表示 MVDR 波束形成滤波系数。其分解过程如下所示:
首先我们令 PMWF 中的参数μ=1便得到多通道的维纳滤波器
wMWF=ϕssRnn−1h1+ϕsshHR−1nmh
利用 Woodbury 恒等式可将 MWF 分解为如下形式
wMWF=R−1whhHR−1nnhϕssϕss+ϕnn
其中ϕnn=wHMVDRRnnWMVDR=(hHR−1nn)−1。通过上式可以看出,准确的估计期望信号的功率谱或噪声信号的自相关函数是维纳后置滤波算法的根本。
Zelinski 后置滤波器在估计ϕss时是基于噪声在不同麦克风之间是无关的假设,且由不相关噪声场产生,即Rnn=σ2nI;所有麦克风中的噪声功率谱均相同,即Rnini=Rnn;语音和噪声是不相关的。由上假设可得
Ryiyi=ϕsshih∗i+Rnn
Ryiyj=ϕsshih∗j
平滑后观测信号的自相关功率谱密度和互相关功率谱密度,可以如下递归估计
ˆRyiyi(t,f)=αˆRyiyi(t−1,f)+(1−α)y∗iyi
ˆRyiyj(t,f)=αˆRyiyj(t−1,f)+(1−α)y∗iyj
α为接近 1 的固定平滑因子,Zelinski 后置滤波器最后可以表达成为
wZelinski=2M(M−1)∑M−1i=1∑Mj=i+1Re{ˆRxi,yj(t,f)}1M∑Mi=1ˆRyiyi(t,f)
其中 Re(·)表示复数的取实部操作,应用于上式是为了确保语音的功率谱密度估计是实数。
缺点:由于 Zelinski后置滤波器在估计噪声时并没有考虑到前面波束形成的降噪作用,使得噪声被过估计,因此Zelinski后置滤波器在理论上是次优的。
U. Simmer为了解决噪声过估计的问题,在 Zelinski 滤波的基础上提出了另外一种后置滤波器。在同样的非相干噪声场假设条件下,Simmer 后置滤波器将波束形成后输出的自相关功率谱密度代替 Zelinski 后置滤波器的分母部分。由于在分母部分使用了波束形成输出的自相关功率谱密度,Simmer后置滤波器被证明是在不相干噪声信号条件下理论最优的维纳后置滤波器。
问题:Zelinski 后置滤波器和 Simmer 后置滤波器仅仅只解决了在非相干噪声场中不相关噪声信号的抑制问题,但在实际生活中纯非相干噪声场的使用场景比较少,我们一般对常见的扩散噪声场更感兴趣。
McCowan 后置滤波并没有假设不同麦克风之间的噪声是不相关的,考虑到麦克风之间接收噪声的相关性,且假设噪声是已知的散射噪声场,用噪声相关函数Γy(f)表示。由以上假设,麦克风接收信号的自相关和互相关噪声功率谱密度可表示为
Ryiyi=ϕsshih∗i+Rnn
Ryiyj=ϕsshih∗j+ΓijRnn
根据上式,Mc Cowan 后置滤波器最后可以表达成为
wMecowan =2M(M−1)∑M−1i=1∑Mj=i+1ˆRijss(t,f)1M∑Mi=1ˆRyiyi(t,f)
其中
ˆRijss(t,f)=Re{ˆRyy,y(t,f)}−12Re{Γij(f)}[ˆRyy,t(t,f)+ˆRy,y(t,f)]1−Re{Γiy(f)}
同样是由于噪声过估计问题,Mc Cowan 后置滤波器是理论次优的。
S. Lefkimmiatis采用了与 U. Simmer 相同的方法解决噪声过估计问题。同样是考虑到使用波束形成滤波后的输出估计噪声信号的自相关功率谱密度,Lefkimmiatis 后置滤波器被证明是在扩散噪声相干函数条件下理论最优的维纳后置滤波器。
维纳滤波器基于均方误差准则,并不能得到最优的频谱,更合适的方法是基于谱幅度的均方误差或对数谱幅度的均方误差。基于这两个准则,Y. Ephraim 提出了短时谱幅度估计器(Short-Time Spectral Amplitude, STSA) 和对数谱幅度估计器 (Log Spectral Amplitude, LSA) 。I. Cohen 在对数谱幅度估计器的基础上结合语音的存在概率提出了最优修正对数谱幅度估计器(Optimal Modified Log-Spectral Amplitude, OM-LSA)。在期望语音信号和噪声信号经过离散傅里叶变换后,假设其傅里叶系数的实部和虚部均满足均值为零的高斯分布,在此条件下基于对数短时谱幅度最小均方误差的估计器可以分解为MVDR自适应波束形成器后接入一个单通道的对数短时谱幅度后置滤波器。
I. Cohen 率先将最优修正对数谱幅度估计器用于麦克风阵列后置滤波部分,其表达式如下所示
wOM−LSA=(ξ(t,f)1+ξ(t,f)exp(12∫∞v(t,f)e−ttdt))p(t,f)⋅G1−p(t,f)min
其中ξ(t,f)为先验信噪比,γ(t,f)为后验信噪比,v(t,f)=γ(t,f)ξ(t,f)1+ξ(t,f),p(t,f)为语音存在概率,Gmin为语音不存在时滤波器的增益下限。不同于传统的单通道OM-LSA 算法,作为麦克风阵列后置滤波器的 OM-LSA 算法,其语音存在概率的估计融合了空间信息,所以结果更准确。
解决方案
《基于特征值分解的自适应波束形成及后置滤波》
1. 首先利用期望最大化算法估计期望语音信号在时频点上存在的概率,
2. 然后推导了基于最大特征值向量的导向矢量估计和基于最小特征值向量的噪声功率
谱密度估计。
思路:为了更稳定地估计导向矢量和更精确地估计残留噪声。提出了基于特征值分解的自适应波束形成和后置滤波算法。基于最大特征向量的导向矢量估计不需要麦克风阵列的几何位置信息,信号相关矩阵的主成分将会指向最大输出功率方向。这样就可以避免对目标信号方向进行直接估计,且对于混响信号具有很好的鲁棒性。同时我们将使用信号相关矩阵最小特征值对应的特征向量对噪声功率谱密度进行估计。利用多通道信号估计的噪声功率谱密度相较于单通道的噪声跟踪更加准确。
对于麦克风阵列,最关键的问题之一是如何处理噪声环境中的有效信号捕获。信号在空间中大量的反射往往会形成接近球形的各向同性噪声场。因此,本论文在最小无失真响应(MVDR)算法的基础上,利用各向同性散射噪声场矩阵代替MVDR算法中的噪声空间相关协方差矩阵,对语音信号做波束形成降噪处理。
所有关于波束形成算法设计的主要性能指标是各类噪声场矩阵相关函数。所谓的“超指向性”(Superdirective)是指通过最优相关函数处理,抑制来自所有方向噪声对目标信号的影响,输出比常规波束形成具有更高“方向性”的阵列增益信号,从而改善降噪处理效果。
麦克风阵列的语音增强算法研究——王晓雪
2017麦克风阵列自适应波束形成及后置滤波技术研究_夏杰