近年来, 基于麦克风阵列的声源定位系统已成为现代信号处理领域的研究热点之一, 在视频会议、语音识别等领域有着广泛应用[1]; 此外, 还可以用于机器人的人机对话、助听器等设备[2-3].Flanagan等将麦克风阵列运用于语音加强, 又利用阵列信号在混响条件下对声音进行捕获[4-5]; Silverman等把传声器阵列引入到语音识别系统, 又将阵列信号处理技术运用在说话人的辨别上[6-7].与国外的研究工作相比, 无论在理论研究还是在装置开发方面, 国内的工作都还处于初级阶段, 因此有必要研究这种声源定位技术.
按照利用信号的信息不同, 基于麦克风阵列的方法有基于信号到达角度(DOA)、基于信号能量(RSSI)和基于时延估计(TDE)的3种定位方法.本文主要通过对广义互功率谱相位法的研究, 实现了声源定位.
1 信号模型在理想信号模型中, 麦克风阵列M1, …, Mn接收到的信号只有直达的声源信号s(t)和噪声信号n1(t), …, nn(t).第i个麦克风Mi接收到的声音信号xi(t)为
(1) |
式中:ai为声音信号的传播效应衰减因子; τi为声音信号s(t)到达第i个麦克风Mi的传播时间; ni(t)为第i个麦克风Mi收到的直达的噪声.
实际环境中麦克风Mi接收到的信号为
(2) |
式中hi(t)为环境脉冲响应函数,*表示卷积.
2 复倒谱混响消减原理及仿真 2.1 复倒谱混响消减原理用离散方式表征声音信号时, 室内的麦克风阵列采集到的声音信号x(t)的表达式为
(3) |
式中P是采样长度.把式(3)变换到频域:
(4) |
式(4)两边取对数, 并做傅里叶逆变换, 得出复倒谱关系:
(5) |
从复倒谱的特征和实验结果可以得出:当语音信号变换至复倒谱域后, 就可以运用“低时窗”过滤掉混响
实验的语音信号为手机播放的一段音乐, 并在其中加入一段白噪声, 其中采样频率为21.5 kHz, 帧长N为512点, 帧移为128.复倒谱域滤波器本质上是一种带阻滤波器.实验中麦克风阵列采集到的声音信号通过复倒谱变换后的波形如图 1所示.
从图 1可知, 应当设置适当的滤波器滤除中间部分.滤波器的基本构成如图 2所示, 其中L为滤波器最高截止点, h为过渡带宽.
图 3所示是滤波器最高截止点对消减混响效果的影响:最高截止点和混响消减效果成反比, 当L=4, 即L/N=1/128时, 消减混响的指标ΔSRNR(时域信噪比改善指标), ΔLPCC(线性预测倒谱系数距离改善指标)和ΔMFCC(频率倒谱系数距离改善指标)达到最优值.图 4所示为L=4时过渡带曲线阶数对混响消减效果的影响.
过渡带宽的取值也会影响混响消减的效果.当最高截止点L=4, 过渡带曲线阶数k=2时, 过渡带宽对混响消减效果的影响如图 5所示.
通过对上面各参数的研究得到滤波器的最佳参数值.当混响时间为26, 27, 28, 29, 210 ms时, 滤波器最高截止点均为4, 表明在一定的混响时间范围内, 最高截止点与混响时间无关.
2.3 复倒谱混响消减仿真取采样频率为21.5 kHz, 帧长为512点, 帧移为128点, 汉宁窗的系数为2.8, 最高截止点L=4, 过渡带阶数k=2, 过渡带宽h=64时, 混响消减前后的波形如图 6所示.对比图 6b和图 6c可以发现, 掺杂在语音信号中的混响, 在经过复倒谱域滤波之后, 可以得到比较纯净的语音信号.
互功率谱相位法首先对采集到的声源信号加窗分帧, 求其互功率谱函数, 然后在频域对求得的函数加权, 再取反变换得到互相关函数.
在弱噪声和弱混响环境中, 计算两个信号的时延差可以采用互功率谱相位法; 但是, 在强噪声和强混响环境中, 互相关函数的峰值并不明显.针对这一问题, 可以对互功率谱相位法进行改进.
3.1 加权函数首先对互功率谱函数进行频域加权, 常用加权函数有ROTH函数、平滑相干(SCOT)函数和相位变换(PHAT)函数等[8].常用权值A见表 1[9].各函数相关系数仿真如图 7所示.
仿真研究表明, 在同一实验条件下, ROTH函数和SCOT函数处理后的互相关函数的最大峰值不明显, 得到的不一定是准确的时延估计值, 导致声源位置估计失败; 然而经过PHAT函数处理后的互相关函数的最大峰值十分突出, 所以, 本文选择PHAT函数.
3.2 限制互相关函数的搜索区间如图 8所示, 假定相邻的两个麦克风之间的距离是D, 而声源信号到达麦克风M1和到达麦克风M2的距离差是d, 显然d < D, 两边同时除以声速c就可以得到声源信号到达麦克风M1和到达麦克风M2的时间差, 搜索的区间应该限制在[-Dfs/c, +Dfs/c]范围内,其中fs为采样频率.
麦克风在接收语音信号时会引入同步噪声, 虽然设计的带通滤波器可以滤除一部分噪声, 然而通带内的噪声无法滤除, 导致在后续的处理算法中, 互相关函数原点处有可能产生不正确的峰值, 从而造成估计的时延值不正确[10].
综上所述, 本文采用广义互功率谱相位法求时延, 并对其作进一步改进.
4 麦克风阵列设计 4.1 阵列结构选择一维均匀直线阵列构造简易、易于理解, 算法的难度和复杂度较低; 但只能给出声源相对于麦克风阵列的距离和角度.综合考虑系统实现的难易程度、实时性要求、数字信号处理特性等, 选择一维均匀线性阵列[11].
4.2 阵元的间距和数目要选定一个合适的麦克风阵元间距, 需要考虑音频信号频率和采样频率等因素.查阅文献可知阵元间距必须符合的要求是:最小的阵元间距必须不大于音频信号的一半.本文中音频信号的频率范围在一般情况下为300 Hz~3 kHz, 它的波长范围在11.3~113 cm, 阵元间距为5.65~56.5 cm.当阵元间距为5.65 cm时, 可分辨的最大时延值为0.17 ms, 而将阵元间距定为56.5 cm时, 可分辨的最大时延值为1.7 ms;因此本文把麦克风阵元的间距设置为57 cm.
确定阵元间距后需要确定阵元的数目.麦克风的数目较少时, 麦克风阵列的结构简单, 对应的几何算法也不复杂; 但会导致系统获得的声源位置信息比较少, 间接影响声源位置估计的准确度.综合考虑, 本文选用4个麦克风组成阵列.
5 实验与分析实验测试环境在一间封闭的实验室内, 房间内有桌椅、电脑等障碍物, 因此麦克风接收到的声源信号会受到噪声和混响的影响.把麦克风阵列水平放置, 使声源和阵列处于同一水平线.选择麦克风M1作为参考点, 并以其为圆心, 在半径1~3 m范围内, 角度在阵列正前方的0°~180°内, 随机选取10个点.定位系统配置的采样频率是21.5 kHz, 采样点数是1 024, 声源为1 kHz的单频信号, 幅值可调.将改进前后的定位算法在不同的声源位置处测试30次, 通过PC机界面直接查看声源距离阵列参考点的距离变量R和角度变量θ.图 9所示为该实验测试点分布图.
算法改进前后估计值的对比见表 2.可以看出, 用改进后算法估计出的声源位置更精确.
本文研究了室内麦克风阵列的理想信号模型和实际信号模型, 提出一种互功率谱相位法, 并对其进行了改进.对本文设计的声源定位系统进行了实验论证.假定估计的角度误差为±10°, 距离误差为±15 cm, 则改进后的算法成功率能达到80%, 明显高于改进前的成功率.
[1] |
Huang Y T, Benesty J, Elko G W, et al.
Real-time passive source localization:a practical linear-correction least-square approach[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(8): 943–956.
DOI:10.1109/89.966097 |
[2] |
Widrow B, Luo F L.
Microphone arrays for hearing aids:an overview[J]. Speeeh Communication, 2003, 39(l/2): 139–146.
|
[3] |
Wang Q H, Ivanov T, Aarabi P.
Acoustic robot navigation using distributed microphone arrays[J]. Information Fusion, 2004, 5(2): 131–140.
DOI:10.1016/j.inffus.2003.10.002 |
[4] |
Flanagan J L.
Beam width and usable bandwidth of delay-steered microphone arrays[J]. Bell Labs Technical Journal, 1985(4): 983–985.
|
[5] |
Flanagan J L, Berkley D A, Elko G W, et al.
Autodirective microphone systems[J]. Acta Acustica united with Acustica, 1991, 73(2): 58–71.
|
[6] |
Silverman H F.
Some analysis of microphone arrays for speech data acquisition[J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 35(12): 1699–1712.
|
[7] |
Silverman H F, Kirtman S E.
A two-stage algorithm for determining talker location from linear microphone array data[J]. Computer Speech & Language, 1992, 6(2): 129–152.
|
[8] |
Arslan G, Sakarya F A.
A unified neural-network-based speaker localization technique[J]. IEEE Transactions on Neural Networks, 2000, 11(4): 997–1002.
DOI:10.1109/72.857779 |
[9] |
Chen J D, Benesty J, Huang Y T.
Performance of GCC- and AMDF-based time-delay estimation in practical reverberant environments[J]. EURASIP Journal on Applied Signal Processing, 2005(1): 25–36.
|
[10] |
Bian X H, Rehg J M, Abowd G D.Sound source localization in domestic environment[R].Atlanta: GVU Center, Georgia Institute of Technology, 2004: 19-36.
https://www.researchgate.net/publication/27518694_Sound_Source_Localization_in_Domestic_Environment |
[11] |
张传义, 米常伟.
基于TDE技术的声源定位算法研究[J]. 东北大学学报(自然科学版), 2014, 35(3): 333–336.
( Zhang Chuan-yi, Mi Chang-wei. Research on sound source localization system based on time delay estimation[J]. Journal of Northeastern University(Natural Science), 2014, 35(3): 333–336. DOI:10.3969/j.issn.1005-3026.2014.03.007 ) |