2.中国刑事警察学院 图书馆,辽宁 沈阳 110854
2.Library, National Police University of China, Shenyang 110854, China
视觉目标跟踪是计算机视觉领域的研究热点,广泛应用于场景监控、人机交换等方面.众多学者在该领域展开了研究工作,已经取得了一些成果,较新的流行算法如MIL (multiple instance learning) 跟踪[1]、DFs (distribution fields) 跟踪[2]等.在线学习跟踪算法属于判别式跟踪方法,在此基础上发展出了当前流行的基于检测的跟踪算法.文献[1]首次将多示例学习应用在目标跟踪上,得到了较好的跟踪效果.但MIL存在着一些不足,文献[1, 3]中用Haar-like特征描述外观并不精准且选取的特征具有较少的辨别信息.其次,MIL使用包层级的概率获得弱分类器而没有直接采用示例层级,影响效率,因而应提高选取弱分类器的泛化能力.文献[3]融合正样本集的先验信息提出一种新的在线判别特征选择算法,比MIL特征选取更高效.
近来,Laura等[2]提出基于分布域描述子 (DFs) 的跟踪算法,能很好地表征图像外观.然而,该算法属于匹配式跟踪,没有利用背景信息,尤其是在目标和相邻背景的DFs中不同层之间存在相似特性时易发生漂移.因此,选取最具有辨别性的DFs层特征有利于优化跟踪结果.此外,DFs是基于平滑局部直方图计算,用群编码可提高DFs计算效率.
针对上述分析,本文首先采用群编码理论近似计算DFs特征,提高了文献[2]中DFs平滑直方图的计算效率.其次,采用ODFS算法从DFs特征中选取最有判别性的DFs层特征建立示例级分类器,改进了MIL中从样本包获取弱分类器的方法.最后,采用自适应样本更新策略增加算法鲁棒性.
1 相关工作 1.1 基于平均移位柱状图和群编码的DFs近似法分布域DFs[2]是由一组特征的概率分布构成,通过量化图像的特征信息构成的一个复杂数据结构.DFs是维度为2+D的矩阵,前两维是图像的宽度和高度,D是特征空间维度.建立DFs有两个步骤:图像扩展和平滑.首先,1幅图像被分成若干层,每层包含一组值,或相近的灰度值,将图像扩展成DFs.然后,对扩展后的DFs进行高斯滤波平滑,可降低目标模型对光照变化和背景噪声的敏感.
(1) |
(2) |
其中:dfs为平滑后的分布域;df (k) 为k所对应的分布域;h(k, σs)(x; y) 是标准差为σs的二维高斯核函数;*是卷积运算.通常对图像平滑后会导致图像空间信息丢失,破坏了原图信息,采用高斯核函数对分布域的空间域和特征域分别进行平滑处理,保持了每个像素的原有信息.h函数表示标准差为σf一维高斯核函数;dfss是计算得到的分布域描述子.
上述DFs计算过程融合了卷积后的池化和加权平均两个处理环节,因而并没有明确得到DFs的准确统计特征.在空间平滑阶段,每个像素点位置的概率分布是加权直方图即式 (1) 的结果.在特征域平滑阶段,式 (2) 结果为概率分布直方图的平均值.因而,DFs的统计特性服从平均移位柱状图 (averaged shifted histogram, ASH) [4],从而属于Scott等[5]提出的ASH概率密度估计理论范畴.ASH利用渐近性质进行概率密度估计优于普通直方图[6],前者密度曲线更光滑且不过度依赖于边界点选择.
ASH通过将每m个变化的子区间上的估计值进行平滑作为f(x) 的估计值,将每个长度为h的区间进行划分,令δ=h/m,tk=kδ,得分段子区间Ik=[tk-1, tk],rk为在每个小区间内的样本点的个数,则针对加权ASH,每个区间上概率分布为
(3) |
其中wm为权重函数,式 (3) 另一种常见形式如下:
(4) |
当wm(i) 为高斯核函数时,式 (3) 等同于计算DFs特征的池化操作.对式 (4) 求极限后得[7]
(5) |
当m趋近于无穷大即B(·/h) 由limm→∞wm(·) 得到时,在统计学期望值上,计算DFs特征即转为核密度估计KDE.而群编码或信道表示是近似KDE的一种有效方法[8],因而可有效计算DFs.
信息群编码是一种由生物学概念转换而来的数据表达方式,数据值x可通过非线性转换而编码为一个信道向量c.更多理论内容见文献[8].
(6) |
其中:B是局部对称非负的核函数;ξn,n∈[1, N]是呈均匀分布的各信道中心.带宽参数即各信道中心是整数间隔h,软直方图系数定义为
(7) |
式 (7) 参照式 (5) 可知,群编码与KDE相近,但用各核函数代替了各矩形柱划分样本数据.该法对新加入的样本xj只需对总样本计算一次求和操作,而KDE需要移动核函数到每个样本点所在的位置,对每个样本进行求和计算,因此群编码效率更高.式 (7) 中B(x) 为二次B样条曲线.
将式 (2) 改用群编码的式 (7) 计算,需要对前者带宽参数h同后者的参数σeff进行转换,σeff是子区间块与特征域平滑高斯核σf卷积.因只考虑这一个参数,选择同一个有效方差的联合核函数就可得到最佳近似效果.假定矩形块宽度w=16,
(8) |
参数h=2σeff,群编码由[256/h]个信道构成.
1.2 基于检测跟踪的判别式模型本文将一个目标样本x的特征向量表示为f(x)=(f1(x), …, fK(x))T,h(x) 为判断样本类别的强分类器,是由若干个弱分类器φk(x) 组成,本文朴素贝叶斯分类器判别公式如下:
(9) |
假定每个特征是独立同分布的.σ(·) 是sigmoid函数,y∈{0, 1}是二值变量,表示样本正负的类别.本文用一组平滑后分布域的层特征表示样本,即fk=df (x)=(dfx(k), …, dfx(K))T.设t时刻样本x位置为lt(x), t-1时刻目标位置是lt-1(x*)∈R2,x*是对应的样本.基于检测的跟踪算法首先在t时刻lt-1(x*) 目标位置附近采集一组样本集Xδ={x‖lt(x)-lt-1(x*)‖<δ},搜索半径δ,然后对每个样本提取相应特征,计算所有满足条件的样本为正样本的概率P(y=1|x).使用分类器对每个特征向量进行分类,通过计算最大分类响应x*=arg maxX(c(x)) 来找到跟踪位置.确定t时刻的目标位置lt(x*) 后,据此选取新的正负训练样本对分类器更新.X+={x‖lt(x)-lt-1(x*)‖<α}是新的正样本集,X-={x|β<‖lt(x)-lt-1(x*)‖<γ}是新的负样本集,其中α<β<γ;标记为正样本的集合{x1+, x2+, …, xn+},对应的分布域特征为{df1+, df2+, …, dfn+}.MIL[1]训练样本建立由弱分类器构成特征池Φ,再从池中选出K个弱分类器使分类置信度最大,并用贝叶斯分类器实现强分类器.
2 本文跟踪算法 2.1 在线判别分布域特征选择因为构成DFs的层分布域df (k) 的数量远小于Haar-like特征数量,本算法将其作为目标特征向量.每个弱分类器由DFs中的层特征构成,MIL从特征池中穷尽选出弱分类器算法效率不高.本文用在线判别特征选择算法实现,训练分类器时不再用MIL跟踪算法中基于包的训练集进行,弱分类器选取直接通过优化示例层级概率实现.
分类器工作的原理是由式 (9) 计算得到样本x为真实目标的置信图,最大置信度对应的点即为跟踪位置.假定样本空间可以划分为正样本区域R+={x, y=1}和负样本区域R-={x, y=0},用双方区域内样本平均置信度差值作为双方分界线:
(10) |
其中|R+|和|R-|是正负集合的基数.在训练集中N个正样本集R+={xi}i=0N-1,L个负样本集合R-={xi}i=NN+L-1,将积分用加法表示,式 (10) 转换为
(11) |
式中样本xi由一个特征向量 (dfx(1), …, dfx(K))T表示,得到特征池Φ={φm}m=1M.本算法只要从Φ中选出K个弱分类器,保证最大化正样本集的平均置信度并抑制负样本集的平均置信度,即:
(12) |
利用ODFS准则选择弱分类器,推导细节见文献[3].
2.2 增强的在线判别分布域特征选择跟踪算法增强的在线判别分布域特征选择跟踪算法如下:
输入t+1时刻视频图像.
1) 采集一组样本集,用式 (7) 群编码系数替换式 (2) 特征池化,近似得到分布域特征集{dfk(x)}k=1K;
2) hK(x) 代入式 (9) 对每个特征向量df (x) 进行分类,通过计算最大分类器响应确定跟踪位置lt(x*),其中x*=arg maxx∈Xα(c(x));
3) 利用1.2节采样策略获得2组样本集;
4) 由ODFS算法提取DFs层特征,更新DFs模型.
输出跟踪结果 (xt, yt).
上述算法中涉及的子算法ODFS算法如下:
输入{xi, yi}i=0N+L-1,yi∈{0, 1},初始化h0(xi).
1) 用{xi, yi}i=0N+L-1更新特征池Φ={φm}m=1M;
2) 更新平均弱分类器值
3) for k=1 to K do
4) 计算最速下降方向;
5) for m=1 to M do
6) 计算Emargin;
7) end for
8)m*=arg maxEmargin,计算得hk(xi);
9) end for
输出hK(x),c (x).
3 实验结果和分析 3.1 实验说明为了验证本文算法的有效性,本文进行了2组实验,并采用了新的跟踪算法评价指标.本实验平台基于Matlab R2010b,CoreI7 3.4GHz,4GB内存.本文所采用的测试标准库是由Wu等[9]提出的国际上权威的跟踪算法评测库.本文算法与基于信道表示的DF跟踪 (CBDF)[8]、分布域跟踪 (DFT)[2]和基于分布域特征的在线多示例学习跟踪 (DFMIL)[10]进行比较.将图像的像素光亮强度特征划分16段,特征池中候选特征数量M=16,远低于MIL跟踪器中250个Haar-like特征数量.本算法从特征池中选择5个特征即K=5,而MIL方法需要选择50个特征.对下一帧新目标位置搜索半径r*=25像素;正样本半径rp=4;负样本集圆环内径rn=8.
3.2 实验结果跟踪算法性能的评价标准通常是成功率和准确率,成功率定义为score=(A∩B)/(A∪B),其中A是目标矩形框的真实位置,B是算法的跟踪结果矩形框位置,∩和∪分别表示交集和并集.当score>t0,则认为该跟踪方法在此帧图像跟踪成功,t0通常取0.5.但单一阈值t0并不准确,成功率指标[9]由曲线下不同面积重叠阈值得到.
图 1给出了两种不同的成功率曲线,为了验证跟踪算法对测试序列初始化位置和时序的鲁棒性,实验用两个评价指标:时间鲁棒性成功率 (每个测试序列划分20个子序列,分别测试) 和空间鲁棒性成功率 (初始位置附近扰动,对不同标定位置进行测试),本文均具有更高的成功率.
表 1是6种跟踪器在部分标准测试序列的运行时间比较结果.本文跟踪算法处理速度约为12帧/s,略低于CBDF算法.ODFS算法在选择一个特征后,只需要更新分类器的梯度,比MIL算法更有效率.因为本文算法和DFMIL算法需要在每帧重新选择特征,所以两种算法跟踪速度要低于DFT.但本文算法运行速度比DFMIL更快,因采用了软直方图近似计算DF特征及快速的特征选择方法.
在图 2a Car4序列中,目标汽车经历光照的逐渐变化和小幅的尺度变化 (见第187帧),在未出现阴影时,4种算法都能准确跟踪目标 (见第50帧),本文算法利用ODFS选出最具有辨别性的分布域层特征以便更精确地跟踪目标.当目标驶出桥下阴影瞬间经历了比较剧烈的光照变化 (见第235帧),本文算法通过对所有正样本的弱分类器的输出求平均值来降低其他噪音的干扰,其他算法均出现了漂移,DFMIL跟踪失败 (见第600帧).图 2b Matrix序列中,目标姿态持续变化,并存在强环境光变化.MIL和DFT从开始阶段出现偏移,误差不断累积.DFMIL和DF跟踪精度上都不如本文算法,基于示例层级的有效样本模板更新发挥了作用.同时,DFs的池化技术对背景干扰鲁棒性更强 (见第50帧).图 2c David3序列中,目标经历部分遮挡、形变以及复杂背景干扰.在前100帧,几种算法都可以实现稳定跟踪,当目标被树木短时遮挡后,本文算法更准确定位目标,DFT算法在短暂遮挡后出现停滞,直到目标折返到原跟踪框误判停留区域后恢复跟踪.
综上所述,本文算法的跟踪效果稳定,能选出最有效的特征,将样本的重要程度直接同分类器分数关联.鲁棒的特征结构外观建模、更合理的示例级特征选择算法结合监督学习框架使得本文算法可有效防止漂移问题发生,尤其是在光照变化和严重遮挡情况下.
4 结论本文提出一种新的高效跟踪算法,结合产生式和判别式两种分类模型的优点,利用在线判别特征选择方法,同时将先验信息整合到监督学习算法中, 从而选出最具判别性的目标分布域层级特征.文中采用软直方图来计算分布域特征,提高了计算速度.实验结果表明,本文算法对光照变化、部分遮挡、形变等复杂环境具有较好鲁棒性,兼具较快的运行速度.
[1] | Babenko B, Yang M H, Belongie S.Visual tracking with online multiple instance learning [C]//Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Miami, 2009:983-990. |
[2] | Laura S L, Erik L M.Distribution fields for tracking[C]//Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Providence, 2012:1910-1917. |
[3] | Zhang K, Zhang L, Yang M H. Real-time object tracking via online discriminative feature selection[J]. IEEE Transaction on Image Processing , 2013, 22(12): 4664–4677. DOI:10.1109/TIP.2013.2277800 |
[4] | Scott D W. Multivariate density estimation:theory, practice, and visualization[J]. Journal of the American Statistical Association , 1994, 425(89): 359–360. |
[5] | Scott D W. Averaged shifted histograms:effective nonparametric density estimators in several dimensions[J]. The Annals of Statistics , 1985, 13(3): 1024–1040. DOI:10.1214/aos/1176349654 |
[6] | Felsberg M.Enhanced distribution field tracking using channel representations[C]// IEEE International Conference on Computer Vision Workshops.Sydney, 2013:121-128. |
[7] | Jonsson E, Felsberg M. Reconstruction of probability density functions from channel representations[J]. Image Analysis , 2005, 3540(1): 491–500. |
[8] | Felsberg M. Adaptive filtering using channel representations[M]. London: Springer London, 2012: 31-48. |
[9] | Wu Y, Lim J, Yang M H.Online object tracking:a benchmark [C]//Proceeding of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Portland, 2013:2411-2418. |
[10] | Ning J F, Shi W, Yang S, et al. Visual tracking based on distribution fields and online weighted multiple instance learning[J]. Image and Vision Computing , 2013, 31(11): 853–863. DOI:10.1016/j.imavis.2013.09.003 |