2. 辽宁科技大学 电子与信息工程学院,辽宁 鞍山 114051
2. School of Electronic and Information Engineering, University of Science and Technology Liaoning, Anshan 114051, China
在计算机视觉研究领域里,目标跟踪[1]是主要的方向之一,有单目标跟踪和多目标跟踪两种类型.其中,多目标跟踪需要在给定的视频序列中同时标记数个目标,从而获得它们的运动轨迹.多目标跟踪在机器人导航、智能视频监控、自动驾驶等范围都有着极为普遍的运用.行人目标作为一种典型的非刚体目标,跟踪难度较大,是实际应用中最常见的一种.
近年来,基于神经网络的深度学习技术取得极大的发展,具有代表性的检测算法包括Fast R-CNN[2], SSD[3]和YOLO[4]算法等.随着目标检测技术的进步,基于检测的多目标跟踪算法(tracking-by-detection)占据主要地位.算法在每一帧中检测出目标,然后与已有的跟踪轨迹进行匹配.对于当前帧中的新目标,需要形成新的轨迹;对于离开当前帧中视野的目标,需要终止目标的轨迹.
多目标跟踪场景比较复杂,需要处理目标的光照、变形、遮挡等问题.跟踪过程中背景与目标之间会发生相互交互,因此应用高性能的检测算法在多目标跟踪中极为重要.在跟踪任务中,通常用卡尔曼滤波来进行跟踪目标的轨迹预测,但目标发生姿态变化时不能达到很好的跟踪效果.在跟踪目标与检测目标进行数据关联计算时,一般通过匈牙利算法进行边界框重叠(IOU)[5]的关联度量,这种关联度量在状态估计不确定性高时,容易出现身份交换和跳变的问题.
为了更好地应对上述多目标跟踪问题中的难题,许多学者基于深度学习理论提出了不同措施,以提高算法的性能.Wang等[6]率先将深度学习应用到多目标跟踪中,使用了自动编码器网络,优化提取到的视觉特征,并采用支持向量机来处理关联问题.Wojke等[7]提出Deep Sort算法,运用一个残差网络结构来提取目标的外观信息,用匈牙利算法将外观特征向量的余弦距离与运动信息关联起来.Sadeghian等[8]引入循环神经网络,将LSTM提取的特征相融合,获得相似度得分.自从生成对抗网络模型[9]被首次提出以来,文献[10]运用生成对抗网络进行数据增强,将其应用到行人重识别领域.文献[11-12]在有关预测行人运动轨迹的工作中,通过结合生成对抗网络和LSTM来帮助提高预测效果.
针对上述观察,本文提出了一个多目标跟踪算法的框架,基于YOLO的人体人脸关联算法进行目标检测,可以解决在密集场所中人体和人脸匹配困难问题,提高行人目标检测的准确度;在特征提取模块和路径预测模块均引入了生成对抗网络,对目标形状颜色等外观特征进行有效表达,可以应对目标复杂多变的运动轨迹;优化了跟踪与检测的数据关联算法,在匹配时融合了外观信息和运动信息,提高了整个模型的鲁棒性.
1 算法框架本文提出的整体算法框架由4个模块组成,分别是检测模块、特征提取模块、预测模块和匹配模块.如图 1所示,首先对被跟踪视频序列的当前帧图像进行检测操作,获取所有目标的位置信息,即相互关联的人体检测框和人脸检测框,人脸框的存在可以使人体框较为粗略的特征有所补充.特征提取模块包含两种提取特征的网络,Net1为基于生成对抗的行人特征提取网络,Net2为常见的人脸识别网络,两个特征拼接形成最终的特征.同时使用基于生成对抗的行人多目标轨迹预测网络对每个目标的运动轨迹进行状态估计.将以上信息送入最后的匹配模块,进行轨迹更新,以达到对每个目标的持续跟踪.
本文提出了一种基于YOLO的人体人脸相关联的目标检测算法,主要解决密集场所中行人目标检测困难问题.在目标人体的外观相似时,增加了人脸特征以增加外观特征的区分度.本文将YOLO的网络进行改进,网络结构图如图 2所示.首先将检测图片送入网络中,输出层包括3个不同尺度的特征图,保证了模型对各种尺度物体的检测能力.将包含特征的向量根据置信度进行降序排序,先将top 1置信度的框的位置信息(bounding box,简称bbox)遍历其他bbox进行IOU计算.如果值大于阈值,则认为该bbox为重复框,将其剔除.然后再从剔除后剩余的bbox取出top 2的bbox重复以上的操作,直至遍历结束,最终得到精简的检测结果.
改进后的输出层在原来的基础上增加了4维用于存放于人体框相关联的人脸框的位置信息,分别为相对人体框的人脸框的横向位置,纵向位置,宽度和高度信息.
txperson, typerson, twperson, thperson相当于输出特征的前4维,而txperson_face, typerson_face, twperson_face, thperson_face相当于输出特征的后4维.当检测物体是人脸时,则不进行相关的计算.本文采用了更稳定的L1损失,损失函数如下:
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
其中:lossw_hperson是人体检测损失函数;xiperson是预测的行人相对横向位置;
在特征提取模块中,本文采用了基于生成对抗的算法提取行人特征.相比于一般的深度学习特征提取方法,通过生成对抗生成新的数据,使特征提取的网络在最大程度上减小相同ID图像间的类内特征变化和区分不同ID的图像间的类间特征.本文使用编码器作为识别学习的骨干网络,并利用不同条件下生成的图像,学习到目标的主要特征以及精细特征.
用
对于不同ID的图像生成(图 4),给定两个图像xi和xj,所生成的图像
(7) |
(8) |
(9) |
其中p(yi|xji)是xji的预测概率,属于xi的真实标签类yi,该图像在生成xji时提供编码.此外,本文采用对抗性损失函数来匹配生成图像的分布与真实数据分布:
(10) |
使用同一身份ID的任意两个图像之间进行图像的重构,如图 5所示,以减少类内特征变化.给定图像xi,生成模块首先学习如何从自身重构xi.此外,生成器应该能够通过具有相同标识yi=yt的图像xt来重构xi,使用ID损失来区分不同的标识ID:
(11) |
(12) |
(13) |
其中p(yi|xi)是图像外观编码属于真实标签类别的预测概率.
使用监督模型动态分配标签xji,这取决于它从xi和xj得到的外观编码和结构编码.判别模块方面,为了使其获得图像主要特征的识别能力,本文通过使其预测的概率分布p(xji)与监督预测的概率分布q(xji)之间的信息散度最小化,来对判别模块进行训练:
(14) |
本文提供另一种方法来替代生成分支,通过模拟图像中行人目标的服装变化,来代替使用生成的数据,进行主要特征的学习,当对以这种方式进行训练时,判别模块能够学习与服装无关的细微的ID相关属性.把不同结构编码和外观编码组合生成的图像,视为提供结构编码的真实图像的同一类.对这个实现图像细微特征挖掘判别模块,使用标识ID损失进行训练:
(15) |
为了优化总的目标,使用以下损失的加权和,对外观编码器、结构编码器、解码器和判别器共同训练:
(16) |
其中:Lreconimg=Lreconimg1+Lreconimg2是图像重建中的自我(同ID)判别损失;Lreconcode=Lreconcode1+Lreconcode2是跨身份(不同ID)生成中的编码重构损失;λimg, λid, λprim, λfine是控制相关损失项重要性的权重.
使用数据集生成的图像如图 6所示,其中第1行为原始图像,第2行为使用两个同一身份ID图像重构的图像,同时保留了目标的外观和结构特征.其他为由两个不同ID的图像生成的图像,生成的图像出现服装配饰等方面的外观变化,保留目标自身的结构特征.
多目标跟踪的实际场景中,行人多目标的轨迹预测时需要考虑运动的实际情况,周围人的活动也会影响目标的行走路径.本文采用了基于生成对抗模型的多目标路径预测算法,应对复杂的人类交互,预测未来轨迹.算法基于生成对抗的编码器-解码器结构,并提出一种池化模块来模拟行人之间的相互作用.将目标与周围数个干扰目标的相对位置作为模块的输入,经过MLP和Max-Pooling处理,最终得到一个汇集了目标行人与周围行人位置信息的向量,以此模拟目标与周围人的交互.
本文的路径预测模型如图 7所示,整体由3个主要部分构成:生成器、池化模块和判别器.生成器基于编码以及解码的LSTM框架,采用池化模块对编码和解码的隐藏状态进行连接.最后送入判别器进行判定轨迹是否为真.
生成器部分,将每个目标的位置输入到作为编码器的LSTM单元,得到一个定长向量eit,引入以下循环:
(17) |
(18) |
其中:t是序列; i是目标; Φ()是具备ReLU非线性的嵌入函数; Wee是嵌入权重;Wencoder是LSTM的权重.
本文使用池化模块来模拟来往行人之间的交互作用,在可观测时刻之后,将场景中所有人的隐藏状态汇合起来,每个人获得一个合并的张量.通过初始化解码器的隐藏状态来调节输出轨迹的生成:
(19) |
(20) |
其中:γ()是包含ReLU非线性的多层感知器(MLP); Wc是嵌入权重,后续预测情况如下:
(21) |
(22) |
(23) |
(24) |
其中:Φ()是具备ReLU非线性的嵌入函数; Wed是嵌入权重.
判别器由一个解码器组成,输入为Treal=[Xi, Yi],Tfake=[Xi, Ŷi]并将它们归类为真或假,在解码器的最后隐藏状态上运用多层感知机以得到最终的分类分数.采用了一种多重损失函数,能够激励网络生成不同的样本.在N(0, 1)中随机抽样z并使用L2意义上的“最佳”预测作为本文的预测,生成k个候选的输出预测.
(25) |
本文中采用的匹配模块首先对目标运动信息进行匹配,具体的做法为计算轨迹预测模块的结果与检测结果之间的马氏距离:
(26) |
其中:d为第j个检测结果的位置; yi为第i个跟踪器对跟踪目标的预测位置; Si为检测位置和平均跟踪位置的协方差矩阵.设定阈值t(1),当此次关联的马氏距离小于它时,运动状态关联成功,关联度量为
(27) |
在运动不确定度较高时,如长时间跟踪或出现长时间遮挡的情况,引入外观特征进行匹配.外观特征即人体框人脸框的联合特征.通过将每一个跟踪的目标的历史特征构造成一个特征库,存储最近成功关联的帧的特征,计算待匹配的特征与特征库特征之间的余弦距离最小值进行匹配:
(28) |
如果最小距离小于设定阈值,则关联成功.使用两种度量的方式进行加权得到.运用组合距离阈值判断不等式,作为判断第i个目标跟踪结果和第j个目标检测结果之间是否关联的总公式:
(29) |
(30) |
可以看出,只有当c(i, j)同时满足两个度量的阈值的要求,才设定为完成了正确的关联.马氏距离度量对短时跟踪效果较好,外观特征度量对长时跟踪或长时间遮挡的情况更有效.可以针对不同的任务设定不同的λ进行适应.
2 实验 2.1 与当前主流算法进行比较本文使用MOT16[13]基准测试数据集评估了所提出的跟踪算法的性能,并与Deep Sort[7]、Sort[14]等先进算法进行了各项指标的对比.MOT16数据集具备多种多样的数据类型,具有在不同的视线角度、相机运动方式以及不同天气状况下拍摄的画面.根据MOT16的评估标准,实验结果如表 1所示,多目标跟踪准确度(MOTA)指标位于第2名,多目标跟踪精确度(MOTP)最高,比第2名高了0.25 %,比同类的基于深度学习的Deep Sort提高了1.64 %.准确度(MOTA)与身份跳变数目(IDS)对比如图 8所示,在不影响跟踪准确度的条件下,本文提出的算法身份交换和跳变明显少于其他算法.如图 9所示,虚警数(FP)、漏警数(FN)明显降低.
本文算法框架中的目标检测模块、特征提取模块、路径预测模块在目标检测数据集ImageNet、行人重识别数据集Market-1501、行人视频数据集Eth中分别进行训练,得到最优的权重后再融入到整体的框架中.目标检测模块中lossw_h采用均方差误差,其他的损失为交叉熵损失,并采用L1正则化.
在特征提取模块的整个训练过程中固定权重λimg=5, λid=0.5.用作区分特征学习损失Lprim和Lfine,直到生成器稳定下来.本文模型在Market-1501上进行30 000次迭代后,再将两个损失求和,随后的4 000次迭代中把λprim从0线性增加到2,并设定λfine=0.2λprim.
在跨身份(不同ID)图像生成中,在生成图像之前训练Ea, Es和G,在生成图像之后训练Ea, Es和D.实验发现匹配模块中马氏距离匹配阈值取9.487 7最佳.外观特征采用人体框人脸框的联合特征,其中人体框特征包含人体的主要特征和细微特征,人脸特征作为补充进行融合.将每一个跟踪目标的历史特征构造成一个特征库,将最近100个成功关联的帧的特征进行存储,计算待匹配的特征与特征库特征之间的余弦距离最小值进行匹配.
2.3 消融实验为进一步分析所提方法各部分的有效性,在基于普通人体特征和卡尔曼滤波跟踪器的基础上,设计了消融实验来对算法框架中的各个部分进行对比分析,结果如表 2所示.
通过对比准确度与身份跳变指标,在检测跟踪过程中增加了人脸特征之后,跟踪器的准确度有所提升,身份交换和跳变情况有了明显的缓解.进一步应用通过生成对抗网络提取的增强人体特征代替普通人体特征,多目标跟踪的准确度基本不变,但是身份交换和跳变数目降低了23 %.最后再用基于生成对抗网络的路径预测模块代替传统的卡尔曼滤波算法,可以看出本文改进的算法在身份交换和跳变数目上进一步降低26 %,达到最低.
本文算法通过增加人脸特征,提高了检测的准确性;通过引入主要特征和细微特征结合的增强人体特征,增强了图像特征的表现力;应用基于生成对抗网络的路径预测算法生成目标轨迹,得到目标更准确的位置序列.有效解决了现存算法中,检测结果与跟踪路径不匹配,身份变换频繁的问题.
2.4 定性分析图 10为本文算法在MOT数据集中一段视频序列上跟踪的实验结果.图 10所示的序列中,行人目标背景较为复杂,目标数量较多,目标间存在着频繁的交互.目标运动过程中发生了由远及近和由近及远的变化,使目标尺度发生改变.目标还出现了遮挡现象,以及随后消失又重现的情况.如图 10所示,本文取得了良好的跟踪效果.在背景复杂、目标遮挡、尺度姿态变化的应用场景中,有极大的抗干扰能力,有效解决了跟踪偏移和匹配错误的问题,实现目标平稳跟踪.
本文针对多目标跟踪中背景复杂、目标遮挡、目标尺度和姿态变化情况下,容易出现目标丢失、身份交换和跳变的问题,提出了一种基于生成对抗网络的多目标跟踪算法.通过使用基于YOLO的人体人脸关联算法,对当前帧待检目标进行检测,提出了基于生成对抗网络的特征提取模型,且引入了人脸特征, 使对目标的特征表示更加鲁棒.再使用生成对抗网络生成复杂交互下更准确的多目标的运动轨迹,在匹配模块中结合目标的运动信息和外观信息,得到最终的目标跟踪结果.实验结果表明,在出现背景复杂、目标遮挡、尺度变化等干扰情况时,本文算法都能平稳且准确地对目标进行跟踪,且大幅度减少了目标身份跳变情况的发生,具有较高的精确度.
[1] |
李玺, 查宇飞, 张天柱, 等. 深度学习的目标跟踪算法综述[J]. 中国图象图形学报, 2019, 24(12): 2057-2080. (Li Xi, Zha Yu-fei, Zhang Tian-zhu, et al. Survey of visual object tracking algorithms based on deep learning[J]. Journal of Image and Graphics, 2019, 24(12): 2057-2080. DOI:10.11834/jig.190372) |
[2] |
Ren S Q, He K M, Girshick R, et al.Faster R-CNN: towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems.Montreal, 2015: 91-99.
|
[3] |
Wei L, Dragomir A, Dumitru E, et al.SSD: Single shot multibox detector[C]//European Conference on Computer Vision.Amsterdam, 2016: 21-37.
|
[4] |
Redmon J, Farhadi A.Yolo9000: better, faster, stronger[C]//IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, 2017: 7263-7271.
|
[5] |
Bochinski E, Eiselein V, Sikora T.High-speed tracking-by-detection without using image information[C]//International Workshop on Traffic and Street Surveillance for Safety and Security at IEEE AVSS 2017.Lecce, 2017: 1-6.
|
[6] |
Wang L, Pham N T, Ng T T, et al.Learning deep features for multiple object tracking by using a multi-task learning strategy[C]//IEEE International Conference on Image Processing.Paris, 2014: 838-842.
|
[7] |
Wojke N, Bewley A, Paulus D.Simple online and real time tracking with a deep association metric[C]//IEEE International Conference on Image Processing.Beijing, 2017: 3645-3649.
|
[8] |
Sadeghian A, Alahi A, Savarese S.Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C]//IEEE International Conference on Computer Vision.Venice, 2017: 300-311.
|
[9] |
Goodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial nets[C]//Advances in Neural Information Processing Systems.Montreal, 2014: 2672-2680.
|
[10] |
Zheng Z, Zheng L, Yang Y.Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//IEEE International Conference on Computer Vision.Venice, 2017: 3754-3762.
|
[11] |
孙亚圣, 姜奇, 胡洁, 等. 基于注意力机制的行人轨迹预测生成模型[J]. 计算机应用, 2019, 39(3): 668-674. (Sun Ya-sheng, Jiang Qi, Hu Jie, et al. Attention mechanism based pedestrian trajectory prediction generation model[J]. Journal of Computer Applications, 2019, 39(3): 668-674.) |
[12] |
Gupta A, Johnson J, Li F F, et al.Social GAN: socially acceptable trajectories with generative adversarial networks[C]//IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City, 2018: 2255-2264.
|
[13] |
Milan A, Leal-Taixe L, Reid I, Anton M, Laura L T, Ian R et al.MOT16: a benchmark for multi-object tracking[J/OL].arXiv preprint arXiv: 1603.00831, 2016: 1-12.
|
[14] |
Bewley A, Ge Z Y, Ott L, et al.Simple online and real time tracking[C]//IEEE International Conference on Image Processing.Phoenix, 2016: 3464-3468.
|