车载热成像行人检测是高级驾驶辅助系统(advanced driver assistance systems, ADAS)的重要组件, 感兴趣区域(region of interest, RoI)提取是行人检测系统的重要环节, RoI提取品质直接影响系统的检测率和虚警率.由于行人目标极易与背景干扰物混淆, 远距离行人难识别,以及背景灰度分布变化较大, 提高车载热成像行人检测的检测率,降低虚警率,具有极大挑战性.
滑窗法以多尺度穷尽方式提取RoI[1]可以获得高召回率;但是非行人RoI过多, 分类阶段虚警率居高不下, 且其计算开销限制了实际应用.Ge等[2]线性扫描双阈值RoI提取方法直接面向车载热成像行人检测, 计算开销较低, 能较好解决简单场景的图像目标分割碎裂问题;但是由于热成像图像品质通常不够稳定, 道路场景复杂, 其分割效果呈现多样性, 实用性有限.Liu等[3]对自适应双阈值分割方法进行改进, 采用像素梯度竖直投影预定位热成像中的潜在行人区域, 再针对区域进行双阈值分割提取RoI, 以减小阈值分割的搜索范围, 大幅降低计算开销.石祥滨等[4]提出基于十字窗口灰度方差的阈值分割算法获取RoI, 尽量保留竖直方向的灰度信息, 但是当行人目标的灰度分布不够均匀时, 这种阈值计算方法极易产生分割碎裂.Kim等[5]提出合并分割子区域的RoI提取方法, 利于连通热成像中分割碎裂的行人目标.
多种阈值分割方法致力于解决分割碎裂、背景干扰物引起的分割黏连或计算效率问题, 但是往往顾此失彼, 综合效果不尽如人意, 很难满足实际需求;而且, 对于多尺度行人目标, 负样本类内差异较大.RoI提取效率低下、检测率较低,以及虚警率较高等问题始终未能得到较好解决.
本文RoI提取框架包括图像预处理、RoI提取和RoI后处理三个模块, 创新特点如下:
1) 膨胀最大值滤波器.根据热成像特点, 应用膨胀滤波算法扩展行人RoI, 凸显灰度图像的对比度, 提高行人目标的显著性.
2) Haar-like增强自适应双阈值分割算法.利用Haar-like特征调整双分割的低阈值, 促成行人目标与背景干扰物较好分离;设计增量计算,实现多尺度目标分割, 提高效率.
3) RoI级联过滤器.基于目标灰度时序特性和空间对称特性构建级联过滤器, 滤除RoI中可能隐含的单干扰物虚警或组合虚警.
4) 集成测试.构建RoI提取器, 设计实验,在SCUT数据集上验证本文方法的效果和效率.
1 阈值分割方法阈值分割方法即利用阈值划分灰度图像前景与背景的方法;对于灰度分布不均匀的热成像, 一般采用自适应阈值, 像素阈值取决于其邻域的灰度分布.在热成像车载行人检测领域, 经典自适应双阈值分割算法[2]的作者通过实验研究发现, 如果行人比背景亮度更高, 即便行人亮度不一致, 从水平扫描的角度行人亮度也将一致高于背景.
1.1 自适应双阈值分割算法的阈值计算自适应双阈值分割算法设定图像的背景像素灰度最大阈值TH(x, y)和目标像素灰度最小阈值TL(x, y),且TL(x, y) < TH(x, y).从上至下逐行逐像素扫描当前图像:灰度高于TH(x, y)的像素置为前景,灰度低于TL(x, y)的像素置为背景;否则当前像素灰度等同水平方向前一像素灰度.TL(x, y)和TH(x, y)分别由式(1)和式(2)计算[2]:
(1) |
(2) |
式中:对于图像I, I(x, y)代表位于(x, y)的像素灰度值;w为与行人宽度相关的参数;α和β均为偏移量,通过实验获取.计算TL(x, y)的关键参数w,根据具体实例优化获取.
文献[2]为了在行人目标和背景灰度变化情况下获得较好的热成像分割效果,通过实验推导并根据TL(x, y)进行分段计算,求出最终TH(x, y),如式(3)所示.本文后续采用式(3)计算TH(x, y).
(3) |
对输入热成像进行全图分割, 计算开销仍然较大, 不利于嵌入式应用.为此, 提出基于图像梯度的垂直投影法[1]:计算所有像素的梯度, 在图像竖直方向上将具有较高梯度幅值的像素进行投影, 获得梯度投影曲线;扫描该曲线的上升沿和下降沿, 判断竖直方向上灰度值发生显著变化的转折点;通过匹配邻近上升沿和下降沿转折点的“点对”, 从输入图像中提取竖直带状区域, 作为初定位的潜在目标区域, 以避免分割算法对输入图像进行全局搜索.本文后续所述阈值分割界定于这种带状区域.
1.3 阈值分割算法的缺陷为了避免热成像行人目标亮度不一致时被分割为多个碎片,自适应双阈值分割算法采用水平线性扫描法计算TL(x, y).但是,在复杂场景中,行人目标亮度分布通常不一致,水平线性扫描方式仅关注水平邻域的像素灰度分布,面对与行人目标处于同一竖直方向(横向位置相同)、背景亮度较高的干扰物体,可能产生行人目标与背景干扰物黏连的分割结果.
如图 1所示, 针对原始图像(第一行), 采用自适应双阈值分割算法获得对应的二值图像(第二行).由图可见,人眼完全能够区分背景与行人目标, 而二值图的行人RoI多半与背景干扰物(如树干、路灯等)黏连, 造成RoI尺度过大且偏离真实行人目标的外接矩形, 以致后续分类器执行失误.
RoI提取方法包括:①预处理模块——设计膨胀最大值滤波器, 以增强图像对比度, 提高行人目标的显著性;②RoI提取模块——采用Haar-like特征辅助修订自适应双阈值分割的TL(x, y)计算, 使提取的RoI与背景干扰物有效分离;设计增量方式实现多尺度目标分割计算, 提高RoI提取效率;③后处理模块——基于目标灰度的时序特性和空间对称特性设计过滤器,排除虚假RoI.
2.1 图像预处理利用卷积神经网络通过扩张卷积核提高输出感受野[6-8]的技术方式设计膨胀最大值滤波器:逐像素遍历输入图像, 择出当前像素膨胀邻域中亮度最高的像素灰度值,并以此替代当前像素灰度值, 增强当前像素显著性.对于图像的亮目标区域, 膨胀操作前后的像素灰度差异普遍较明显, 经膨胀滤波不仅目标亮度增强, 而且目标区域也得到扩展;而对于图像的背景区域, 膨胀操作前后的像素灰度差异较小, 经膨胀滤波后背景区域灰度变化并不明显.以下给出膨胀最大值滤波器的定义及算法.
定义1 设输入图像为I, 位置处于(x, y)的当前像素灰度值记为I(x, y).定义膨胀最大值滤波器如图 2所示, 位置处于(x, y)的当前像素以图 2中黑色方块表示, 其8邻域像素为图 2中的阴影方格.图像I经膨胀最大值滤波器处理得到图像P, 则P(x,y)=max{I(x, y), I(x-h, y-h), I(x-h, y), I(x-h, y+h), I(x, y+h), I(x+h, y+h), I(x+h, y), I(x+h, y-h), I(x, y-h)}, 其中, h为膨胀因子, 默认值设置为3.图像I四周边缘像素的处理:依次在I的左、右、上或下边缘, 逐像素向左、右、上或下填充h个灰度取值为0的像素.
车载热成像行人检测系统的远距离行人目标与传感器的距离定义为85 m, 远距离行人目标外接矩形尺度为15×24像素;近距离行人目标与传感器的距离定义为20 m, 行人目标外接矩形尺度为90×140像素.计算结果表明, 经膨胀最大值滤波器操作, 远距离行人目标尺度扩展至18×27像素, 是原尺度的1.35倍;近距离行人目标尺度扩展至93×143像素, 是原尺度的1.06倍.由此可见, 膨胀最大值滤波器对远距离目标的扩展效果更显著, 更符合实际需求.膨胀最大值滤波器的处理效果如图 3所示.
图 3中自左至右共五组对比热成像行人目标的膨胀滤波操作效果, 每组两列, 左列为操作前, 右列为操作后.
2.2 RoI提取RoI提取模块包括两个创新点:①Haar-like增强自适应双阈值分割——借助Haar-like特征修订分割阈值计算;②高效率多尺度目标分割——采用增量计算进行多尺度目标分割, 以单尺度目标RoI提取计算开销, 实现多尺度目标RoI提取.
2.2.1 Haar-like增强分割阈值计算Liu等[3]的自适应双阈值分割RoI提取方法直接针对车载热成像行人检测, 不仅有效解决因分割造成的目标碎裂问题, 而且计算开销较低, 适合资源有限的嵌入式应用.但这种方法可能造成行人目标与背景干扰物体之间产生分割黏连.
实验分析表明, 在这类分割黏连中, 前景目标与背景干扰物的连接点大多出现在疑似行人目标的头部.借助Haar-like特征调整自适应双阈值的分割阈值计算, 可以同时兼顾水平和竖直方向像素邻域的灰度分布信息, 排除行人目标与背景干扰物可能形成的黏连, 具体算法描述如下.
经典自适应双阈值分割方法的TL(x, y)和TH(x, y)计算见式(1)和式(2).本文提出的阈值计算方法描述如下,以原始输入图像提取的带状区域作为以下分割算法的输入图像I[4],按照式(4)逐像素计算栅格区域Haar-like算子H(x, y),则Haar-like增强自适应双阈值分割算法的TL(x, y)计算见式(5).
热成像行人目标通常比背景干扰物更亮,围绕行人目标RoI可能的头部边缘区域像素点来计算Haar-like算子,特征值均大于0,则低阈值TL(x, y)被提高,促成头部边缘区域的像素点归类为背景,从而使行人目标RoI与背景干扰物分离.
(4) |
(5) |
式中:I(x, y)为位置(x, y)的像素灰度值;k取w/3, 与行人目标宽度相关的参数w默认取值为12.
2.2.2 Haar-like增强自适应双阈值分割法的RoI提取在车载热成像行人检测应用场景中, 行人目标通常分远、中和近三种尺度, 如果针对不同尺度目标计算阈值, 计算性能较差.设计十字模板扫描图像, 以增量方式实现多尺度目标灰度统计值的“或”运算和Haar-like算子的计算, 以此降低计算开销.十字模板如图 4所示.
图 4中下标s, m和l分别表示小尺度、中尺度和大尺度;w, b分别表示目标水平邻域宽度的1/2和目标竖直邻域高度的1/2;Δ表示增量.
为了进行阈值计算, 采用模板逐行逐像素扫描输入图像, 建立并实现关系为“或”的两类增量计算.其一, 当前像素属于初始像素(在图像的第1列或第1行), 扫描统计执行尺度级别的增量计算:先计算小尺度目标的扫描统计值, 则中尺度目标的扫描统计值等于小尺度目标的统计值加上中尺度增量;大尺度目标的扫描统计值等于中尺度目标的统计值加上大尺度增量.其二, 当前像素属于非初始像素, 扫描统计执行像素级别的增量计算:当前像素的扫描统计值等于前一像素的统计值加上当前像素增量.对于输入图像I, 执行以下计算.
1) 阈值计算:
情形1 像素(x, y)位于图像第1列(y=1)或第1行(x=1).小尺度(远距离)目标邻域像素灰度统计值sums(x, y)和竖直邻域像素灰度值之差hs(x, y)按式(6)计算.
(6) |
中尺度目标邻域像素灰度值之和summ(x, y), 竖直邻域像素灰度值之差hm(x, y), 如式(7)所示.
(7) |
式(7)所包含的两个式子分别表达在小尺度目标的基础上增加像素灰度值增量和Haar-like增量.
大尺度目标邻域像素灰度值之和sum1(x, y),竖直邻域像素灰度值之差h1(x, y),如式(8)所示.
(8) |
式(8)所包含的两个式子分别表达在中尺度目标的基础上增加像素灰度值增量和Haar-like增量.
情形2 像素(x, y)不在图像左上角,即y>1, x>1,则执行像素级别的增量计算.dk(x, y)表示k尺度位置(x, y)像素的分割响应值;sumk(x, y)表示k尺度目标邻域像素灰度统计值;hk(x, y)表示k尺度目标邻域像素灰度值之差;TLk(x, y)表示k尺度分割低阈值,THk(x, y)表示k尺度分割高阈值;k=s, m, l分别表示小尺度、中尺度和大尺度目标.在十字模板扫描图像的过程中,当前像素作为模板中心像素,但凡逢图像边缘时,伸出图像边缘的模板像素值均取“0”值,如图 4所示.
根据水平方向前一像素统计值sumk(x-1, y)和相应目标尺度像素灰度值增量计算当前像素灰度统计值sumk(x, y),基于竖直方向前一像素统计的邻域灰度值之差hk(x, y-1)和相应目标尺度像素灰度值增量计算当前像素的和,以及当前像素的竖直邻域像素灰度值之差hk(x, y):
(9) |
2) 针对小尺度、中尺度和大尺度目标, 分别计算改进的双阈值分割算法的阈值TLk(x, y)和THk(x, y):
(10) |
(11) |
3) 针对小尺度、中尺度和大尺度目标逐像素求得(x, y)分割响应值dk(x, y):
(12) |
RoI后处理包含两个级联过滤器:基于目标时序灰度变化特性的过滤器, 用于滤除单干扰物虚警;基于目标空间灰度对称特性的过滤器, 用于滤除组合虚警.
2.3.1 时序灰度不变性过滤器在短时间内单干扰物虚警的灰度分布基本不变, 而行人目标的局部灰度分布变化较大.设计“RoI下肢跨度”模型, 并基于该模型构造时序灰度不变性过滤器.
1) RoI下肢跨度模型:
行人目标与单干扰物虚警的局部灰度分布变化差异性较大, 若将整个RoI用于灰度分布计算, 非运动区域不仅耗费计算资源, 还降低真伪行人目标之间的可区分度.选取反映RoI动态特性的下肢, 建立“下肢跨度”模型表示RoI的下肢高亮区域两侧边缘的距离, 记作d.算法流程见图 5.图 5a表示单个RoI, 纵向三等分RoI, 自底截取RoI的1/3区域作为下肢, 其高度为H, 宽度为W, 见图 5b.按式(13)计算RoI下肢的竖直灰度投影V(x), 见图 5c.按式(14)计算竖直灰度投影的一阶差值, 见图 5d.一阶差值曲线的最高波峰取作RoI下肢左边缘位置, 一阶差值曲线的最低波谷取作RoI下肢右边缘位置, 左、右边缘位置横坐标之差的绝对值即为RoI的下肢跨度d, 见图 5e.
(13) |
(14) |
2) 时序灰度不变性过滤器:
依据RoI动态特性, 建立基于“下肢跨度”模型的RoI过滤器, 滤除与行人目标轮廓极为相似的单干扰物.过滤器算法描述如下.
步骤1 下肢跨度指标设为ch*.在SCUT Dataset中选S0~S10作为基准数据集, 统计数据集中单行人目标下肢跨度总变化量, 进而观察不同单行人目标下肢跨度总变化量的分布区间, 截取95%置信度区间下界截点作为下肢跨度判别指标ch*.
步骤2 标记RoI.对当前图像的RoI逐个标记下肢跨度d、下肢跨度变化量Δd和下肢跨度总变化量ch.Δd表示相邻两帧RoI下肢跨度的变化量, ch表示RoI经历首帧至当前帧的Δd累计总和.
3) 计算下肢跨度总变化量ch:
① 按1)所述计算d;
② 计算Δd:逐一匹配当前帧RoI与前一帧RoI(逐个RoI匹配), 若前一帧RoI的高、宽不小于当前帧RoI的高、宽的1/2, 且前一帧RoI的横、纵坐标与当前帧RoI的横、纵坐标差值的绝对值分别小于当前帧RoI高、宽的1/2, 则当前帧的当前RoI与前一帧对应RoI的d值之差的绝对值即为当前RoI的Δd;
③ 当前帧当前RoI的Δd与前一帧相应RoI的ch之和为当前RoI的ch.
对于未能匹配前一帧RoI的当前帧当前RoI(首次出现的RoI), 则Δd=ch=0, 首次匹配前一帧RoI的当前帧RoI, ch=Δd, 否则ch≥Δd;逐个RoI计算ch-ch*, 当ch-ch* < 0(不具备动态性), 滤除该RoI.
2.3.2 空间灰度对称性过滤器道路行人目标通常呈步行或骑行状态, 普遍具有对称的性质, 而组合干扰物的灰度分布复杂, 基本不具备对称性.本文通过设计最大池化特征来构造空间灰度对称性过滤器.
1) 最大池化特征:
池化特征的概念来自人们可以用图像一个区域上的某个特征的平均值(或最大值)代表这个区域的特性.道路行人姿势变化多样, 为了鲁棒度量RoI的对称性, 设计RoI的最大池化特征(包括符号及其含义), 如图 6所示.RoI最大池化特征fR算法如下.
步骤1 纵向五等分RoI, 从上至下取1/5, 2/5和2/5区域分别定义为当前RoI的头部和上、下躯干.
步骤2 按部位求取RoI的部件池化特征:
① 基于外接矩形水平对称轴划分当前部件为大小相等的矩形A和A′;
② 分别在A和A′内部各取3个随机子块, 子块的长、宽大于所属矩形长、宽的1/2但小于长、宽, 3个子块两两部分重叠但不完全重叠;
③ 计算各子块灰度均值;
④ 在A和A′内分别选取最大均值.
步骤3 按部件计算A和A′区域间最大灰度均值之差并取绝对值f(A, A′)作为RoI部位池化特征:
(15) |
式中:SAi和SA′i分别表示图 6所示子块的特征, 如直方图特征和局部均值特征;NAi和NA′i代表子块包含的像素数.
步骤4 从三部件池化特征中选取最大值作为RoI最大池化特征fR.
2) 空间灰度对称性过滤器:
根据RoI空间对称特性, 建立基于最大池化特征的RoI过滤器, 滤除与行人目标轮廓极其相似的组合干扰物.过滤器算法描述如下:
① 计算对称性判别指标mf*.在SCUT Dataset中选S0~S10作为基准数据集, 统计数据集中单行人目标最大池化特征, 进而观察不同单行人目标最大池化特征的分布区间, 并取95%置信度区间的上界截点作为判别指标mf*.
② 计算RoI的最大池化特征mf.
③ 逐个RoI计算mf-mf*.
当(mf-mf*)>0时, RoI不具备对称性, 滤除RoI.
3 实验为了评价本文的方法, 针对图像增强、RoI提取、RoI过滤等单个功能模块和新的RoI提取框架, 分别设计专门的实验验证方案.实验在Pentium IV 3.0 GHz台式计算机上执行.
3.1 实验方案基准方案的选取:所有工作针对实际应用展开, 选择双阈值分割RoI提取方法[3]作为基准方案并进行复现.设计4个验证方案:方案1, 验证膨胀最大值滤波器, RoI提取方案为“图像预处理模块+基准方案”;方案2, 验证RoI后处理模块, RoI提取方案为“基准方案+RoI后处理模块”, RoI后处理模块即时序灰度不变性过滤器和空间灰度对称性过滤器构成的级联过滤器;方案3, 验证新RoI提取模块, 即Haar-like增强双阈值分割方案;方案4, 验证RoI提取集成方法, 方案为“图像预处理模块+Haar-like增强双阈值分割+RoI后处理模块”.4个验证方案均与基准方案进行比较.
3.2 评价标准相比其他车载热成像行人检测公开数据集(如知名的KAIST Dataset)和基准方案的测试数据(自行采集的车载热成像数据), SCUT数据集[8]具有图像帧数和标注数量较大、标注类型和道路场景类型多样化等优势, 实验结果更具有说服力.以下实验选SCUT测试集S11~S20用于测试, 测试集相关信息如表 1所示.行人标签的具体释义参考Xu等对SCUT数据集的详细阐述[9].
评价指标:统计测试视频标注的行人数量、虚警数量和总帧数, 计算系统召回率(Recall)和每帧虚警数(false positive per frame, FPPF), 用曲线直观地表现评价结果.在25帧/s的视频中出现1 s及以上的行人目标认作有效行人, 因此, 每隔25帧计算一次评价指标;而且仅当检测框与标注框至少重叠0.5时, 才认为检出行人RoI.
3.3 结果分析基准方案和4个验证方案的实验测试结果如图 7所示, 可以看出:FPPF相同的条件下, 方案1与方案3召回率相当, 但都显著高于基准方案的召回率, 验证了预处理和Haar-like改进双阈值分割(基准方法)的有效性;在相同召回率条件下, 本文所提的4个方案的FPPF明显低于基准方案, 验证了虚警过滤功能的有效性.
重要实验结果见表 2, 当FPPF为50时, 基准方案召回率为74%, 方案1召回率为89%, 方案2为77%, 方案3为88%, 方案4为91%.当FPPF为40时, 基准方案召回率为59%, 方案1为69%, 方案2为71%, 方案3为68%, 方案4为88%.当FPPF为50时, 方案4(RoI提取集成方案)召回率达91%, 较基准方案提高23%;当FPPF为40时, 方案4召回率达88%, 较基准方案提高49%, 方案4召回率显著高于基准方案.
为了证明本文方法的实用性, 进一步比较方案4和基准方案的帧计算开销, 如表 3所示.取576×720的热成像灰度图像, 提取远、中和近三种尺度行人的RoI, 基准方案总耗时90 ms, 处理帧率为11帧/s;而方案4, 膨胀最大值滤波预处理模块耗时8 ms, Haar-like增强双阈值分割耗时35 ms, 级联过滤模块耗时8 ms, 总耗时51 ms, 处理帧率约18帧/s.方案4计算效率显著高于基准方案.
本文针对车载热成像行人检测的RoI提取方法, 提出了新的RoI提取框架.通过实验证明了新方法的有效性, 并对计算开销进行比较, 证明了新方法的实用性.但是基于时序信息的RoI过滤方法易受车速影响, 空间灰度对称性过滤器也可能存在片面性.车载行人检测系统出现虚警极易对驾驶员造成干扰, 过多虚警将影响系统的可用性;而实际道路场景复杂多变, 虚警模式很难预测, 如何提出更有效的方法防范虚警值得进一步探讨.
[1] |
Cheng M M, Zhang Z, Lin W Y, et al. BING:binarized normed gradients for objectness estimation at 300fps[J]. Computational Visual Media, 2019, 5(1): 4-21. |
[2] |
Ge J, Luo Y, Tei G. Real-time pedestrian detection and tracking at nighttime for driver-assistance systems[J]. IEEE Transactions on Intelligent Transportation Systems, 2009, 10(2): 283-298. |
[3] |
Liu Q, Zhuang J J, Ma J. Robust and fast pedestrian detection method for far-infrared automotive driving assistance systems[J]. Infrared Physics & Technology, 2013, 60: 288-299. |
[4] |
石祥滨, 刘晓娜, 刘芳. 一种双阈值红外行人分割方法[J]. 计算机工程, 2012, 38(12): 5-8. (Shi Xiang-bin, Liu Xiao-na, Liu Fang. Dual-threshold segmentation method for infrared pedestrian[J]. Computer Engineering, 2012, 38(12): 5-8. DOI:10.3969/j.issn.1000-3428.2012.12.002) |
[5] |
Kim D S, Lee K H. Segment-based region of interest generation for pedestrian detection in far-infrared images[J]. Infrared Physics & Technology, 2013, 61: 120-128. |
[6] |
Chen L C, Papandreou G, Schroff F, et al.Rethinking atrous convolution for semantic image segmentation[J/OL].[2019-06-25].https://arxiv.org/pdf/1706.05587.pdf.
|
[7] |
Yu F, Koltun V, Funkhouser T.Dilated residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, 2017: 472-480.
|
[8] |
Vision Lab of SCUT.SCUT FIR Pedestrian Dataset[EB/OL].[2019-07-05].http://www2.scut.edu.cn/cv/scut_fir_pedestrian_dataset/main.psp.
|
[9] |
Xu Z W, Zhuang J J, Liu Q, et al. Benchmarking a large-scale FIR dataset for on-road pedestrian detection[J]. Infrared Physical & Technology, 2019, 96: 199-208. |