图像区域几何标记是将图像中各个区域标记为不同几何类别的过程, 天空(sky)、立体物(vertical)以及地面(support)是三类常见的几何类别.图像区域几何标记结果常被应用在自动驾驶系统中道路、自由驾驶空间检测等领域[1-2], 从而得到广泛的研究.
近年来许多研究者对图像区域几何标记进行了深入的探究.Hoiem等通过提取图像中多种特征信息作为推理线索, 对图像区域的几何标签进行推理标记[3].Gould等则通过在图像的外观和结构上建立统一的能量函数, 并通过最大化该能量函数获得图像区域的几何标签[4].Alvarez等则利用卷积神经网络学习图像特征信息, 并与所提出的基于颜色平面融合的纹理特征相融合进行道路区域的推理[5].Lazebnik等建立了一种非参数化的方法来进行区域几何标记[6], 他们随后结合马尔科夫随机场(Markov random field, MRF), 利用图像整体和区域匹配的方法进行了类似的工作[7].
自然场景通常具有较高的复杂性, 上述方法在标记几何类别时, 没有考虑场景中各类别之间的上下文联系以及立体物的深度信息, 导致上述方法对图像区域几何类别的标记准确性不高.为此, 本文提出了一种新型的网络结构——多尺度核卷积网络(multi-scale kernel convolutional network, MSKCN), 解决立体物深度信息不同带来的影响.针对图像区域几何标记问题设计了一个整体可训练框架, 用于针对性地学习特征表达和分类, 并结合图像超像素分割结果获取超像素区域的几何类别标记.进一步地, 利用本文提出的MSKCN网络作为特征提取器所获取的特征, 与文献[3]中所使用的超像素区域传统特征相结合, 建立超像素图像的条件随机场模型[8],推断超像素区域的几何类别.最后, 通过实验验证了所提特征以及模型对图像区域几何标记的有效性.
1 多尺度核卷积网络 1.1 多尺度特征信息提取卷积神经网络具有较强的特征学习和表达能力, 近年来在计算机视觉、语音识别、自然语言处理等多个领域都取得了很好的效果[9].由于物体深度不同, 导致在图像中呈现出“近大远小”的特点, 其所具有的特征也可能出现在不同的尺度下.这要求在提取目标物的特征时, 需要在不同尺度下对图像进行处理, 从而获得不同尺度下的特征信息.
对目标物的多尺度特征提取通常有两种方法:
第一种方法对目标物图像进行缩放, 通过使用同种尺寸的卷积窗口对不同尺寸的图像进行卷积, 获得相应尺度下的特征信息.若目标物图像为I, 卷积核为K, 则目标物在尺度s下的特征Fs为
(1) |
其中,Is为目标物图像根据尺度s缩放后的图像.
第二种方法不改变目标物图像, 但使用不同尺寸的卷积窗口对图像进行卷积, 获得不同尺度下的特征信息.这时, 目标物在尺度s下的特征Fs为
(2) |
其中,K s为根据尺度s缩放后的卷积核.
在传统卷积神经网络中, 由于其特征提取并不改变目标物图像的尺度, 所以属于第二种方法.其位于同一卷积层上的卷积核尺寸是相同的, 对于不同尺度特征信息的提取是通过多层卷积和降采样完成的.令位于第n层的特征在原图像上所对应的尺度是sn, 则位于第n+1层的特征在原图像上所对应的尺度sn+1为
(3) |
其中:kn和kn+1分别为第n和n+1层的卷积-降采样窗口尺寸;di为第i层的卷积-降采样步长, i=1, 2, …, n.
可以看出, 传统卷积神经网络是在网络的不同深度上提取不同尺度的特征信息.按照常规的前馈方法, 小尺度信息是无法直接被利用的.文献[7]通过将各中间层获得的特征图传递到全连接层从而获得多尺度特征表达.但这样做会使得各个尺度的特征信息维数不均, 并且造成全连接层的参数量大幅上升, 大大增加网络训练难度和对样本的需求量.基于以上原因, 需要设计一种新型的网络结构使得在参数量没有大幅增加的前提下, 将多尺度的特征信息直接应用到全连接层, 从而使得依据多尺度线索对实际问题进行推理成为可能.
1.2 多尺度核卷积网络为了提取目标物多尺度下的特征信息, 并且不引入过多的参数, 本文提出一种新型的网络结构——多尺度核卷积网络.此种网络的结构如图 1所示.
此种网络结构具有如下特点:
1) 网络的同一卷积层内包含有多种尺寸的卷积核.这样的卷积层可以在同一层网络中提取不同尺度的特征信息.这相当于直接应用了1.1节中提到的第二种提取多尺度特征信息的方法.
2) 由于网络可以同时提取多尺度特征信息, 所以不再需要Ns层网络去提取Ns种尺度的特征信息, 降低网络的深度.
3) 由于多尺度特征信息直接传入全连接层, 所以全连接层的参数量不会大幅提升, 保证了训练过程的可行性.
若l-1层网络的输出特征图组为Fl-1, 位于卷积层l的卷积核Kil对输入特征图组的作用为
(4) |
式中:bil为卷积核Kil相对应的偏置项;fl(·)为l层网络的激活函数.若卷积层l共包含Nl个卷积核, 则输入特征图经过该层后获得的特征图组为
(5) |
这里, 卷积核Kil为三维卷积核, 且对输入的特征图组中的每一张特征图均进行卷积操作:
(6) |
其中, Kitl(t=1, 2, …, Nl-1)为卷积核的第t层的二维卷积核.位于卷积层l的三维卷积核的层数与l-1层网络的特征图张数Nl-1相等.
设第n层有p张特征图, 第n层特征在原图像上所对应的尺度为Sn=[S1n, S2n, …, Spn], 则第n+1层特征在原图像上所对应的尺度为Sn+1, 设这一层有q个卷积核, 卷积核尺度为kn+1=[k1n+1, k2n+1, …, kqn+1], 步长为dn+1, 则Sn+1可以表示为
(7) |
其中,j=1, 2, …, q.
将上面对于MSKCN的特征尺度分析结果与传统卷积神经网络的特征尺度进行对比, 可以看出, MSKCN在其卷积层的每一层均可以同时提取出多个尺度的特征信息.对于多尺度特征信息的提取, 其所需网络深度更小, 参数量更小, 训练过程也更简单.与文献[10]相比, 本文所提网络结构的全连接层需要的神经元个数更少, 更容易避免过拟合.
2 基于多特征融合的图像区域几何标记 2.1 基于MSKCN的图像区域几何标记为了对每个像素点都能给出相应的多尺度特征信息, 本文不对原图像进行任何缩放, 直接使用原图像进行处理.同时, 为了保持原图像中各个像素点邻域的特征信息, 网络不使用降采样层, 从而不降低图像的分辨率.本文使用图 1中的两层卷积层构成的网络作为特征提取器, 两层的卷积核个数分别为8和15, 则由第二个卷积层输出的像素点i的多尺度特征向量fi_ms为15维.记全连接层输入像素点i的特征向量为fi_fc = [fi_ms, fi_y], 其中fi_y为相应像素在图像中垂直方向(y轴)的归一化位置信息,fi_y=Yi/h, Yi为像素点i的垂直方向坐标, h为输入图像的高度.然后, 通过全连接层进行分类推理, 给出每个像素点i属于三类几何类别的概率, 记为pij{ j =1, 2, 3}, 分别对应属于天空、立体物和地面的概率.
为了获取图像区域的几何标记, 本文利用文献[3]提供的超像素分割结果, 统计各个超像素区域内所有像素点属于3个几何类别的概率均值, 记超像素区域s的几何类别概率均值为μs=[μs1, μs2, μs3], 其中μsj表示超像素区域s中所有像素点属于第j{j=1, 2, 3}类几何类别的概率值的均值, 计算公式如下:
(8) |
其中, M为超像素区域s包含的像素点个数.
根据式(8) 计算μs的表达, 本文将其中最大值μsj的下标索引对应的几何类别作为超像素区域s的几何类别标记.
2.2 基于多特征融合的图像区域几何标记模型为利用图像上下文信息提高图像区域几何标记的准确度, 受文献[11]利用条件随机场模型对卷积神经网络输出标记概率进行平滑思想的启发, 本文提出将MSKCN与CRF相结合的图像区域几何标记模型, 如图 2所示.
首先, 为文献[3]提供的超像素分割所得的超像素区域s建立特征表达式:fs={ftra, fs_ms}, 其中ftra表示文献[3]中所用的传统特征, fs_ms={μms, σms}为对MSKCN网络中2.1节所描述的特征提取器所提特征处理所得的超像素区域的特征信息, μms和σms分别表示超像素区域s中所有像素点由2.1节中特征提取器获取的15维特征向量fi_ms在每个维度上的均值和标准差, 计算公式如下:
(9) |
(10) |
本文利用文献[3]提供的超像素分割结果生成超像素图像, 并结合上述建立的超像素特征表达, 对超像素图像建立条件随机场模型, 从而推断超像素区域的几何标签.本文建立的条件随机场模型中一元和二元势函数分别为
(11) |
式中:α和β分别为一元势函数、二元势函数中的权重系数矩阵;xi=[fs_ms , 1]T表示第i个超像素区域的观测向量;xi, j表示相邻两超像素区域间的二元差异性表达向量;yi表示第i个超像素区域的类别标号;xi, j计算公式为
(12) |
其中, |xi-xj|表示相邻两个超像素区域观测向量之间的距离, 本文采用卡方距离度量该值.
3 实验结果与分析 3.1 实验设置及数据集为进行图像区域的几何标记, 并与领域内现有方法进行对比, 本文使用GC公开数据集[3]进行实验.该数据集包括300张来自不同自然场景的图像, 本文按照文献[3]的实验数据集划分方式进行5次交叉验证实验.
3.2 实验结果与分析为证明本文所提出的Hoiem[3]特征+MSKCN+CRF模型(2.2节所描述的模型)在图像区域几何标记问题上的有效性, 本文与现有的方法Hoiem[3]、Gould[4]和Lazebnik[6]进行对比.为使对比实验公平, 所有对比方法均使用GC数据集进行实验, 5次交叉验证实验结果平均值如表 1所示.
从表 1的实验结果中可以看出, 使用本文所提MSKCN获取的特征结合传统特征[3]作为推断线索, 为超像素图像建立CRF模型实现图像区域几何类别的标记, 较已有方法提高了标记准确率, 说明本文模型对图像区域几何标记的有效性.同时, Hoiem[3]特征+CRF算法与MSKCN+CRF算法的实验结果对比, 说明由本文提出的基于MSKCN的特征提取器所提取的多尺度特征, 对图像区域几何标记具有有效性.
本文提出的Hoiem[3]特征+MSKCN+CRF模型以及文献[3]算法的混淆矩阵如图 3所示.从图 3中可以看出, 本文所提出的模型与文献[3]相比提高了图像区域几何标记中各类别的识别准确率, 降低了误识别率, 本文模型在GC数据集上的效果示例如图 4所示.
本文所提出的多尺度核卷积网络结构简单, 计算性能较高.对于一张640×480的输入图像, 使用未优化的MATLAB代码在配备Intel Core2 Duo E7500 CPU和2 GB RAM的PC平台上单核运行大约需要1.2 s, 结合条件随机场模型对图像区域进行几何标记所需时间大约为10 s, 而Hoiem等[3]在相应尺寸图像上运行时间则为11.5 s.同时, 所提出的网络结构易于进行并行处理或分布式处理, 计算性能的加速空间很大, 根据参考文献[12]的经验, 加速比可高达10倍以上.
4 结论本文提出一种基于多特征融合的图像区域几何标记方法.该方法利用提出的多尺度核卷积网络提取像素多尺度特征信息, 推断像素点几何类别, 并结合超像素分割获得图像超像素区域的几何标记.随后, 通过结合传统特征, 建立超像素区域的特征表达, 并为超像素图像建立条件随机场模型, 结合图像上下文信息对超像素区域的几何类别进行推断.在公共数据集上的实验结果表明了本文方法的有效性.
[1] | Alvarez J M, Gevers T, Lopez A M.3D scene priors for road detection[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR).San Francisco, 2010:57-64. |
[2] | Alvarez J M, Lopez A M, Gevers T. Combining priors, appearance, and context for road detection[J].IEEE Transaction Intelligent Transportation Systems, 2014, 15(3): 1168–1178. DOI:10.1109/TITS.2013.2295427 |
[3] | Hoiem D, Efros A A, Hebert M. Recovering surface layout from an image[J].International Journal of Computer Vision, 2007, 75(1): 151–172. DOI:10.1007/s11263-006-0031-y |
[4] | Gould S, Fulton R, Koller D.Decomposing a scene into geometric and semantically consistent regions [C]// Intelligent Conference on Computer Vision.Kyoto:IEEE, 2009:1-8. |
[5] | Alvarez J, Gevers T, Lopez A. Road scene segmentation from a single image[J].Lecture Notes in Computer Science, 2012, 75(1): 376–389. |
[6] | Lazebnik S, Raginsky M.An empirical Bayes approach to contextual region classification [C]// Computer Vision and Pattern Recognition.Miami:IEEE, 2009:2380-2387. |
[7] | Tighe J, Lazebnik S.SuperParsing:scalable nonparametric image parsing with superpixels [C]// European Conference on Computer Vision.Crete:IEEE, 2010:352-365. |
[8] | Lafferty J, McCallum A, Pereira F.Conditional random fields:probabilistic models for segmentation and labeling sequence data [C]// Proceedings International Conference on Machine Learning.San Francisco, 2001:282-289. |
[9] | Lecun Y, Bengio Y, Hinton G. Deep learning[J].Nature, 2015, 521(7553): 436–444. DOI:10.1038/nature14539 |
[10] | Sermanet P, LeCun Y.Traffic sign recognition with multi-scale convolutional networks [C]// International Joint Conference on Neural Networks.San Jose:IEEE, 2011:2809-2813. |
[11] | Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J].IEEE Transaction Pattern Analysis and Machine Intelligence, 2013, 35(8): 1919–1929. |
[12] | Krizhevsky A, Sutskever I, Hinton G.ImageNet classification with deep convolutional neural networks [C]// International Conference on Neural Information Processing Systems.South Lake Tahoe:IEEE, 2012:1106-1114. |