人类的视觉系统具有主动选择机制, 可减少接收到的视觉信息数量, 具有忽略大量不感兴趣信息的能力, 常把这种能力称为视觉注意力机制[1].对于一幅图像, 人眼可以很快关注到图片中感兴趣的部分, 把图像中这些能引起人们关注和能够体现图像信息的关键部分称为显著性区域.将人类视觉注意机制引入到机器视觉领域, 就可以建立一种显著性区域提取算法[2].
显著性区域提取算法分为三类:基于特征的对比(局部或全局), 基于频谱的分析及二者的混合[3].基于局部对比的显著区域检测算法通过计算每个图像子区域或像素同其周围一个小的局部领域的对比度, 度量该图像子区域或像素的显著性, 代表性算法为Itti等[4]提出的IT算法.基于全局对比的显著性检测方法的主要思想是利用整个图像的平均像素强度值来对比图像的像素, 代表性算法为Cheng等[5-6]提出的基于区域对比的RC算法.基于频谱域的显著性检测方法的主要思想是强调图像中频谱域中的不同频率, 在基于频域分析的显著性检测算法中最具代表性的是SR模型[3].混合显著性检测方法考虑多尺度、颜色、亮度、频率、图像对比等, 代表性算法为Jiang等[7]提出的判别式多尺度局部显著性检测算法.
现有的显著性提取算法大多是面向单目标图像, 无法对多目标图像进行检测, 没有对图像中存在多目标时的底层特征进行分析, 有较大的局限性.具体问题:只能识别众多目标中的一个; 把多个目标识别成一个; 只能识别目标区域的一部分.针对上述问题, 本文结合对象估计和超像素分割, 提出了一种多目标显著性区域的提取算法.
1 方法本文提出多目标显著性区域提取算法, 核心思想是利用对象估计方法对原始图像作一个初步处理, 确定图像中各个目标区域的初步范围, 从而将多目标显著性区域的提取转化为多个单目标显著性区域的提取.但是, 对象估计方法往往只能得到目标区域的一部分, 因此, 本文采用超像素分割方法来弥补缺失的目标区域, 再在各个弥补后的目标区域中计算显著性图, 最后将各个目标区域拼接回原图中, 从而实现多目标显著性区域提取.算法流程图如图 1所示.
Alexe等[8]提出对象的特征:①具有一个边界, 且该边界可以将对象完整包围; ②与背景相比, 对象在某些特征上体现了差异性, 如像素值、纹理、梯度等.按照这一定义, 对象估计算法会在一幅图像上生成一系列候选窗口, 并给各个窗口赋予一个权值, 该权值表示窗口中包含物体的可能性, 权值越大, 可能性越大.应用该方法, 可排除背景区域, 并按照权值的大小得到一系列可能包含对象的窗口.对象估计算法应做到以下4点[9]:①实现高目标检测率; ②产生少量候选窗口以减少后续探测器的计算时间; ③拥有较高的计算效率可应用于各种应用; ④对不可见对象类别具有较好的推广能力.
Cheng等[9]发现在固定尺寸的窗口下, 目标与背景的梯度特征有所不同, 这是因为图像中背景区域往往呈现出同质化的特性, 而目标则不会.基于以上分析, 本文选择基于二值归一化梯度(binarized normed gradients, BING)的方法来实现对象估计[9-10], 具体步骤如下.
1) 在原图上设置若干窗口, 这些窗口是随机摆放的, 且互相可以重叠;
2) 将原图作多尺度变换, 并计算各个尺度下的梯度;
3) 将各个尺度下窗口的尺寸归一化为固定尺寸8×8, 用模板[1,0,1]在窗口的水平和垂直方向计算各个像素的梯度gx和gy:
(1) |
(2) |
式中, I(i, j)表示坐标(i, j)处的像素值.
4) 计算8×8窗口中各个像素点的NG特征:
(3) |
5) 使用一个8×8的分类矩阵, 该矩阵是通过对大量含有多目标显著性区域的图片训练得到的[9-10].
(4) |
式中, w和g都是64维向量, 二者作内积得到s.s值越大表示窗口包括的范围是目标的可能性越大.
1.2 计算显著性图通过1.1节的对象估计, 可以得到包含目标区域的若干窗口.在各个窗口中计算显著性图, 具体方法如下[5-6]:首先通过分水岭方法将窗口中的图像分成若干区域, 然后对每个区域rk(k=0, 1, 2, …)计算其与其他区域ri (i≠k)的颜色对比度值:
(5) |
式中:w(rk)为区域rk的权值, 为该区域像素的个数占整个区域的权值(用于区分大区域与小区域); D(*, *)为2个区域的颜色距离度量:
(6) |
其中:n1, n2分别表示区域中的颜色总数; f(c1, i)和f(c2, j)分别表示指定区域中第i和第j种颜色出现的概率; D(c1, i, c2, j)表示不同区域之间的颜色距离.除了区域颜色距离, 再引入区域空间距离, 将其定义为两个区域中心点之间的欧氏距离.
在定义单个区域的显著性值时, 综合考虑了区域颜色距离和区域空间距离:
(7) |
式中:Ds(rk, ri)为区域rk, ri的空间距离; σs为控制权值强度, 越大则影响越小.该区域中所有像素的显著性值都是S(rk).
1.3 超像素分割在面向多目标显著性区域提取的时候, 对象估计方法建立的窗口尺寸往往太小, 无法将图像中的待测目标完全包含, 导致显著性目标的识别不完整, 如图 2所示.本文利用超像素分割方法来解决这一问题, 超像素分割就是将图像细分为多个超像素(图像子区域), 这些超像素能够保留后续进行进一步图像处理的有效信息, 并且不会破坏图像中物体的边界信息, 因此可以解决本文因对象估计方法而导致的显著性目标的识别不完整问题.常见的超像素分割方法有:simple linear iterative cluster(SLIC), 图论法, 分水岭法, meanshift等.本文在进行超像素分割时更注重图像的边缘检测效果和后期的合并[11], 因此选择了meanshift.
经过meanshift超像素分割后, 原图像被划分为含有相似特征的像素块, 每个像素块都有以下特性:不会跨越目标的边缘, 要么完全在目标内部, 要么完全属于背景[12].因此, 每个像素块应具有相同的显著性值.
对象估计方法可以标记出目标和背景, 但存在目标区域缺失的问题.在进行对象估计时, 属于目标的像素块经常被窗口切割开, 这使得窗口内部的部分被检测为目标, 而窗口外部的部分被错认为是背景.各个像素块和对象估计所得到的窗口之间的相互位置关系有3种:①像素块完全位于窗口之内; ②像素块完全位于窗口之外; ③像素块一部分位于窗口之内, 一部分位于窗口之外.第三种情况正是需要弥补缺失的目标区域.为此, 本文提出一种非线性插值方法:
1) 首先对超像素分割得到的所有像素块进行编号.
2) 计算每一个像素块的平均显著性值:
(8) |
式中:N表示像素块中的像素总数; k表示各个像素的显著性值.像素若位于窗口外部则其显著性值为0, 若位于窗口内部则其显著性值通过式(7)计算得到.
3) 对Ia进行非线性增益:
(9) |
4) 将整个像素块中每个像素的显著性值都赋值为I, 可有效弥补对象估计所缺失的目标区域.
5) 对图像拼接后的结果作二值化处理, 可得到多目标显著性区域提取结果.
2 实验将本文算法与3种国际上较常见的显著性区域提取算法作比较, 这3种算法分别为HC算法[5-6]、RC算法[6]和DRFI算法[7].比较过程分为定性对比和定量对比.
2.1 实验环境1) 硬件环境.CPU:Intel(R) Core(TM) i3-3110M CPU@ 2.4GHz; 内存:6GB.
2) 软件环境.操作系统:Windows 7旗舰版, 64位; 编译器:Microsoft Visual Studio 2013, OpenCV2.4.13.
3) 数据集.PASCAL VOC 2007[13].
2.2 定性对比将本文算法、HC算法、RC算法、DRFI算法的显著性区域检测结果通过人眼观察进行定性对比, 对比过程中选择了3类图像:普通的多目标图像、背景复杂的多目标图像及多个目标间颜色差异较大的图像.
1) 普通的多目标图像.4种算法的显著性区域检测结果如图 3所示, HC算法表现较差, RC算法与DRFI基本能够正确检测全部目标, 正确区分背景和目标, 但RC算法依然还是存在较多的背景区域被错误地检测到, DRFI算法表现相对较好.而本文提出的算法基本没有错误地提取到背景区域, 而且目标区域也赋予了较大的显著值, 具有更多显著值为255的像素, 因此相对检测效果更好.
2) 背景复杂的多目标图像.4种算法的显著性区域检测结果如图 4所示, HC算法检测到的只是零散的亮点, 没有一致高亮的区域; RC算法表现也较差, 几乎完全错误地划分了目标和背景区域; DRFI算法尽管能大致检测出目标区域, 但检测结果只能突出一小部分目标区域, 较多的背景区域被检测到, 因此效果较差; 本文方法在背景复杂的多目标图像中, 虽然不能完全正确分割出完整的物体轮廓, 但清晰地提取出了目标区域, 只有很少的背景区域被提取到, 相对于其他3种方法具有明显优势.
3) 多个目标间颜色差异较大的图像.4种算法的显著性区域检测结果如图 5所示, HC算法表现较差, 无法正确区分目标和背景; RC算法受到目标间颜色差异的影响, 只能检测到多目标中的1个目标, 并且对于目标内部颜色特征变化较大的目标, 检测效果尤其不佳, 例如人脸和衣服; DRFI算法也受到目标间颜色差异的影响, 无法给出多个目标相似的显著性值, 同时也存在无法检测到所有目标; 本文算法能正确检测到所有目标, 且能给各个目标区域赋予相似的显著性值, 偶尔存在检测区域不完整的问题.
综上, 针对多目标显著性区域提取, 本文算法比HC算法、RC算法、DRFI算法提取到的显著图更好, 尤其是在面向背景复杂的多目标图像及多个目标间颜色差异较大图像的时候, HC, RC, DRFI 3种算法都难以正确提取显著性区域, 而本文算法可以得到很好的结果.
2.3 定量对比定性的评估算法具有较大的局限性, 因人为的观察角度和思维方式都有很大区别.本文对HC算法、RC算法、DRFI算法及本文算法的多目标显著性区域提取结果作了定量对比.
定量对比中, 选择的指标为准确率和召回率, 并且以VOC2007数据集中手工标注的结果作为金标准:
(10) |
式中:A表示算法检测结果和手工标注结果都认定为目标的像素集; B表示算法检测结果认定为目标但手工标注结果认定为背景的像素集; C表示算法检测结果认定为背景但手工标注结果认定为目标的像素集.
根据式(10)可得到各个算法的准确率-召回率曲线, 如图 6所示.通过4种算法的定量对比, 可以看出在面向多目标显著性区域提取的时候, 本文算法要优于其他3种算法.
本文结合对象估计方法和超像素分割方法, 提出了面向多目标的显著性区域提取算法, 该方法解决了其他算法无法从图像中提取多个显著性目标的问题.定性、定量对比实验表明:当图像中存在多个显著性目标时, 本文算法可准确提取到多个显著性区域, 且提取结果要优于HC算法、RC算法及DRFI算法.
[1] |
Liang Y, Yu J, Lang C Y, et al.
Research on salient region extraction technology[J]. Computer Science, 2016(3): 27–32.
|
[2] |
陈美奂.基于底层特征与高层先验的显著性区域检测算法[D].秦皇岛: 燕山大学, 2015: 1-61.
( Chen Mei-huan.Salient region detection based on low-level features and high-prior[D]. Qinhuangdao: Yanshan University, 2015: 1-61. http://cdmd.cnki.com.cn/Article/CDMD-10216-1016710415.htm ) |
[3] |
Jing H Y, Han Q, Niu X M.
Survey of salient region detection algorithms[J]. Intelligent Computer and Applications, 2014(1): 38–39, 44.
|
[4] |
Itti L, Koch C.
Computational modeling of visual attention[J]. Nature Reviews Neuroscience, 2001, 2(3): 194–230.
DOI:10.1038/35058500 |
[5] |
Cheng M M, Zhang G X, Mitra N J, et al.Global contrast based salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs, 2011: 409-416.
|
[6] |
Cheng M M, Mitra N J, Huang X, et al.
Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569–582.
DOI:10.1109/TPAMI.2014.2345401 |
[7] |
Jiang H, Wang J, Yuan Z, et al.Salient object detection: a discriminative regional feature integration approach[C]// IEEE Conference on Computer Vision and Pattern Recognition.Portland, 2013: 2083-2090.
|
[8] |
Alexe B, Deselaers T, Ferrari V.What is an object[C]// IEEE Conference on Computer Vision and Pattern Recognition.San Franscisco, 2010: 73-80.
|
[9] |
Cheng M M, Zhang Z, Lin W Y, et al.BING: binarized normed gradients for objectness estimation at 300fps[C]// IEEE Conference on Computer Vision and Pattern Recognition.Columbus, 2014: 3286-3293.
|
[10] |
赵丹凤.基于通用对象估计的目标检测与模糊车牌识别算法研究[D].南京: 南京邮电大学, 2016: 1-84.
( Zhao Dan-feng.Research on object detection based on objectness measure and fuzzy license plate recognition[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2016: 1-84. http://cdmd.cnki.com.cn/Article/CDMD-10293-1016301636.htm ) |
[11] |
宋熙煜.基于超像素的图像分割技术研究[D].郑州: 中国人民解放军信息工程大学, 2015: 1-74.
( Song Xi-yu.Research on image segmentation methods based on superpixel[D]. Zhengzhou: The PLA Information Engineering University, 2015: 1-74. http://cdmd.cnki.com.cn/Article/CDMD-90005-1016058429.htm ) |
[12] |
Oh K, Lee M, Kim G, et al.
Detection of multiple salient objects through the integration of estimated foreground clues[J]. Image and Vision Computing, 2016, 54: 31–44.
DOI:10.1016/j.imavis.2016.07.007 |
[13] |
Li Y, Hou X, Koch C, et al.The secrets of salient object segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Columbus, 2014: 280-287.
|