Corresponding author: LEI Kai-ru, E-mail:leikairu@163.com
数字图像抠图技术是计算机视觉和图像处理中重点研究的热门课题,也是一个难点.数字图像抠图(matting)[1]所研究的是将一幅图像中的前景和背景信息分离开,把人们感兴趣的区域提取出来,以便更换背景或其他操作.
目前数字图像抠图技术虽然取得了一定的成功,但仍不能满足在图像处理实践中对于抠图结果精准性、灵活性的要求.Smith 与Blinn[2]在1996年首次提出了蓝屏抠图技术,该技术被广泛应用于动态影像拍摄及制作电视节目,但是该方法需要固定的背景颜色.由文献[3]中提出的式(11)的线性表达式可以看出,在RGB色彩空间中,求解α,F和B的过程实际上是1个方程求解3个未知数的过程.显而易见,由于不存在一个确定的解,该求解过程是一个病态的问题.因此,Ruzon与Tomasi[4]引入了α通道的概念,通过计算周围前景或背景像素颜色分布来估计α的值.但是该方法对于样本点分析较为粗略.Levin 等提出了Closed form[5]抠图方法,该算法通过对局部前景F和背景B平滑性假设求解抠图结果,但是存在漏算和误算的问题.
数字图像抠图也经常用到图像滤波器,如高斯滤波器、双边滤波器及导向滤波器等来完成,并且滤波器还具有边缘检测、特征提取[6]和去噪等功能,进一步辅助精确抠图.但是对于目标图像,大多数滤波器算法繁琐,并具有一定指向性,即根据不同的图像进行手动设定参数[7],降低了算法的灵活性.
针对以上问题,本文提出了一种充分利用图像隐藏信息进行模型学习的基于隐藏的支持向量机(latent support vector machine,LSVM)[3]的潜在半径优化策略抠图算法.该算法的基本思想是,利用已知的训练部件模型对感兴趣目标的边界进行矩形标注,从而来学习模型、精确半径值以达到自动产生合理参数,最终完成利用导向滤波器(guided filter)[8]进行图像精确抠图的目的.
1 基于目标图像的导向滤波算法为了通过求解显而易见的图像约束条件以得到精确输出图像抠图结果求解α通道图像的目的,本文采用导向滤波算法很好地解决了这个问题.导向滤波算法的关键思想是在导向目标图像、二值输入图像和输出抠图图像间建立很好的联系[9].其中,导向图像是一个具有明确指向性的目标图像,它可以是输入图像自身或者是另外一张不同的独立图像.二值图像是目标图像的Trimap模板图像[10].
基于目标图像的导向滤波算法就是建立在导向目标图像、二值输入图像和输出抠图图像之间的一个滤波器.系统示意图如图 1所示.
文献[8]对导向滤波器的参数计算进行了详尽的解释与说明.对于导向滤波器来说其关键的假设是这个导向滤波器在导向图像I和滤波输出q之间是一个局部线性模型.首先,从整体角度上看,假设导向图像为I,输入图像为p,输出图像为q,假设q是I内中心在像素点k的窗口wk的线性转换:
其中:半径r表示窗口;(ak,bk)是假定同wk相同的线性系数.由式(1)可知∇q=a∇I,即这个局部线性模型确定只要I有一个边缘,那么q就有一个边缘.
其次,为了寻求一个解决办法能够最小化q和p之间的差异,同时保持线性模型(1),最小化窗口wk的代价函数:
这里,λ是ak的正则化参数.整理线性山脊回归模型式(2)可以得到:
其中:uk和σ2k分别是导向图像I的滤波窗口wk的平均值和方差;|w|是wk中像素个数;pk=,是p在wk上的平均值.
然而,由于一个像素i与所有覆盖i的重叠窗口wk相关,所以当用不同的窗口计算时,方程qi的值是不同的,因此一个简单的策略是平均所有qi的可能值.于是式(1)进一步改写为
进一步整理式(5)可得
其中:
通过上述内容可以看出,基于导向滤波器的数字图像抠图算法针对同一目标图像的不同的部位来说,参数的设定是单一不变的,这就会导致抠图结果在准确性和智能性上稍显不足.因此若能针对同一物体的不同部位进行不同的参数设定,将大大提升抠图的精确性和灵活性,扩大应用范围.
2 基于LSVM的滤波算法参数设定由上述内容可知,导向滤波器的窗口半径r和平滑系数λ是基于图像导向滤波算法的主要参数,它们影响着图像抠图的输出效果和算法的执行速度.但是,对于一幅导向图像来说,滤波器对于图像所有边缘部分的窗口半径r和平滑系数λ是固定的.然而对于图像边缘,不同的部位实际边缘半径r是不同的,因此本文提出了隐藏的支持向量机 (LSVM )的思想.
第一步:训练样本模型.利用对PASCAL数据库中的模板信息进行精确训练来学习模型.这样,样本就由带标注边界矩形的感兴趣目标组成.选取所需训练样本集D定义如下:
第二步:对导向图像和二值图像进行分块.目标图像通过与训练样本集比对,就可以沿着目标边界将图像沿边缘分割成不同的部分,形成边界矩形大小不同的图像模块.
第三步:预判边缘半径r的大小.利用图像模块的不同,依照初步的设定边界矩形与边缘半径的比例,求解每个模块的边缘半径r.
第四步:滤波并利用LSVM判定第三步中求解的边缘半径r是否正确.其思想是
1)当滤波输出结果存在qi=0,则边缘半径r包含了完整前景信息;
2)当滤波输出结果不存在qi=0,则边缘半径r取值不当,需要调整r的值.然后再进行判断,直至满足1).
这个判断过程就利用了LSVM的思想.首先假设前景用(i+2)元数组(F0,p1,…,pi,c)定义含有i个子模板的目标模型.其中:F0表示导向滤波器;pi是第i个图像模块的模型;c是偏移量.
在图像特征金字塔中,假定模型中每个滤波器的位置为z=(p1,…,pi),其中pn=(xn,yn,sn)表示第n个滤波器在特征金字塔第sn层的位置,对应的响应是每个滤波器在各自位置上响应再加上偏移量c.
其中:H表示特征金字塔; φ(H,z)表示以行优先顺序并置H中以pi为左上角的wi×hi子窗的特征向量.
通过滤波结果式(6)可得出φ(H,z)等价公式为
其中:Ik是图像颜色;Fk是前景图像颜色;βk是背景图像颜色;αk是透明度,其区间为[0, 1],其中αk=0或者1称作绝对前景或者绝对背景,否则称k点为混合点.α介于0~1之间时像素颜色往往出现混合,通常出现在图像边缘、毛发等区域[11].
于是将式(7)简化,用模型参数向量γ和向量φ(H,z)的点积表示为γ·φ(H,z),
这样就可以考虑将模型与分类器结合进行学习得到模型参数,从而确定边缘半径r的取值.
图 2给出了本文针对导向图像滤波算法改进的基于潜在半径优化算法的总流程图.
在抠图问题中,将图像假设成为前景颜色与背景颜色依照图像内容表达出的线性组合,其表达式见式(8).
根据式(8)可以将式(6)转换成α通道的形式:
令,即可得出滤波输出的α值:
数字图像抠图技术的关键就是求解α的值,导向滤波器可以很好地解决α的计算.
图 3显示了4类图像分别采用基于LSVM算法的抠图算法与手动设定参数的抠图算法对比实验结果如下:
1) 图 3a是输入的尺寸为647×800的导向目标图像;
2) 图 3b是输入二值图像,即对前景图像与背景图像进行首次粗分割的结果;
3) 图 3c是运用导向滤波器算法,并将图 3a与图 3b作为输入图像得到的抠图结果;
4) 图 3d采用了本文所提出的利用LSVM自动设定参数的基于潜在半径优化策略数字抠图算法.该方法同样采用图 3a和图 3b作为输入图像.
通过以上结果对比可以看出,与基于手动划分参数的方法相比,本文提出的利用LSVM自动设定参数的基于潜在半径优化策略数字抠图算法能够使输出图像的细节部分更加丰富,甚至相对于手动划分,在某些局部的处理与跟踪效果更加生动、明显.同时本文提出的方法省去了原始算法中设定参数的步骤,增强了算法的灵活性和智能性.
本实验同时也将本文提出的抠图算法同几种经典的抠图算法进行了比对,如图 4所示.图 4显示了4类图像,分别采用以下5种抠图算法得到的α进行评价与合并.这里选取2幅原始图像,以及通过5种算法得到的5幅α结果图像α(1),α(2),…,α(5).这5种抠图算法分别为① Spectral matting算法;②Closed-form算法;③ Learning based算法;④KNN算法;⑤ Optimization of Guided Filter Radius算法.每幅图像通过以上算法计算得到一幅该算法下的α结果图.在这里统一采用Trimap 对未知区域进行确定,然后运行抠图算法.对比以上5种抠图算法的实验结果不难发现:Spectral Matting算法对于图像细节处理能力不足,主要是由于待处理图像的光照情况并不是自然光均匀照射直接导致前景与背景图像边界不明显,从而严重地影响了抠图效果;对于Closed-form[4]算法,其效果已经明显优于之前的算法,但是其缺点在于对闭合区域的处理中,若前景与背景存在多个层次的变化,则不能有效实施抠图操作;Learning Based算法与KNN算法相较前两者,抠图效果明显提高,但是对于前景、背景交界处颜色比较相近的图像来说,抠图效果真实度不够准确;相比较而言,由于利用LSVM的潜在半径优化算法进行抠图,能够很好地利用已知PASCAL数据库中图像的特征,从而很好地对未知待抠图区域的系数进行预判.这种算法对于前景背景的层次多变、光照影响、边界颜色相近等问题的影响也能够很好地改进,更接近抠图效果的真实值.
本文提出了一种基于潜在半径优化策略的数字图像抠图技术.该算法改进了滤波器抠图的系数单一的缺点,能够确定抠图时不同目标图像边缘未知区域的不同系数,提升了算法的智能性和灵活性.结果表明:该方法在优化图像抠图技术的α通道值方面效果明显.
[1] | He K,Sun J,Tang X.Guided image filtering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(6):1397-1409.(2) |
[2] | Smith A R,Blinn J F.Blue screen matting[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques.New York:ACM,1996:259-268.(1) |
[3] | Yu C,Joachims T.Learning structural SVMs with latent variables [C]// Proceedings of 26th International Conference on Machine Learing.Montreal,2009:1169-1176.(2) |
[4] | Ruzon M A,Tomasi C.Alpha estimation in natural images[C]//Computer Vision and Pattern Recognition.New York:IEEE Computer Society,2000:18-25.(2) |
[5] | Levin A,Lischinski D,Weiss Y.A closed-form solution to natural image matting[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(2):228-242.(1) |
[6] | Heilbronner R,Barrett S.Image analysis in earth sciences[M].Berlin:Springer,2014:31-57.(1) |
[7] | Lin S Y,Pan R F,Du H,et al.A survey digital matting[J].Journal of Computer Design & Computer Graphic′s, 2007,19(4):473-479.(1) |
[8] | He S J,Tang X .Guided image filtering[M].Berlin:Computer Vision -ECCV,2010.(2) |
[9] | Li Y,Sun J,Shum H.Video object cut and paste[J].ACM Transactions on Graphics,2005,24(3):595-600.(1) |
[10] | 林生佑,潘瑞芳,杜辉,等.数字抠图技术综述[J].计算机辅助设计与图形学报,2007,19 (4):473-479.(Lin Sheng-you,Pan Rui-fang,Du Hui,et al.A survey on digital matting[J].Journal of Computer-aided Design & Computer Graphics,2007,19(4):473-479.)(1) |
[11] | Levin A,Lischinski D,Weirs Y.A closed form solution to natural image matting[C]//Computer Vision and Pattern Recognition.New York:IEEE Computer Society,2006:61-68.(1) |