抠图光影魔术手

光影魔术手抠图时间:2021-02-22 阅读:()

第38卷第5期计算机应用研究Vol.
38No.
5录用定稿ApplicationResearchofComputersAcceptedPaper收稿日期:2020-06-01;修回日期:2020-07-09基金项目:广东省基础与应用基础研究基金资助项目(2019A1515111082);国家自然科学基金资助项目(61772233,61876207,61772225);中山市社会公益科技研究项目(2019B2010,2019B2011);电子科技大学中山学院高层次人才科研启动项目(419YKQN15,417YKQ12);中山市重大科技专项(2019A4018);广东省普通高校青年创新人才类项目(2019KQNCX186);广东省重点领域研发计划项目(2018B010109003);广东省自然科学基金项目(2018B030311046);广东省高校重点平台和科研项目(2018KZDXM066,2017KZDXM081);广州市科学技术局项目(201804010276,201802010007);广州市对外合作项目(201807010047);贵州省科技计划项目([2019]1164)作者简介:梁椅辉(1990-),男,籍贯广东中山人,讲师,博士,主要研究方向为图像抠图、图像处理;黄翰(1980-),男(通信作者),广东汕头人,教授,博导,博士,主要研究方向为计算智能、计算机视觉(hhan@scut.
edu.
cn);蔡昭权(1970-),男,广东陆丰人,教授,硕导,硕士,主要研究方向为计算智能、计算机网络;郝志峰(1968-),男,江苏苏州人,教授,博导,博士,主要研究方向为代数、机器学习;冯夫健(1986-),男,山东临清人,高级实验师,硕导,博士,主要研究方向为图像抠图、计算智能.
自然图像抠图技术综述*梁椅辉1,黄翰2,蔡昭权3,4,郝志峰5,冯夫健6,2(1.
电子科技大学中山学院计算机学院,广东中山528400;2.
华南理工大学软件学院,广州510006;3.
汕尾职业技术学院,广东汕尾516600;4.
惠州学院科研处,广东惠州516007;5.
佛山科学技术学院,广东佛山528225;6.
贵州民族大学数据科学与信息工程学院,贵阳550025)摘要:自然图像抠图是图像处理领域的一项基础研究.
其可在自然图像下实现高精度的前景提取,免去了传统色键抠图布设纯色背景的约束,在图像和视频合成、增强现实、目标跟踪、目标分类等任务上具有较高的应用价值.

近年来,随着大规模启发式优化技术以及深度学习技术的发展,自然图像抠图的研究工作迎来了新一轮的机遇与挑战.
着重对近几年自然图像抠图研究新进展进行综述,针对近年来基于启发式优化的抠图研究以及基于深度学习的抠图研究新成果对抠图研究工作进行重新分类和梳理,分析不同类型自然图像抠图研究主要的方法并整理其中的关键问题,介绍常用的自然图像抠图评价指标,最后通过实例分析总结了当前自然图像抠图研究面临的挑战,并对未来的研究前景进行了探讨.
关键词:抠图;自然图像抠图;前景提取;图像处理中图分类号:TP391.
9doi:10.
19734/j.
issn.
1001-3695.
2020.
06.
0111SurveyofnaturalimagemattingLiangYihui1,HuangHan2,CaiZhaoquan3,4,HaoZhifeng5,FengFujian6,2(1.
UniversityofElectronicScience&TechnologyofChina,ZhongshanInstitute,ZhongshanGuangdong528400,China;2.
SouthChinaUniversityofTechnology,GuangzhouGuangdong510006,China;3.
ShanweiPolytechnic,ShanweiGuangdong516600,China;4.
Dept.
ofResearch,HuizhouUniversity,HuizhouGuangdong516007,China;5.
FoshanUniversity,FoshanGuangdong528225,China;6.
GuizhouUniversityforNationalities,GuiyangGuiyang550025,China)Abstract:Naturalimagemattingisafundamentaltechnologyofimageprocessing.
Itcanaccuratelyextractforegroundobjectsfornaturalimages,eliminatingtheconstraintofsolidcolorbackgroundinconventionalchromakeying.
Naturalimagemattinghasbeenwidelyconcernedbyindustryandacademiaduetoitshighapplicationvalueincomputervisiontasks,suchasimageandvideocomposition,augmentedreality,targettracking,andtargetclassification.
Inrecentyears,naturalimagemattingfacesnewopportunitiesandchallengeswiththedevelopmentofdeeplearningandlarge-scaleheuristicoptimization.
Thisstudyreviewstherecentadvancesinnaturalimagemattingresearch,reclassifiestheresearchesaccordingtotheirprinciples,analyzesexistingalgorithmsfornaturalimagemattingandsortsouttheirkeyproblems,introducestheevaluationindicatorsofnaturalimagematting,summarizesthechallengesfacedbynaturalimagemattingthroughexampleanalysisanddiscussesthefutureresearch.
Keywords:imagematting;naturalimagematting;foregroundextraction;imageprocessing0引言图像抠图(imagematting)是一种致力于精确提取前景的图像处理技术.
该技术是数字图像、数字视频非线性编辑等数字合成技术的基础.
如图1所示,抠图技术可实现图像感兴趣前景的精确提取,提供图像合成所必需的透明度遮罩(alphamatte).
一旦给定了透明度遮罩,通过简单的线性运算就能将指定的前景合成到新的背景中.
透明度遮罩决定了合成图像中前景颜色与背景颜色所占的比例,其精度直接影响着合成图像质量的优劣.
因此,抠图是数字图像、视频合成中最为关键的环节.
传统的色键抠图已在影视传媒行业中得到了广泛的应用.
虽然色键抠图能获取高精度的透明度遮罩,但该技术将待处理图像的背景限制为预先指定的单一颜色,在实际应用中需要耗费大量的人力、物力搭建摄影棚以满足对背景的约束[1].
为了解决该问题,研究人员提出了自然图像抠图(naturalimagematting).
自然图像抠图没有指定图像背景的约束,可免去布设纯色幕布的步骤,使得自然图像抠图使抠图技术的应用不再局限在摄影棚内,实现在任意自然场景下的抠图.
色键抠图可以认为是自然图像抠图的一种特例;同时,由于自然图像抠图问题先验知识的减少,透明度遮罩估计难度增大.
因此,自然图像抠图的研究具有重要的理论意义.
自然录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期图像抠图技术克服了色键抠图布设纯色幕布的局限性,极大地扩大了抠图技术的应用范围.
因此,自然图像抠图的研究具有重要的现实意义.
图1图像合成示意图Fig.
1Schematicdiagramofimagecomposition目前,研究人员已经在包括图像融合[2,3]、自动前景提取[4,5]、医学影像处理[6,7]、目标跟踪[8,9]在内的中层视觉任务以及在包括目标分类[10]、虚拟现实[11]、增强现实[12]在内的高层视觉任务中进行了自然图像抠图的应用探索.
然而,自然图像抠图仍面临的抠图精度低(即透明度遮罩精度低)的问题,其原因在于自然图像抠图任务免去了传统色键抠图布设纯色背景的约束,先验知识的减少造成了抠图精度提升的困难.
近年来,研究学者针对自然图像抠图精度低的问题提出了切实可行的自然图像抠图方案.
依据透明度遮罩计算的原理,自然图像抠图算法可分为基于像素对优化的抠图算法、基于深度学习的抠图算法以及基于传播的抠图算法三大类(如图2所示).
图2自然图像抠图分类及本文重点讨论类别(加粗)Fig.
2Maincategoriesofnaturalimagemattingalgorithms基于像素对优化的抠图算法将抠图问题建模为像素对优化问题,为每一个未知像素计算最优的一对前景像素和背景像素.
根据像素对优化的方式可进一步分为基于采样的抠图算法[13~17]和基于启发式优化的抠图算法[18~22].
其中,基于采样的抠图算法具有求解速度快、适用场景广的特点.
吴昊等人[23]以及沈洋等人[24]已详细讨论了早期的基于采样的抠图算法,本文将补充讨论近五年的基于采样的抠图算法研究进展.
基于启发式优化的抠图算法是近三年提出的基于像素对优化抠图算法的一个新的研究方向,其在抠图精度上具有一定优势;但现有的文献未对这类算法进行综述,本文将重点讨论这类算法.
基于深度学习的抠图算法[25~32]是近三年提出的一类新型抠图算法.
现有的文献没有对基于深度学习的抠图算法进行深入的描述和分析,这类算法是本文讨论的另一个重点.
这类算法通过数据驱动的方式从大量的训练数据中学习整个抠图过程或关键步骤的表征信息,利用深度神经网络实现抠图透明度遮罩的估计.
基于传播的抠图算法[33~37]通过度量相邻像素的相似性将值从已知区域传播到未知区域.
姚桂林等人[38]已详述了2016年以前基于传播的自然图像抠图工作,本文主要补充讨论近5年的工作.
随着大规模启发式优化技术以及深度学习技术的发展,自然图像抠图的研究工作迎来了新一轮的机遇与挑战.
本文以近三年来涌现的基于深度学习的抠图技术以及基于启发式优化的抠图技术为讨论的重点.
针对近年来提出的自然图像抠图新方案对自然图像抠图算法进行重新分类说明和总结,分析并讨论各类抠图方法的关键问题.
整理自然图像抠图质量评价指标,廓清自然图像抠图的发展情况与趋势,展望发展方向,为未来的研究工作奠定基础.
本文主要围绕大规模启发式优化技术以及深度学习技术为自然图像抠图带来的机遇和挑战进行讨论.
第一节介绍自然图像抠图的数学模型.
第二节介绍基于像素对优化的抠图算法,重点介绍这类算法的新进展——基于启发式优化的抠图算法.
第三节介绍自然图像抠图的新型算法——基于深度学习的算法.
第四节概述基于传播的抠图算法,重点讨论最近五年提出的基于非局部准则的传播抠图算法.
第五节介绍自然图像抠图的评价方式.
第六节讨论了当前自然图像抠图研究面临的挑战与前景预测.
1自然图像抠图问题数学模型自然图像抠图把观测图像建模为前景与背景的凸组合(convexcombination)[39].
在该模型中,对于彩色图像中任意像素,其观测到的像素颜色是由前景颜色与背景颜色的凸组合而成:(1)其中表示像素处的前景颜色与背景颜色凸组合的权值,取[0,1]之间的任意实数.
其物理意义是像素所对应前景物体的不透明程度.
取0表示前景物体在像素处为完全透明的,即像素的颜色完全由背景的颜色决定;取1表示前景物体在像素处为完全不透明的,即像素的颜色完全由前景的颜色决定;取(0,1)之间的值表示前景物体在像素处为半透明的,即该像素的颜色由前景颜色与背景颜色组合而成.
用于描述前景透明度的图像称为透明度遮罩.
对于一幅彩色图像,将红(r)、绿(g)、蓝(b)三个通道分别代入式(1)可得方程组:(2)其中、、分别为输入图像中像素在红、绿、蓝三个通道的强度值,可通过观测输入图像获得.
对于自然图像抠图问题,该方程组已知量仅有三个,而未知量数量则为七个:三个方程包含七个未知量,未知量数量大于方程数量,因此自然图像抠图方程组为欠定方程组,需要用户提供更多的先验信息方能求解.
在自然图像抠图中,用户通过指定一部分已知的前景区域(该区域值为1)与已知的背景区域(该区域值为0)实现对问题的进一步约束,标记有该信息的图像称为三分图(trimap).
图3给出了一个三分图的例子.
三分图包含三个区域:白色部分为已知前景区域,黑色部分为已知背景区域,灰色部分为值待求解的未知区域.
自然图像抠图算法利用已知区域的信息实现对未知区域透明度的求解.
2基于像素对优化的抠图算法2.
1像素对优化问题模型基于像素对优化的抠图算法通过为未知区域的每一个像录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期素确定一对前景颜色与背景颜色,实现对透明度的求解.
(a)自然图像抠图输入图像(b)三分图图3自然图像抠图输入图像及三分图Fig.
3Inputimageandtrimapfornaturalimagematting对于给定的一对前景像素颜色和背景像素颜色,未知像素的透明度值可根据下式计算得出.
(3)其中表示向量*的模.
基于像素对优化的抠图算法将前景颜色与背景颜色的范围约束为已知前景及背景区域的像素颜色,将自然图像抠图问题建模为像素对组合优化问题.
设未知区域的任意像素为,求解该透明度对应的像素对组合优化问题可表示为(4)其中、、分别表示未知区域、已知前景区域、已知背景区域的像素集合.
像素对优化主要面临着搜索空间大、优化问题数量多的挑战.
由于图像分辨率日益提高,一方面像素对组合的数量是巨大的,逐一评价每一个像素对是不可行的.
以一幅640*480大小(即三十万像素)的图像为例,若已知前景及背景区域分别包含十万个像素,则对每一个未知像素的求解就有一百亿个可能的像素对.
另一方面,像素对优化问题的数量随着未知区域的像素数量增加而增加,在有效时间内求解数量庞大的优化问题是像素对优化面临的又一挑战.
2.
2基于像素对优化的抠图算法概述根据像素对组合优化问题求解思路可以将基于像素对优化的抠图算法分为基于采样的抠图算法以及基于启发式优化的抠图算法两大类.
前者通过采样的方式对像素对组合优化问题决策空间进行缩减,实现问题的近似求解.
后者无须进行采样而是利用启发式优化技术实现像素对的最优化.
表1总结了基于像素对优化的自然图像抠图算法分类及其关键问题和优、缺点.
基于采样的抠图算法的研究分为两个阶段:参数化采样(parametricsampling)和非参数化采样(non-parametricsampling).
前者假设前、背景颜色服从特定分布,通过对已知区域的像素采样估计颜色分布的参数.
进而通过计算未知区域的像素颜色服从该分布的概率估计未知像素透明度.
文献[23]已对基于参数化采样的抠图算法进行了详细介绍.
表1基于像素对优化的抠图算法关键问题及优缺点Tab.
1Summaryofpixel-pair-optimization-basedimagemattingalgorithms算法分类代表性工作关键问题算法特点及优点缺点基于采样的抠图算法基于参数化采样的抠图算法[40,41]颜色分布参数化模型设计根据颜色分布估计透明度,抠图速度快仅适用于符合颜色分布假设的场景基于非参数化采样的抠图算法基于局部采样的抠图算法[42,43]已知区域边缘处像素的选择在特定区域采集像素样本,根据像素对选择估计透明度,抠图速度快在孔洞等前景物体不连续场景下的抠图精度较低基于全局采样的抠图算法[13~17]在样本集大小与覆盖最优像素对之间权衡;像素对评价函数设计在整个已知区域采集样本,根据像素对选择估计透明度,抠图精度较高样本数量增加导致抠图速度变慢;采样质量不稳定.
复杂情况下,采集的样本未能覆盖最优像素对基于启发式优化的抠图算法[18~22]启发式优化算法的设计;像素对评价函数设计免去采样步骤,利用启发式优化算法直接求解最优像素对,抠图精度高启发式优化算法的速度较慢非参数化采样研究的关键问题就是采集的样本集合大小与采样精度之间的权衡.
非参数化采样可根据采样范围细分为基于局部采样的抠图算法以及基于全局采样的抠图算法.
其中前者采样范围限制在局部的空间(如已知区域的边缘),文献[11]及[24]对这类方法进行了综述.
基于局部采样的抠图算法的局限性在于当最优的像素对落在已知区域边缘以外的区域时,这类方法估计的透明度遮罩会出现较大的误差[15].
基于全局采样的抠图算法扩展了采样范围,沈洋等人[24]对早期的基于全局采样的抠图算法进行了介绍,但未覆盖最近5年的研究进展.
2.
3小节将着重对基于全局采样的自然图像抠图算法的研究新进展进行讨论.
2.
3基于采样的抠图算法正如2.
1小节所述,由于像素对组合优化问题决策空间庞大,无法评价所有可能的像素对,基于采样的抠图算法通过采样的方式实现像素对的优化.
像素采样是从给定三分图的已知前景(或背景)区域的像素所构成的集合中,通过一定的选择策略获得基数较小的前景(或背景)像素样本集合的过程.
设、分别为给定的一个三分图中已知前景区域以及已知背景区域的像素集合,表示一个抠图像素采样算法对像素集合进行采样,对已知前景及背景区域像素采样问题可以建模为(5)(6)其中、分别为采集得到的前景、背景像素样本集合;符号表示集合*的基数.
高质量的像素样本集合应对任意的未知像素均覆盖其最优像素对.
最优的像素对可定义为采样空间中其对应的透明度(将其代入式(3)可得)与真实透明度最接近的像素对.
高质量的像素样本集合可表示为(7)其中表示将前、背景像素对对应的颜色代入到式(3)中计算得到的像素的透明度.
为标准抠图透明度遮罩中像素的透明度值.
为一个数值较小的常数.
当满足上述条件时,未知区域的所有像素在样本集合中均有像素对使其估计的透明度接近于参考的透明度遮罩中的值,即未知区域中每个像素的最优像素对均可由前、背景样本组合而成.
当不满足上述条件时,存在一个或多个未知区域中的像素,前景及背景样本集合中任意两两组成的所有可能的像素对均与其对应的最优像素对有较大差别,导致所估计的透明度值与真实的透明度存在较大偏差,造成了最优像素丢失的问题.
基于局部采样的抠图算法由于采样空间局限于已知区域的边缘,常常会丢失最优像素,导致其抠图精度较低.
针对该问题,研究人员提出了基于全局采样的抠图算法.
Shahrian等人[13]提出了一个综合采样算法.
该算法将参数化采样算法与非参数化采样算法结合,利用参数化的混合高斯模型对已知区域的颜色及空间坐标分级聚类,并利用聚类中心构建样本的全集.
为了减少样本集大小增加带来的计录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期算开销,对于靠近已知区域的未知像素,该算法仅选择靠近未知区域的样本子集进行最优像素对的选择.
得益于全局采样带来的样本多样性提高,基于综合采样的抠图算法获得的透明度遮罩精度有所提高.
Johnson等人[14]将自然图像抠图问题建模成像素特征的稀疏编码问题,并提出了基于稀疏编码的抠图算法.
基于稀疏编码的抠图模型中假设像素颜色由一个或多个前景像素及背景像素线性组成而成.
由于使用已知区域的所有像素组成的字典规模过于庞大无法在有效时间内实现稀疏编码的求解,该算法通过超像素聚类,并取聚类中心构成稀疏编码的字典,实现字典规模大幅缩减.
然而,该算法对半透明物体抠图精度不理想,所估计的透明度往往偏向于0或1.
Karacan等人[16]将抠图采样过程建模为对已知区域像素进行稀疏子集选择的问题,利用KL散度(Kullback-Leiblerdivergence)对样本集的稀疏度进行定量评价,提出了基于KL散度采样的抠图算法.
该算法不仅实现全局采样,提高了已知区域像素样本集的多样性,而且控制了样本集合大小.
但由于KL散度的计算复杂度较高,无法为每一个像素计算散度,因此需要将像素合并为超像素(superpixel),以超像素为基本元素计算散度.
Huang等人[23]指出超像素聚类过程可能导致最优像素对丢失的问题.
Huang等人[17]针对多个采样准则可能存在的冲突问题提出了像素级多目标采样算法.
该算法将多采样准则下的像素采样建模为离散多目标优化问题,并为每一个未知像素分别采集前景样本和背景样本.
该算法通过多目标优化可自适应已知区域像素特征的变化,且不涉及参数的调节.
Huang等人的工作发现现有的全局采样算法受限于计算复杂度的增加使用超像素聚类中心替代像素作为采样空间的一个元素,然而其局限性在于超像素的平均颜色往往未能代表离群像素的特征,造成样本多样性的损失,导致最优像素对丢失问题.
针对该问题,该算法的创新在于没有将像素点聚类为超像素,实现了以像素为基本采样元素的像素级的采样.
实验论证了像素级采样对采样性能的提高起着关键作用.
基于全局采样的抠图算法克服了基于局部采样的抠图算法所采集的样本局限于已知区域边缘区域的问题,通过扩大采样空间丰富了样本的多样性,从而提高了采样的性能,缓解了丢失最优像素对问题.
然而,全局采样算法依然使用基于经验设计的采样准则,采样准则的鲁棒性无法保证,依靠人工经验设计的像素采样算法无法准确判断每一个可行解是否为可能为最优的像素对.
因此通过采样的方式大幅压缩决策空间不可避免地会导致丢失最优像素对的问题,这是限制基于采样的抠图算法性能提升的瓶颈.
2.
4基于启发式优化的抠图算法针对采样导致的丢失最优像素对问题,研究人员利用启发式优化算法实现了像素对的全局优化,免去了采样步骤.
基于启发式优化的抠图算法将自然图像抠图中所涉及的大量像素对组合优化问题建模为一个大规模的像素对组合优化问题.
假设给定的三分图中包含个未知像素,对于整幅图像的像素对组合优化问题可以描述为(8)其中,表示针对所有未知像素的像素对优化问题(即整个图像的抠图问题)的决策向量.
为第个未知像素的像素对优化问题的决策向量.
中第一维、第二维分别表示前、背景像素的决策变量;表示第个未知像素的像素对评价函数.
表示面向整个图像所有未知像素的像素对优化问题的评价函数.
大规模像素对组合优化问题具有三大难点:1)决策变量的维度非常高.
对于一幅三十万像素的图像,的维度可达10^5的数量级.
2)决策变量取值为离散的整数,其物理意义是前景、背景像素的下标.
3)像素对评价函数是高度非线性的.
其通常包含多个子函数,且每个子函数都不可导且包含大量的局部最优值.
图4给出了一个评价函数的例子.
图4像素对评价函数适应值景观(局部)示意图Fig.
4Fitnesslandscapeofapixelpairobjectivefunction针对大规模像素对组合优化问题求解困难的问题,Lv等人[18]将启发式优化技术应用于该问题的求解.
该研究将大规模像素对组合优化问题松弛为大规模像素对连续优化问题,并利用收敛速度较快的粒子群优化算法进行求解.
Cai等人[19]发现粒子群算法在求解大规模像素对组合优化问题时容易过早收敛,并针对该问题设计了带打散机制的协同差分进化算法.
Liang等人[20]使用相似的思想提出了基于自适应收敛速度控制器的粒子群优化算法,该方法通过监控粒子群的状态,当种群中两个个体透明度遮罩相似度过高时认为种群过早收敛,通过打散机制缓解粒子群过早收敛的问题.
这些研究的主要贡献在于探索了利用启发式优化算法求解大规模像素对组合优化问题的思路.
然而直接利用现有的启发式优化算法对大规模像素对组合优化问题的求解存在优化效率低的问题.
针对该问题,Liang等人[21]提出了基于模糊评价与分解优化的抠图算法.
针对多个评价准则存在满足程度不确定导致评价不准确的问题,该研究引入模糊逻辑提高了多准则像素对评价的准确性.
为了提高大规模像素对组合优化问题的优化效率,该研究基于分而治之的思想实现了决策变量及目标函数两个层面的问题分解.
决策变量层面上,Liang等人假设局部未知区域内的最优像素对高度相似,依据局部平滑特性将大规模的像素对优化问题分解为多个小规模的子问题,并对子问题独立进行优化.
目标函数层面上,该研究发现在多评价准则的像素对优化问题中优化单个评价准则可获得有助于优化多准则评价函数的启发式信息,将多准则复杂单目标优化问题(如式(9)所示)分解为如式(10)所示多个单目标优化问题,并使用多目标优化算法对所有的优化问题同时进行优化.
通过对评价函数(9)(10)的分解获取更多启发式信息,从而提高优化的效率.
该工作从问题分解的角度为大规模像素对组合优化问题提供了快速有效的求解方案,抠图速度有所改进.
受该工作启发,冯夫健等人[44]利用未知区域像素颜色的相似性对像素对优化问题进行基于颜色聚类的像素对分组并提出了基于分组协同的群体竞争优化算法,降低了抠图算法的复杂度.
但该仍需要数千次迭代才能获取令人满意的抠图结果[44],对计算资录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期源的消耗依然较高.
抠图效率仍有待提高,尤其在计算资源有限的条件下.
Liang等人[22]针对基于启发式优化的抠图算法,计算资源消耗较高的问题,设计了金字塔启发式优化抠图框架.
通过图像及三分图的缩放将大规模像素对优化问题转换为中、小规模优化问题,建立抠图问题金字塔,并将小规模问题优化过程中获得的像素对最优解作为启发式信息传递到更大规模的问题求解中.
该工作改善了基于启发式优化的抠图算法在计算资源有限的条件下抠图精度.
基于像素对优化的抠图算法通过优化像素对目标函数确定前景及背景的颜色,从而实现透明度的估计.
基于像素对优化的抠图研究围绕着复杂的像素对组合优化问题展开.
基于采样的抠图算法通过对决策空间缩减,实现像素对的优化,具有计算复杂度较低的优点,但存在着丢失最优像素对的问题.
基于启发式优化的算法利用启发式优化,实现了免采样的像素对优化,在理论上可避免最优像素对丢失的问题,而且启发式优化算法为迭代式算法,其优化精度可随着计算力的持续投入而提高;但计算资源有限条件下抠图精度仍有较大的提升空间.
3基于深度学习的抠图算法近年来,以表征学习为代表的基于机器学习的图像抠图算法大量涌现.
与传统的自然图像抠图算法不同,基于表征学习的算法能自动的在大量的训练数据寻找自然图像抠图任务的表征信息,而无须人工干预[45].
基于深度学习的抠图算法可以进一步分为端到端(end-to-end)深度学习的抠图算法以及深度学习与传统抠图混合算法.
3.
1端到端深度学习的抠图算法端到端深度学习的抠图算法利用深度神经网络实现从输入图像及三分图到透明度遮罩的直接计算.
这类算法面临的主要问题是现有数据集的数据量不足以训练深度神经网络的问题[43].
Shen等人[46]针对特定的人像抠图问题提出了基于深度学习的自动人像抠图算法.
为了给深度卷积神经网络提供足够的训练数据,Shen等人采集了一个包含2000幅图像的面向人像的自然图像抠图数据集,人像图像源自图片分享网站Flickr.
该数据集包括1700幅训练图像以及300幅测试图像.
所提供的人像数据覆盖了不同的背景、年龄、肤色、衣着、发型下的人像图像.
该研究通过主观评价的方式从基于闭式解的传播抠图算法[36]及K近邻抠图算法[35]抠图结果中选择质量较好的透明度遮罩作为训练数据.
提出的自动人像抠图算法利用人脸检测算法的检测结果对人像图像进行模板对齐,实现三分图自动生成.
该算法通过抠图网络与三分图生成的网络的连接实现了神经网络误差的反向传播.
进而实现了面向自然图像抠图任务的端到端深度卷积神经网络的训练.
该研究的贡献在于提供了规模较大的人像抠图数据集,并利用深度学习技术实现了自动人像抠图,但由于其利用现有的自然图像抠图算法所估计的透明度遮罩作为真实透明度遮罩的近似,训练数据不可避免的存在噪声,因此,训练获得的网络模型的抠图精度受限于生成训练数据的算法.
许征波和杨煜俊[47]在Shen等人提供的人像数据集[46]基础上通过增加标注数据、旋转、缩放等方式对数据进行增广,并在Shen等人的工作基础上改进了Xception网络,改善了透明度遮罩的精度,且降低了计算耗时,但该方法依然未能克服训练数据集标注误差较大的影响.
王欣等人[48]面向特定的车辆抠图问题,提出了注意力机制和特征融合的自动抠图算法.
该算法利用车辆实例分割结果实现可区分不同车辆的三分图自动生成.
并在自动编解码器模型中引入了注意力机制,提高了抠图的精度与平滑性,但该方法面向车辆抠图任务设计,无法推广到通用的抠图任务中.
Xu等人[32]面向通用的自然图像抠图任务提出了基于自动编码器的深度抠图算法.
为了解决端到端深度抠图算法所面临的训练数据数量少、噪声大的问题,该研究提出了大型的Adobe自然图像抠图数据集.
该数据集提供了431个独立的前景图像并由人工利用Photoshop软件抠图的方式获得其近似的真实透明度遮罩.
通过将前景图像与不同的背景图像合成产生新的图像,并保持参考的透明度遮罩不变,产生更大规模的数据集.
虽然该抠图数据集提供的参考的透明度遮罩相对于Shen等人[46]的提出的抠图数据集精度有了一定提高;但其精度不如传统的利用色键抠图所获得的抠图数据集[39].
在抠图算法上,Xu等人利用深度卷积自动编/解码器对四通道图像块进行自动化编码与解码,从中自动学习高层视觉特征,并获得初始的透明度遮罩;并使用一个浅层的卷积神经网络对透明度遮罩进行修正.
该算法实现了无须现有抠图算法辅助的端到端的基于深度学习的抠图,在Rhemann等人提出的在线抠图基准数据集[49]上绝对误差之和及均方误差指标均有显著的提升.
Hou等人[25]采用了双路结构的自动编码器,分别用于描述局部信息以及全局的上下文信息,进一步提高了抠图的性能.
Tang等人[26]的工作使用相似的思路恢复透明度遮罩的结构信息,其创新点在于在自动编码器中引入了残差神经网络的设计,缓解了模型层数过深时的网络退化的问题.
Lutz等人[29]引入对抗神经网络,提出了AlphaGAN算法.
该算法利用自动编码器网络作为对抗神经网络的生成器,采用PatchGAN算法作为判别器,并利用Adobe抠图数据集[32]实现网络的训练.
该研究的贡献在于通过在编码器与解码器之间添加残差连接,使得图像的局部信息获取图像的结构特征得以充分利用.
Cai等人[27]针对抠图算法在三分图粗糙的情况下透明度遮罩估计精度低的问题,在透明度遮罩估计前引入了三分图精细化的步骤.
该工作把三分图精细化建模为为判断每个像素属于前景、背景或半透明区域的三分类问题,并设计了一个神经网络模型完成对三分图精细化以及两个问题同时进行求解.
该方法的优势在于其能感知图像中的结构特征(如蜘蛛网、头发等结构),并对三分图标注有一定的容错性.
基于端到端深度学习的抠图算法在抠图精度上取得了突破,但由于真实的透明度遮罩获取代价高,这类算法依然面临着训练数据不足的问题.
即使是目前规模最大的Adobe自然图像抠图数据集,其数据量也只有4.
3万张(由431个前景与100个背景图像合成获得),与其他计算机视觉任务中百万级甚至千万级别可用的训练数据相比数据量依然有较大差距且所提供的透明度遮罩的存在噪声,造成现有的基于端到端深度学习的抠图算法在不同类型图像下抠图性能的鲁棒性不理想.
3.
2深度学习与传统抠图混合算法与基于端到端深度学习的抠图算法不同,混合深度抠图算法将现有的抠图技术与深度学习技术结合,将深度学习技术嵌入到传统抠图的关键步骤中,实现对抠图性能的提升.
Cho等人[30]将基于传播的抠图算法与深度学习算法结合.
将基于闭式解的传播抠图算法与近邻抠图算法所获得的透明度遮罩作为深度神经网络的输入,根据两者与参考的透明度遮罩的差别从大量数据中学习两个算法的适用性,由此改善透明度遮罩的质量.
由于该算法需要分别计算基于闭式解的传播抠图算法与近邻抠图算法的透明度遮罩作为输入,因此基于深度卷积神经网络的自然图像抠图算法计算复杂度高,录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期且抠图性能受限于所依赖的两个抠图算法.
Wang等人[31]将深度学习技术引入传播抠图亲和度模型构建中,利用深度神经网络从大量数据中学习抠图特征提取模型以及亲和度的度量模型,通过数据驱动的方式实现了基于传播的抠图算法中的传播准则的改进.
值得一提的是该工作使用了与文献[32]相似的方式合成了大量的图像用于深度神经网络的训练,但通过合成图像增加训练数据的方式并未增加前景的多样性.
Tang等人[28]利用深度学习技术提高了基于像素对优化的抠图算法性能.
该研究的创新性在于从图像补全的角度利用深度学习算法估计未知区域的前景及背景颜色.
Tang等人假设未知区域中不透明的像素的颜色分布与已知区域一致,使用一个基于深度学习的图像补全算法[50]实现对未知区域前景、背景颜色的估计,在此基础上利用AlphaGAN网络实现透明度遮罩的估计.
该算法对不连续物体的物体(如孔洞)具有较好的抠图效果.
然而,当前景为高度透明物体时,图像补全算法获得的前景、背景颜色可能存在较大误差,导致抠图质量下降.
基于深度学习的抠图算法通过数据驱动的方式从大量的训练数据中学习整个抠图过程或关键步骤的表征信息.
基于端到端深度学习的抠图算法利用深度神经网络实现从输入图像、三分图到透明度遮罩的直接计算,这类算法需要大量的图像及其对应的参考的透明度遮罩作为训练数据,然而透明度遮罩的获取代价是高昂的.
因此,这类算法利用现有的小规模抠图数据集通过更换背景的方式合成大量的图像用于训练.
虽然合成的图像数量上满足了深度学习算法的需求,但是其前景物体局限于现有小规模数据集中的前景,训练得到的模型泛化能力存疑.
混合深度抠图算法在现有抠图模型基础上利用深度学习技术对其关键步骤进行改进,与端到端的深度抠图算法相比,混合深度抠图算法可以利用抠图的先验知识,在有限的训练数据条件下与端到端的抠图算法相比在抠图鲁棒性上具有一定优势,但这类算法的性能可能会受限于传统抠图模型,例如基于像素对优化的抠图算法所存在的对高度透明物体提取效果不理想的问题,在深度学习与像素对优化混合算法依然有所体现.
4基于传播的抠图算法基于传播的抠图算法通过度量相邻像素的相似性将值从已知区域传播到未知区域.
该类算法的研究可分为基于局部准则的传播抠图算法研究以及基于非局部准则的传播抠图算法研究两个阶段.
文献[24,38]已详细介绍了基于局部准则的传播抠图算法以及早期的基于非局部准则的传播抠图算法.
本节重点讨论近5年的基于非局部准则的传播抠图算法研究进展.
基于局部准则的传播抠图算法假设未知像素的对应的前景颜色和背景颜色与相邻像素的前景和背景颜色存在特定关系,如两者相等[37]、前者是后者的线性组合[36],并根据相邻像素间的假设传播值.
这类抠图算法以泊松抠图算法[37]、基于闭式解的传播抠图算法[36]为代表.
基于局部准则的传播抠图算法中,相邻像素通常使用局部矩形区域定义.
局部区域的划分是这类算法讨论的主要问题.
基于局部准则的传播抠图算法奠定了基于传播抠图的基本思路,对后续的基于传播抠图算法研究具有启发意义.
文献[24]对这类算法进行了详细介绍.
基于非局部准则的传播抠图算法突破了局部区域的限制,将透明度传播的范围从相邻像素拓展到"相似"像素,使得透明度可以实现"远距离"传播.
这类算法的早期代表工作是Chen等人提出的KNN抠图算法[35]及Chen等人提出的基于局部与非局部准则的抠图算法[34].
前者利用K近邻方法实现"相似"像素的选择,对非局部准则透明度传播形式的设计具有启发意义.
后者提出了将局部与非局部准则结合进行透明度传播的思路.
姚桂林和姚鸿勋对早期的基于非局部准则的传播抠图算法进行了详细介绍[38].
近年来研究人员受早期非局部准则传播抠图研究的启发,围绕像素间亲和度的关系展开了进一步研究,Aksoy等人[33]提出了基于像素间信息流的抠图算法.
该工作的创新点在于为不透明前景以及高度透明前景分别设计了基于全局先验的亲和度目标函数.
该研究认为当前景为不透明物体时,未知区域像素颜色和已知区域像素的颜色相近.
并假设未知区域像素的颜色分布()为已知前景区域()像素颜色分布与已知背景区域()像素颜色分布的叠加.
在该假设基础上,通过观测最小颜色分布重建误差指标判断前景的类型.
最小颜色分布重建误差指标定义如下:(11)当取值较大时基于像素间信息流的抠图算法认定前景为高度透明物体,否则认定为非高度透明的物体.
对于不同的类型的物体采用不同的亲和度目标函数.
并利用K近邻策略选择相似的像素进行透明度传播.
该算法通过精确控制信息从已知区域到未知区域的传播以及未知区域内的传播实现了抠图性能的提高;并在Rhemann等人提出的抠图基准测试集[49]上取得了良好的抠图效果,然而由于其涉及大量经验参数,调整参数需要耗费大量的时间,限制了该算法的应用.
基于传播的抠图算法通过设计亲和度模型度量像素之间的相似性,并据此将透明度从已知区域传播到未知区域从而实现透明度遮罩的求解.
基于传播的抠图算法具有两个优点:1)基于像素间亲和度的传播可以建模成二次型目标函数的优化问题.
而二次型函数有成熟的数学优化工具求解,可通过较低的计算代价获得闭式解.
2)基于传播的抠图算法通过将透明度从已知区域向未知区域"传播"实现抠图透明度遮罩的计算,其基本原理决定了其估计的透明度遮罩具备局部平滑的特性,因此该算法可避免基于采样的抠图算法所产生的透明度遮罩的不连续性问题[51].
因此基于传播的抠图算法也被用于基于像素对优化抠图算法的后处理中[13,15,17].
然而,基于传播的抠图算法的工作原理导致了基于传播的抠图算法在不连续物体(如带有孔洞的物体)的前景提取中性能不佳.
另外,由于基于传播的抠图算法需要存储像素间的相关关系,因此其空间复杂度随图像分辨率增长成倍增加.
导致这类算法在高清图像抠图应用中受到限制.
5自然图像抠图的评价指标自然图像抠图的评价是指对抠图算法获得的透明度遮罩质量的评价.
然而,不同于图像分类、目标检测等计算机视觉任务,真实的透明度遮罩的无法直接通过人工标注的方式获得.
根据评价的依据不同,透明度遮罩质量评价方式可分为主观评价和客观评价两类.
主观评价通过评价者对透明度遮罩进行打分,实现对其的定量评价.
由于主观评价根据评价者的主观判断进行透明度遮罩质量的评估,主观评价的结果很容易受到评价者的偏好影响.
为了避免该影响导致评价不准确,进行主观评价时往往需要增加参与评价人员数量以减少参评人员的偏好带来的影响或者聘请自然图像抠图领域的专家进行主观评价.
主观评价对参与评价人员的数量或专业水平要求较高,因此主观评价的人力代价较高,一般在影视作品非线性编辑中应用.
不同于主观评价,客观评价的评价依据是给定的透明度遮罩的参考图像.
通过度量估计的透明度遮罩与参考的透明录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期度遮罩之间的差异实现抠图质量的定量评价.
根据透明度差异考虑的范围,自然图像抠图客观评价指标可细分为单点评价和多点评价两类.
单点评价从单个像素点角度考虑估计的透明度遮罩与参考的透明度遮罩之间的差异.
基于单点评价的抠图质量评价指标有绝对误差之和、均方误差.
假设为三分图中未知区域的任意像素,估计的透明度遮罩对应位置的值为,参考的透明度遮罩对应位置的值为,绝对值误差之和计算方式为(12)均方误差计算方式为(13)其中为三分图中未知区域像素的数量.
单点评价从统计的角度描述抠图算法估计的透明度遮罩与参考的透明度遮罩在对应像素差异,这类指标未能反映多个像素的透明度误差的关系;针对该问题,Rhemann等人[39]提出了两个多点评价指标:梯度误差与连通性误差.
前者反映的是估计的透明度遮罩与参考的透明度遮罩在透明度变化上的误差,后者反映的是透明度遮罩在连通度上的误差.
梯度误差计算方式为(14)其中、别为估计的透明度遮罩与标准透明度在像素处的标准化梯度幅值.
梯度幅值通过计算高斯一阶导数获得,其中高斯函数的均值取0,标准差取1.
4[39].
连通性误差计算式为(15)其中表示估计的透明度遮罩与参考的透明度遮罩均为完全不透明(和的值均为1)的面积最大的连通区域.
函数描述了像素与连通程度,其定义下:(16)其中为像素到最近的与连通的像素的平均距离.
表示狄拉克函数,[49].
,表示保证像素与四连通的最大的二值化阈值.
同理可给出的定义.
由于人眼对梯度信息较为敏感,因此梯度误差往往更接近于主观评价的结果.
自然图像抠图的客观评价实现了低成本的自然图像抠图算法性能的定量度量,是目前使用最广泛的自然图像抠图评价方式.
但客观评价需要提供参考的透明度遮罩.
由于参考的透明度遮罩给定了图中每一个像素的透明度,无法直接通过肉眼观测给出准确的透明度标注.
现有的工作主要通过三种方式获取标注的透明度遮罩:a)利用图像处理软件(如Photoshop)人工抠图获得[32];b)通过已有的自然图像抠图算法获得[46];c)通过色键抠图技术获取[49].
其中第一种方法获得的参考的透明度遮罩质量容易受参与者的主观影响,第二种方法受限于自然图像抠图算法性能,获得的透明度遮罩带有噪声;第三种方法是客观的获取方式,获取的透明度遮罩精度较高,具有较高的参考价值.
基于色键抠图的参考的透明度遮罩获取方法中,参考的透明度遮罩通过在自然背景与前景物体之间设置纯色背景,并在在纯色背景下拍摄前景物体(如图5所示),然后利用色键抠图的结果作为参考的透明度遮罩.
具体的参考的透明度遮罩及三分图的获取步骤如下:a)在自然背景下通过高分辨率相机拍摄前景物体,获得自然图像;b)保持相机和前景物体固定,在前景物体与自然背景之间设置纯色背景,再次拍摄,获得色键抠图所需的纯色背景图像;c)更换纯色背景颜色,并重复步骤2,获得前景物体在红色、绿色、蓝色三种背景下的纯色背景图像;d)利用色键抠图算法获取纯色背景图像的透明度遮罩,并取多个透明度遮罩的平均值作为参考的透明度遮罩;e)更换不同的前景物体及自然背景,重复步骤1-5直到数据集建立完成.
图5参考的透明度遮罩获取方式示意图Fig.
5Acquisitionofground-truthimagemattes6当前研究面临的挑战与前景预测虽然经过多年的研究抠图精度已获得了长足的进步,尤其是基于启发式优化的像素对优化抠图算法及基于深度学习的抠图算法为抠图研究提供了新思路,提高了透明度遮罩估计的准确性,但目前自然图像抠图研究主要关注在不同图像输入下的抠图质量,较少考虑三分图的不同标注下的抠图质量.
现有的抠图算法依然面临着鲁棒性上的挑战.
具体表现在三分图标注信息量鲁棒性和三分图标注方式鲁棒性两个方面.
6.
1三分图标注信息量鲁棒性目前,三分图的标记主要依赖于用户的手工标记,减少用户标记的工作量是抠图的一个重要研究方向.
然而用户标记的减少带来了三分图已知信息减少、甚至缺失.
如何在有限的已知信息下保证抠图质量是自然图像抠图研究的一大挑战.
基于传播的抠图算法以及基于深度学习的抠图算法在三分图已知区域较小的情况下与基于像素对优化的抠图算法相比具有显著优势,这是由于基于像素对优化的抠图算法假设图像中的像素颜色是由已知前景及背景区域像素颜色合成得到.
在三分图已知区域较小的情况下,已知区域像素的颜色往往不足以合成图像中每一个像素的颜色.
由于在三分图已知信息减少的情况下不满足基于像素对优化的抠图算法的基本假设,因此在该情况下基于像素对优化的抠图算法难以获得精确的透明度遮罩.
在已知前景及背景区域缺失的情况下(如图6(b)所示),笔者尝试了多种基于像素对优化的抠图算法[13,16,17,21,22]均无法计算透明度遮罩.
虽然研究人员已经探索了在已知区域较小的情况下基于传播的抠图算法[35,36,33],但是基于传播的抠图算法依然存在对三分图的标记信息量比较敏感的问题,在部分已知区域缺失的情况下透明度遮罩质量不佳(如图6(c)、图6(d)所示).
基于深度学习的抠图算法有望在三分图已知信息减少、甚至缺失情况下获得高质量的抠图透明度遮罩(如图6(e)、图6(f)所示),在减少三分图标注工作量上有着良好的应用前景.
6.
2三分图标注方式鲁棒性虽然基于深度学习的抠图算法在抠图精度上取得了突破,然而其依然面临着对三分图标注方式鲁棒性欠佳的问题.
当训练的三分图标注方式与实际的三分图标注方式不一样时,基于深度学习的抠图算法抠图性能显著下降.
图7给出了一个基于深度学习的抠图算法对三分图标注方式鲁棒性欠佳的例子.
在实际的抠图应用中,三分图一般是由人工标录用定稿梁椅辉,等:自然图像抠图技术综述第38卷第5期注.
然而由于深度学习需要大量的训练数据,人工标注将消耗大量的人力成本.
现有的基于深度学习的自然图像抠图算法通常在参考的透明度遮罩上通过形态学操作自动产生的三分图(图7(b)给出了自动生成的三分图例子).
利用形态学操作自动生成的三分图与手工标注的三分图存在一定差异.
图7(c)给出了手工标注的三分图的例子.

展开全文

抠图光影魔术手相关文档

"序号","书名","责任者","索取号","出版社"

"图书编号","书名","作者","出版者","出版日期","isbn","内容简介","分类"

qq讨论组退出qq讨论组。讨论组的人会知道吗绵阳电信绵阳电信宽带套餐资费推荐 vista系统重装Vista系统的重装的步骤，有系统恢复盘中国电信互联星空电信的互联星空服务是什么？唱吧电脑版官方下载唱吧有电脑版吗 iphone越狱后怎么恢复苹果手机越狱后怎么恢复 qq怎么发邮件qq怎么发文件和邮件神雕侠侣礼包大全神雕侠侣手游版四重大礼包怎么得到啊？创维云电视功能谁能具体介绍一下创维云电视的主要功能，以及基本的使用方式，如果能分型号介绍就更好了，O(∩_∩)O谢谢创维云电视功能什么是创维云电视啊?创维云电视是什么意思? 万网域名查询 vps服务器个人域名备案流程如何注册中文域名韩国空间 kddi 163网 paypal认证网盘申请 nerds 电信虚拟主机 ftp免费空间 t云 Updog 独享主机网通服务器阿里云官方网站重庆电信服务器托管免费网络万网主机更多

抠图光影魔术手

Krypt（$120/年）,2vCPU/2GB/60GB SSD/3TB

Friendhosting（月1.35欧元），不限流量，9机房可选

racknerd：美国大硬盘服务器（双路e5-2640v2/64g内存/256gSSD+160T SAS）$389/月