小言_互联网的博客

ICCV 2019 | 旷视研究院提出新型抠图方法AdaMatting,实现当前最佳

325人阅读  评论(0)

来源 | 旷视研究院

两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 日在韩国首尔举办。旷视研究院共有 11 篇接收论文,涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别、AutoML、度量学习、强化学习、元学习等众多领域。在此之前,旷视研究院将每周介绍一篇 ICCV 2019 接收论文,助力计算机视觉技术的交流与落地。

本文是第 6 篇,由于发现了抠图可分为 trimap adaptation 和 alpha estimation 两个任务,并受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (Adaptation and Matting) ,同时克服了诸多局限性。该方法在最为通用的数据集 Adobe Composition-1k 上刷新了当前最优成绩,并在 alphamatting.com 上取得第一。

论文名称:

Disentangled Image Matting

论文地址:

https://arxiv.org/abs/1909.04686

目录

  • 导语

  • 简介

  • 方法

    • Trimap Adaptation

    • Network Overview

    • Multi-task Loss

  • 实验

    • Results on alphamatting.com

    • Results on Composition-1k

  • 讨论

    • Accuracy of Trimap Adaptation

    • Real World Image Matting

  • 结论

  • 附录

    • More Qualitative Results

  • 参考文献

  • 往期解读

导语

抠图旨在精确地评估图像和视频中前景物体的不透明度。它是一系列应用的预处理,比如电影制片和数字图像编辑。

一般来讲,输入图像 I 被建模为前景和背景色彩的线性结合,如下所示:

其中,F_i、B_i、α_i 分别是指像素 i 前景色彩和背景色彩以及前景蒙版(alpha matte)估值。给定一张图像 I,抠图旨在同时解决 F、B、α。

由等式 1 可知,这一问题是高度不适定的(highly ill-posed)。对于一张 RGB 图像,每个像素需要 7 个变量来共同界定,却只有 3 个已知变量。

对于大多数现有的抠图算法,约束解空间的基本输入是三元图(trimap),一个指示不透明度和未知区域的粗糙的分割图。

三元图由使用者涂鸦交互生成,或者由二值图像分割结果自动生成。无论何种方式,输入的三元图通常是粗糙的,即未知区域(图 1b 中的灰色区域)包含真实的半透明像素以及大量的不透明像素。这是因为通过人工标注来提供精确的三元图极其繁琐,并且难以使用运行在低分辨率图像的图像分割方法来实现。

图 1:(a) 输入图像, (b) 输入三元图,(c) 本文抠图结果, (d) trimap adaptation 相应结果

不幸的是,先前的抠图方法经常忽视输入三元图的不精确性,并尝试直接估值一个好的前景蒙版。

旷视研究院认为,在这一过程中,一个分类问题没有得到充分解决。如果仔细观看三元图,未知区域的像素将会分入三个集合:不透明前景,不透明背景以及半透明区域。前两类称之为不透明像素,后一类称之为混合像素。

抠图方法的期望行为是为不透明像素生产精确的 0 和 1,同时精确评估混合像素的微小不透明度(介于 0 和 1 之间)。

由此可见,抠图这一任务包含两个相关但又不同的任务。第一个是分类未知区域中的像素以确认混合像素,本文称之为 trimap adaptation,第二个是精确计算混合像素的不透明值,本文称之为 alpha estimation。

研究员观察到,这两项任务需要相当不同的算法能力。第一种更多地依赖对物体形状和结构的很好的语义理解,从而可基于图像特征有效识别未知区域的前景和背景区域。

对于第二种任务,合理的利用低语义的图像线索更为关键。其中 trimap adaptation 可被建模为一个分类任务,而 alpha estimation 可被看作一个典型的回归任务。

大多数现有抠图方法把抠图当作单一的回归任务,它们忽略了抠图中的分类属性。这一观察带来的问题是,如何在一个解决方案中协调抠图问题的两个不同方面。

现有抠图方法,尤其是基于优化的方法,太过依赖于低阶的特征,比如色彩分布和局部纹理,并且缺乏整合高阶特征的能力。

正如最近一些工作所示,更好地理解物体的结构和形状有利于图像抠图。尽管宣称使用高阶特征,这些方法通常只利用预训练特征,并且不使用显式的语义目标作指导。

简介

正是由于发现抠图可分为 trimap adaptation 和 alpha estimation 两个任务,并受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (Adaptation and Matting) ,同时克服了上述的局限性。

AdaMatting 借助多任务的方式在两个不同的解码器分支内执行这两个任务。通过显式监督模型以区分混合像素和不透明像素,接着使用优化的三元图约束 alpha estimation 的输出,这个两个分支分别处理这一任务的不同方面。

此外,通过共享两个任务的特征,大大提升了对模型的物体形状和结构信息的理解,如图 2 所示。

图 2:AdaMatting pipeline

本文主要贡献如下:

  • 提出一种新观点,即抠图应区分为 trimap adaptation 和 alpha estimation 两个任务,并证明这一区分对于提升基于 CNN 的抠图方法至关重要。

  • 提出一个全新的框架,其中这两种任务可以多任务的方式进行联合优化。大量实验表明,这一方法可以更好地利用语义信息为已训练的 CNN 模型提供额外的结构感知力和三元图容错能力。

  • 该方法在最为通用的数据集 Adobe Composition-1k 上刷新了当前最优成绩,并在 alphamat-ting.com 上取得第一。

方法

本节首先准确界定 trimap adaptation 这一任务,接着描述 AdaMatting 的 pipeline 和训练方案。

  • Trimap Adaptation

令 α_gt 作为前景蒙版 ground truth ,那么,一张图像相应的最优三元图 T_opt 可写为:

给定一张已做三元图处理的输入图像, trimap adaptation 的目的是预测最优的三元图 T_opt,直观来讲, 即是把半透明的区域与不透明的前景和背景分开。

根据 T_opt 的定义,抠图自然地分为两步:1)确定 α 是否正好为 0、1 或者两者都不是;2)如果区域是半透明的,精确计算 α。

注意,本文不需要预测标签与输入三元图良好兼容:如果用户输入存在镜像错误,研究员希望模型可以修正它。

图 1d 给出了由本文模型给出的 trimap adaptation 实例。由图可知,第一个输入三元图中的未知区域宽泛且有错误,由于低质量标注而没有覆盖所有的头发。

执行 trimap adaptation 之后,输出三元图不仅缩小而且被纠正,从而产生了更可靠的前景蒙版。

对于第二张输入图像,自动化三元图生产算法没能给出一个有意义的三元图。但是,在这种极端情况下,AdaMatting 令人吃惊地改写了一个相对精确的三元图,并且完美解决了抠图的这一困难问题。

  • Network Overview

本文设计了一个完全端到端的 CNN 模型,称之为 AdaMatting,图 2 给出了其 pipeline。它包含一个产生共享表征的编码器,以及两个相互独立的解码器,以分别处理 trimap adaptation 和 alpha estimation 两个任务。trimap adaptation 和中间前景蒙版的结果接着输入到 propagation unit,形成最终的前景蒙版。

AdaMatting 把与相应三元图相连的图像作为输入。首先,一个前端全卷积编码器产生深度特征以作为共享的特征。接着,两个独立的解码器用于每个任务,旨在学习从共表征到期望输出的映射。

每个解码器包含若干个 3x3 卷积层以及上采样模块。三元图解码器输出 3 个通道的分类 logits,由交叉熵损失来引导;α 解码器输出 1 个通道的中间值 α 估计,进入 propagation unit 以做进一步优化。

  • Multi-task Loss

如上所述,在 AdaMatting 中,trimap adaptation 可被建模为一个分割任务,把输入图像分为前景、背景和半透明区域。解决这类分割问题的过程可带来丰富的语义特征,反过来这有助于解决前景蒙版回归的问题。

本文采用了不确定性损失,而不是线性结合的损失函数。这一损失可写为:

实验

本文开展了大量实验,证明  AdaMatting 在两个公开数据集上的有效性:1) al-phamatting.com,2) Adobe Composition-1k test set,且后者的物体种类更多,背景区域更为复杂。本节将会把 AdaMatting 与当前最优方法从定量和定性两个方面做对比。

  • Results on alphamatting.com

本文把结果提交至 alphamatting.com,取得了当前最佳的表现,在所有三项指标的平均性能上位列第一。梯度误差和 MSE 结果如表 1 所示。

表 1:alphamatting.com 数据集上本文方法与其他 5 个当前最优方法的平均排名结果

视觉对比效果如图 4 所示。

图 4:alphamatting.com test set 两张图像的定性对比结果

  • Results on Composition-1k

在 Composition-1k test set 上,本文对 6 个最新的抠图方法做了评估,它们是 Closed Form、KNN、DCNN、Information Flow、AlphaGAN 和 Deep Image Matting。Grad、SAD 和 MSE 下的量化结果如表 2 所示。很明显,AdaMatting 在所有指标上大幅超越其他所有方法。

表 2:Composition-1k test set 上的定量对比结果

另外,数据集中给出了一些非常困难的图像,其中前景颜色和背景很难区分。两个实例如图 5 所示。

图 5:Adobe Composition-1k test set 上的定性对比结果

很明显可以看到,相较于所有其他方法,本文结果包含更为生动的细节,伪影也大幅减少。

讨论

  • Accuracy of Trimap Adapatation

本文还对 trimap adaptation 任务对抠图任务的影响进行了鲁棒性分析。

表 3:在Adobe 测试集上三元图自适应的准确率(Acc,IOU)以及Gradient Error

  • Real World Image Matting

图 6:真实世界里图像的抠图结果。输入的三元图由对人像二元分割掩码进行膨胀后得到

结论

本文从一种解构的视角来分析抠图方法,即该任务可被分为两个子任务:trimap adaptation 和 alpha estimation。

从这一视角出发,本文提出一种新型抠图方法,称之为 AdaMatting,以借助多任务损失联合解决这两项子任务。

通过现实分离两个子任务,并根据不同目标优化它们,模型可从包含丰富语义和音素信息的共享表征中受益巨大。

大量实验证实了 AdaMatting 具有额外的结构感知能力和三元图容错能力。此外,从定量与定性的实验结果来看, AdaMatting 还在两个广泛使用的数据集上展现了优异性能,成为抠图方向上新的当前最佳。

附录

  • More Qualitative Results

在 Composition-1k 上的更多结果,如下:

图 7:Adobe Composition-1k test set 上的定性对比结果

在 Real Image 上的更多结果,如下:

图 8:真实世界里的背景替换效果对比

参考文献

  • Yung-Yu Chuang, Brian Curless, David H Salesin, and Richard Szeliski. A bayesian approach to digital matting. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Con- ference on, volume 2, pages II–II. IEEE, 2001.
  • Yag ̆iz Aksoy, Tae-Hyun Oh, Sylvain Paris, Marc Pollefeys, and Wojciech Matusik. Semantic soft segmentation. ACM Transactions on Graphics (TOG), 37(4):72, 2018.
  • Christoph Rhemann, Carsten Rother, Jue Wang, Margrit Gelautz, Pushmeet Kohli, and Pamela Rott. A perceptually motivated online benchmark for image matting. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 1826–1833. IEEE, 2009.
  • Ning Xu, Brian Price, Scott Cohen, and Thomas Huang. Deep image matting. In Computer Vision and Pattern Recog- nition (CVPR), 2017.
  • Yagız Aksoy, Tunc ̧ Ozan Aydın, Marc Pollefeys, and ETH Zu ̈rich. Designing effective inter-pixel information flow for natural image matting. In Computer Vision and Pattern Recognition (CVPR), 2017. 
  • Qifeng Chen, Dingzeyu Li, and Chi-Keung Tang. Knn mat- ting. IEEE transactions on pattern analysis and machine intelligence, 35(9):2175–2188, 2013.
  • Donghyeon Cho, Yu-Wing Tai, and Inso Kweon. Natural image matting using deep convolutional neural networks. In European Conference on Computer Vision, pages 626–643. Springer, 2016.
  • Anat Levin, Dani Lischinski, and Yair Weiss. A closed-form solution to natural image matting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2):228–242, 2008.
  • Sebastian Lutz, Konstantinos Amplianitis, and Aljosa Smolic. AlphaGAN: Generative adversarial networks for natural image matting. 2018.

(*本文为 AI科技大本营转载文章, 载请联系作者


精彩推荐


2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。


即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!


推荐阅读

你点的每个“在看”,我都认真当成了AI


转载:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/102550253
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场