点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
近年来,人脸肖像编辑取得了较大的进步。但是,以前的方法要么对预定义的人脸属性进行操作,缺乏控制高级语义人脸组成形状的灵活性;要么利用手动编辑的中间表示实现具有明显拓扑形变的编辑,这种方式费时费力并且要求绘画技能。
基于当前方法的局限性,我们提出了一种基于参考图像的人脸组成编辑方法(r- FACE),不需要预定义的属性标签和手动编辑的中间表示,直接从参考图像中学习目标人脸组成形状。为了训练所提出的模型,我们采用上下文损失约束生成图像和参考图像之间目标人脸组成形状的相似性,同时采用风格损失和感知损失保持原始图像和生成图像之间肤色等风格特征的相似性。实验结果表明,r-FACE实现了形变可控、多样化的生成结果。
邓琪瑶:中国科学院自动化研究所博士生,主要研究兴趣是深度生成模型和人脸图像编辑。目前以第一作者在IJCAI、IEEE TIFS上发表多篇论文。
一、研究背景
人脸组成编辑是人脸肖像编辑方法的一种,人脸肖像编辑是指基于一副给定的人脸图像,对人脸的属性组成或者语义进行编辑,并且生成的图像看起来真实自然。鉴于人脸肖像编辑方法在影视制作、图片处理和交互式娱乐等方面的应用前景,该任务一直是计算机视觉方向的研究热点。
近年来随着生成模型,尤其是生成对抗网络的发展,人脸肖像编辑方法取得了巨大的进步。目前主流的人脸肖像编辑方法主要聚焦于两类:基于标签条件的方法和基于中间表示的方法。
⑴基于标签条件的方法,通过改变二值属性标签,对预定义的人脸属性进行操纵。但是由于该方法以二值属性标签为条件,而二值属性标签对属性的表示能力有限,因此这类方法只适用于编辑外观纹理变化的一些显著属性。
比如这里的发色肤色年老化和去除胡子等,难以实现抽象形状变化的形状的属性编辑。比如说将鼻子变成鹰钩鼻,将眼睛变成丹凤眼等,缺乏控制高级语义人脸组成,眼睛、鼻子、嘴形状的灵活性。
⑵为了实现对形状的可控性,最近基于中间表示的方法涌现出来,他们提出通过手动编辑中间表示,比如人脸关键点,语义分割图或者轮廓草图等,实现具有明显拓扑形变的人脸组成边界。
然而在实际应用中,这种直接将如此精确的中间表示作为形状指导的方法,对用户而言并不友好,这种方法费时费力,并且要求用户具备一定的绘画技能。
基于这两种方法存在的局限性,我们能否直接从参考图像中去学习人脸组成的形状信息呢?这样既可以控制人脸组成的形状,又不依赖精确的中间表示。
如图所示理想的基于参考图像的人脸组成编辑,可以将参考图像的人脸组成转移到原始图像,给定不同的参考图像,可以实现多样化的结果。
为了实现这个目标,我们发现需要解决三个问题:
我们没有成对样本,没有ground truth,因为这个世界上不存在某一个人同时具有两种不同形状的五官的情况,因此我们就没有办法获取ground truth。
给定了参考图像,我们如何明确参考图像中应该转移,应该学习的区域呢?
如何衡量或者约束生成人脸和参考人脸组成形状的相似性呢?
二、方法设计
带着这三个问题我们去设计模型框架,首先关于第一个问题,没有成对样本,没有ground truth。既然没有成对样本,我们考虑以人脸补全模型作为我们的基本框架,直接将需要改变的区域去除,通过参考图像补全缺失区域实现这一个目标。因此我们的框架由一个图像补全模型和一个参考图像编码器组成。以缺失目标人脸组成的图像作为输入,从参考图像中学习相应的人脸组成形状信息来补全缺失区域,实现对人脸组成的语义形状编辑。
关于第二个问题,如何确定参考图像中的目标人脸组成区域?我们提出了一个实例指导注意力模块,来融合原始图像的注意力特征和从参考图像中提取的目标人脸组成特征,进一步增强了模型的生成效果。从原始特征中我们获取缺失区域的attention map,原始特征与attention map相乘,得到原始图像的自注意力特征,参考图像特征与attention map相乘,获得参考图像中相应的目标人脸组成特征。将两者融合后的特征作为补全区域的特征送入网络,使模型学习到参考图像的目标人脸组成信息,同时忽略参考图像中其他的无关信息。
最后一个问题,如何约束生成图像和参考图像之间目标人脸组成形状的相似性。在最终生成的图像中,我们期望组成形状信息要与参考图像一致,而肤色的纹理信息要与原始图像一致,同时生成的图像还需要真实自然。为此,我们用上下文损失来约束生成图像和参考图像在补全区域的形状相似性。采用风格损失和感知损失约束生成图像和原始图像在整体外观上的相似性。基于人脸补全的框架,实例指导注意力模块以及损失目标,我们就实现了基于参考图像的人脸组成编辑。
三、实验结果
我们在CelebA-HQ数据集上进行验证。为了展示提出方法的性能,我们将生成结果与几种基准方法进行了比较。除了人脸属性编辑方法,AttGAN和ELEGANT,我们还将复制-粘贴作为一种简单的对比方法,将Adobe photoshop图像编辑作为一种交互式的对比方法。如图所示,尽管Adobe photoshop人脸组成编辑结果的边缘要比复制粘贴的结果要平滑很多,但是仍然存在明显的伪影和颜色失真问题,并且这种交互式方法需要细粒度的手工操作来改善结果的质量。
相反,AttGAN可以以端到端的方式来生成逼真的合成图像,但是自定义的二值属性标签局限于生成单一结果,因此生成图像的多样性受到了限制。从生成结果来看,AttGAN在编辑眼睛、鼻子、嘴等具有明显形变信息的属性时,只能产生细微的变化,难以达到理想的编辑效果。与之相比,基于参考图像的人脸属性编辑方法,ELEGANT可以学习到明显的语义属性,例如张开眼睛或者闭上嘴,但不能学习抽象的形状信息。比如说在编辑鼻子时生成结果没有明显的变化。此外ELEGANT在其他属性无关的区域会产生较大的形变和伪影问题,尤其是多个人脸组成编辑的情况。
与这些方法相比,我们的方法不仅准确学习到了抽象的人脸组成形状,而且较好的保证了生成图像的真实性和自然度。
我们可以实现多模态的编辑结果。基于参考图像的人脸组成编辑提高了生成人脸的多样性和可控性,生成人脸组成的风格可以由任意参考图像指定。如图所示,目标人员组成,例如眼睛、嘴巴可以转换为相应参考图像的风格。如最后一行对人脸嘴部进行编辑时,在整体形状(例如嘴角)以及局部细节(例如部分覆盖的牙齿),两个方面都可以准确的学习参考图像中的相应风格,同时他们可以自然地融入原始图像中,没有观察到明显的颜色失真和伪影问题,这也证明了所提方法的有效性。
我们可以实现混合编辑的结果,将来自多个参考图像的不同人脸组成融合到原始人脸中。如图所示,我们可以观察到只有感兴趣的目标人脸组成被变换为与相应参考组成相同的风格,并自然地融合到背景中,而图像的其余部分保持不变,这表明我们的框架可以在保持原始图像的视觉真实性的同时,合成高多样性和强可控性的人脸图像。
在定量评估中,与其他人脸肖像编辑方法一样,把FID和MS-SSIM作为度量指标。FID用来衡量生成分布和原始分布两个分布之间的相似性,值越低越好。而MS-SSIM则从光照、对比度以及结构三个维度衡量,两个图像之间的相似性,值越高越好。我们与三种方法进行了比较,因为我们的模型以人脸补全作为基本框架,与经典的人脸补全方法,GLCIC方法进行了比较。除此之外,还与基于标签条件的人脸属性编辑方法,AttGAN以及基于参考图像的人脸属性编辑方法,ELEGANT进行了比较。
如表格所示,我们方法的FID度量指标要比其他方法要好。但同时也观察到我们方法的MS-SSIM度量指标低于AttGAN和GLCIC方法。分析相关原因,首先MS-SSIM对亮度对比度和结构敏感,但是对于GLCIC方法来说,它只需要补全缺失区域,对结构或者说人脸组成形状没有任何约束。对于AttGAN来说,它在编辑人脸组成形状变化的属性时,很难观察到明显的变化。因此这两种方法在亮度、对比度和结构上的变化极其有限,MS-SSIM的值自然也就更高。相比之下,我们的方法在原始和参考图像的人脸组成上施加了几何相似性约束,这会极大的改变形状或者结构,甚至影响人的身份特征,相应的在这个度量指标上的值也就更低。
在消融实验中,我们主要分析了上下文损失,风格损失以及感知损失对结果的影响。从定量结果来看,每个损失都对生成图像的质量做出了贡献。从视觉结果来看,我们发现去除上下文损失后,生成图像无法学习到参考图像的相应人员组成形状,这表明上下文损失在形状约束中起了决定性作用。而在去除风格损失和去除感知损失的结果中,出现了颜色失真和明显的伪影问题。比如图中黄框中牙齿区域的黑色阴影,以及鼻子区域肤色不一致现象,这些表明风格损失和感知损失在肤色等外观纹理的一致性上起了一定的作用。综上,三种损失都对最终图像的生成有所贡献。
四、总结
总的来说,该方法打破了已有方法对人脸组成形状变化以及依赖中间表示的局限性,也为人脸肖像编辑拓宽了新的应用前景。比如整容外科手术的可视化,一键拼凑人脸等。
论文链接:
https://www.ijcai.org/Proceedings/2020/70
整理:闫 昊
审稿:邓琪瑶
排版:岳白雪
AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!
请将简历等信息发至yun.he@aminer.cn!
微信联系:AITIME_HY
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注
(直播回放:https://b23.tv/KF3UZ1)
(点击“阅读原文”下载本次报告ppt)
转载:https://blog.csdn.net/AITIME_HY/article/details/113362069