飞道的博客

模仿人类自动上色!爱奇艺提出动画上色AI模型,每张只需0.7秒 | WACV 2021

272人阅读  评论(0)

先来看一张特别的“连连看”。

图一

上图这5帧幽灵公主的上色画面中,你能找出哪张图是AI画的,哪张是人类画师画的吗?

 

被难倒了吧?实际上,上边的一段动画上色图中,只有第一帧画面是人类画师画的,后面的画面都是AI根据第一帧生成的。

这是来自爱奇艺AI创作团队研究人员的最新成果——是基于镜头中的参考帧来进行上色的一种方法,简单来说,这个新模型仅根据一帧的颜色图参考,就能对片段中的其他线稿进行自动着色,完成一张最快只需要0.7秒!

现今,二次元文化已经从一个小众文化变成了流行的大众文化,看动画已经成为当代年轻人娱乐生活中的重要部分。但如今的动画制作的时间成本仍然比较费时,特别是上色部分,画师需要重复地对动画中人物动作的每一帧逐一进行上色,需要耗费大量的人力和时间。因此,爱奇艺提出一种新的动画上色模型来用于动画自动着色,针对对动画参考帧进行上色,以提高二维动画制作的效率。

名为《Line Art Correlation Matching Feature Transfer Network for Automatic Animation Colorization》相关研究论文已经被最新WACV 2021[1]峰会收录。WACV全称IEEE Winter Conference on Applications of Computer Vision,是全球计算机视觉领域的知名盛会。


论文链接????

https://arxiv.org/pdf/2004.06718.pdf

虽然我们都很崇拜宫崎骏或者新海城之类的动画大师,也为他们的动画作品的画面和情节的精彩感到惊艳,但二维动画制作背后充满了艰辛:传统动画上色流程长、人力耗费多。

二维动画制作的上色流程大概可以分为:

1.高级画师设计关键帧线稿;

2.中级画师补充中间动作帧线稿;

3.上色人员对片段中每一帧进行上色。

尤其是第三步属于重复的非创作性的工作,如果能用AI替代可以节省大量劳力和制作时间。

爱奇艺的研究人员发现,动画帧之间存在着很强的相关性,比如追逐的幽灵公主相邻帧间的结构都有相似性,只是身体位置和动作发生了变化,如果能获得帧间的相关性,我们就可以用一帧上好色的图片将颜色变换到其他待上色帧。另一种理解方式是对齐,我们需要将参考图的颜色对齐到未上色的线稿上。

研究者将这类问题建模成image analogy[3]问题,已知域中的图片和域中的图片,求域中的图片。在这个任务里可认为是参考帧的线稿和上色图,代表待上色线稿,表示待求的对应的上色帧。作者设计了一个名为CMFT的结构来将参考帧的颜色特征变换到待上色帧,这个结构也可以用到其他image analogy问题上。

CMFT模块首先计算线稿特征 和的相关性,再利用线稿特征的相关性将颜色特征变换得到对的近似,整体模块类似于self-attention,但其出发点是为了做特征变换,输入来自于不同域和图片的特征。

相关性矩阵的计算:

首先,进行同域的线稿特征间的逐像素相似度计算,获得像素间相似度矩阵

特征转换:

然后利用域作为基,相关性作为权重来重构域空间中的表达,其中中的每一个像素都通过中的所有特征像素来计算。这样通过CMFT模块,可以近似得到域特征,这种域特征可作为参考加入到解码器进行解码得到的估计。

图二. CMFT计算过程

爱奇艺的研究者将CMFT模块嵌入到上色生成网络中,网络简化图如图三,其中为参考色图,对应的线稿,为待上色帧的线稿,对应的待求上色图。网络中包含3个编码器和一个解码器,为线稿编码器,为色图编码器,为主干网络编码器,主干特征和CMFT得到的参考特征进行融合后输入主干解码器进行解码,得到色图估计。

图三. 网络结构概览

如图四,实际的网络结构比图三更复杂,作者将CMFT 模块以coarse-to-fine的方式嵌入到生成网络中,逐步对匹配的特征进行细化和修正,最终得到上色结果。通过CMFT转换的小尺度颜色特征在经过上采样之后可以丰富下一个尺度的CMFT的输入特征,使用丰富后的特征来进行相关性计算,这样使得高层特征的计算可直接参考到底层特征的匹配结果,在逐步提高匹配细粒度的同时保证整体匹配的稳定性。另外,作者还引入了线稿语义网络()来丰富第一层的线稿特征匹配。

图四. 网络结构

数据获取

为了使得模型适应更多大运动的情况,文章选取相同镜头中间隔较远的两帧组成训练对进行训练,其中一帧作为参考帧,另外一帧作为待预测帧。另外,为了增加数据多样性,文章采用步长为5的滑窗在镜头中依次选取训练对。

文章只使用了3部动画电影进行数据生产,最终通过以上方法获得60k对的数据帧用于最终训练。

效果对比

文章对LCMFTN模型在7部真实动画电影数据上进行测试,分别在小运动和大运动情况下对连续片段上色进行了对比,在PSNR和SSIM指标上效果均明显优于目前的主流state-of-the-art 方法(包括TCVC[4],DeepAnalogy[2],Pix2Pix[5]等)

总结展望

文章提出基于镜头中的参考帧来进行上色的方法,其实更智能的方式是根据角色进行上色,算法自动识别线稿角色的语义,然后进行相应的上色,连参考帧的创作都可以省去。另外,除了动画,漫画的制作也存在大量重复的上色工作,类似的技术可以应用到漫画上色上进行探索。

如果要把这些技术应用起来,还有很多问题需要研究人员解决,比如数据的生产和适应性,目前文章使用的数据都是来自于宫崎骏的动画,能否适应到其他模型,需要更多实验;另外,直接从动画中提取帧进行训练,会存在大量的背景干扰,数据上需要想更多办法进行清理和丰富。学术界的文章应用到工业界都会有大量困难需要解决,特别是对于动漫上色任务,这需要改变画师们的创作习惯,需要平衡创作习惯和技术可能性来实现一个好的上色模型,算法研究者需要和动漫创作者进行紧密的交流协作。

爱奇艺的智能上色引擎,已经实际落地到动态漫产业中的AI,相较于纯人工上色,改变传统工作方式,把创意交给人类,把重复交给AI。智能上色引擎预计可在动态漫制作上色环节中,节省约30%的人力。

最后,对于专业上色画师而言,这样的AI或许也能够提供参考,激发新的灵感,甚至衍生出更多更有意思的玩法。未来,期待越来越多的技术能应用到智能创作中,毕竟每个人都有艺术创作的欲望,只是可能没有创作技法,如果哪一天普通人也能通过AI快速进行艺术内容创作,相信大家都会愿意尝试。

参考文献:

[1] https://arxiv.org/pdf/2004.06718.pdf

[2] Liao, Jing, et al. "Visual attribute transfer through deep image analogy." arXiv preprint arXiv:1705.01088 (2017).

[3]  Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 327–340, 2001.

[4] Harrish Thasarathan, Kamyar Nazeri, and Mehran Ebrahimi. Automatic temporally coherent video colorization. In 2019 16th Conference on Computer and Robot Vision (CRV), pages 189–194. IEEE, 2019

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1125–1134, 2017.

[6]http://vr.sina.com.cn/news/hz/2020-11-16/doc-iiznezxs2137644.shtml

也许你还想看

通用AI元素识别在UI自动化测试的最佳实践

学术派 | 基于AI的视频精彩度分析技术

 扫一扫下方二维码,更多精彩内容陪伴你!


转载:https://blog.csdn.net/weixin_38753262/article/details/111399238
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场