模仿人类自动上色！爱奇艺提出动画上色AI模型，每张只需0.7秒 | WACV 2021

2021-01-18 19:33 459人阅读评论(0)

先来看一张特别的“连连看”。

图一

上图这5帧幽灵公主的上色画面中，你能找出哪张图是AI画的，哪张是人类画师画的吗？

被难倒了吧？实际上，上边的一段动画上色图中，只有第一帧画面是人类画师画的，后面的画面都是AI根据第一帧生成的。

这是来自爱奇艺AI创作团队研究人员的最新成果——是基于镜头中的参考帧来进行上色的一种方法，简单来说，这个新模型仅根据一帧的颜色图参考，就能对片段中的其他线稿进行自动着色，完成一张最快只需要0.7秒！

现今，二次元文化已经从一个小众文化变成了流行的大众文化，看动画已经成为当代年轻人娱乐生活中的重要部分。但如今的动画制作的时间成本仍然比较费时，特别是上色部分，画师需要重复地对动画中人物动作的每一帧逐一进行上色，需要耗费大量的人力和时间。因此，爱奇艺提出一种新的动画上色模型来用于动画自动着色，针对对动画参考帧进行上色，以提高二维动画制作的效率。

名为《Line Art Correlation Matching Feature Transfer Network for Automatic Animation Colorization》相关研究论文已经被最新WACV 2021[1]峰会收录。WACV全称IEEE Winter Conference on Applications of Computer Vision，是全球计算机视觉领域的知名盛会。

论文链接????

https://arxiv.org/pdf/2004.06718.pdf

虽然我们都很崇拜宫崎骏或者新海城之类的动画大师，也为他们的动画作品的画面和情节的精彩感到惊艳，但二维动画制作背后充满了艰辛：传统动画上色流程长、人力耗费多。

二维动画制作的上色流程大概可以分为：

1.高级画师设计关键帧线稿；

2.中级画师补充中间动作帧线稿；

3.上色人员对片段中每一帧进行上色。

尤其是第三步属于重复的非创作性的工作，如果能用AI替代可以节省大量劳力和制作时间。

爱奇艺的研究人员发现，动画帧之间存在着很强的相关性，比如追逐的幽灵公主相邻帧间的结构都有相似性，只是身体位置和动作发生了变化，如果能获得帧间的相关性，我们就可以用一帧上好色的图片将颜色变换到其他待上色帧。另一种理解方式是对齐，我们需要将参考图的颜色对齐到未上色的线稿上。

研究者将这类问题建模成image analogy[3]问题，已知域中的图片和域中的图片，求域中的图片。在这个任务里可认为是参考帧的线稿和上色图，代表待上色线稿，表示待求的对应的上色帧。作者设计了一个名为CMFT的结构来将参考帧的颜色特征变换到待上色帧，这个结构也可以用到其他image analogy问题上。

CMFT模块首先计算线稿特征和的相关性，再利用线稿特征的相关性将颜色特征变换得到对的近似，整体模块类似于self-attention，但其出发点是为了做特征变换，输入来自于不同域和图片的特征。

相关性矩阵的计算：

首先，进行同域的线稿特征间的逐像素相似度计算，获得像素间相似度矩阵；

特征转换：

然后利用域作为基，相关性作为权重来重构在域空间中的表达，其中中的每一个像素都通过中的所有特征像素来计算。这样通过CMFT模块，可以近似得到域特征，这种域特征可作为参考加入到解码器进行解码得到的估计。

图二. CMFT计算过程

爱奇艺的研究者将CMFT模块嵌入到上色生成网络中，网络简化图如图三，其中为参考色图，为对应的线稿，为待上色帧的线稿，为对应的待求上色图。网络中包含3个编码器和一个解码器，为线稿编码器，为色图编码器，为主干网络编码器，主干特征和CMFT得到的参考特征进行融合后输入主干解码器进行解码，得到色图估计。

图三. 网络结构概览

如图四，实际的网络结构比图三更复杂，作者将CMFT 模块以coarse-to-fine的方式嵌入到生成网络中，逐步对匹配的特征进行细化和修正，最终得到上色结果。通过CMFT转换的小尺度颜色特征在经过上采样之后可以丰富下一个尺度的CMFT的输入特征，使用丰富后的特征来进行相关性计算，这样使得高层特征的计算可直接参考到底层特征的匹配结果，在逐步提高匹配细粒度的同时保证整体匹配的稳定性。另外，作者还引入了线稿语义网络（）来丰富第一层的线稿特征匹配。

图四. 网络结构

数据获取

为了使得模型适应更多大运动的情况，文章选取相同镜头中间隔较远的两帧组成训练对进行训练，其中一帧作为参考帧，另外一帧作为待预测帧。另外，为了增加数据多样性，文章采用步长为5的滑窗在镜头中依次选取训练对。

文章只使用了3部动画电影进行数据生产，最终通过以上方法获得60k对的数据帧用于最终训练。

效果对比

文章对LCMFTN模型在7部真实动画电影数据上进行测试，分别在小运动和大运动情况下对连续片段上色进行了对比，在PSNR和SSIM指标上效果均明显优于目前的主流state-of-the-art 方法（包括TCVC[4]，DeepAnalogy[2]，Pix2Pix[5]等）

总结展望

文章提出基于镜头中的参考帧来进行上色的方法，其实更智能的方式是根据角色进行上色，算法自动识别线稿角色的语义，然后进行相应的上色，连参考帧的创作都可以省去。另外，除了动画，漫画的制作也存在大量重复的上色工作，类似的技术可以应用到漫画上色上进行探索。

如果要把这些技术应用起来，还有很多问题需要研究人员解决，比如数据的生产和适应性，目前文章使用的数据都是来自于宫崎骏的动画，能否适应到其他模型，需要更多实验；另外，直接从动画中提取帧进行训练，会存在大量的背景干扰，数据上需要想更多办法进行清理和丰富。学术界的文章应用到工业界都会有大量困难需要解决，特别是对于动漫上色任务，这需要改变画师们的创作习惯，需要平衡创作习惯和技术可能性来实现一个好的上色模型，算法研究者需要和动漫创作者进行紧密的交流协作。

爱奇艺的智能上色引擎，已经实际落地到动态漫产业中的AI，相较于纯人工上色，改变传统工作方式，把创意交给人类，把重复交给AI。智能上色引擎预计可在动态漫制作上色环节中，节省约30%的人力。

最后，对于专业上色画师而言，这样的AI或许也能够提供参考，激发新的灵感，甚至衍生出更多更有意思的玩法。未来，期待越来越多的技术能应用到智能创作中，毕竟每个人都有艺术创作的欲望，只是可能没有创作技法，如果哪一天普通人也能通过AI快速进行艺术内容创作，相信大家都会愿意尝试。

参考文献：

[1] https://arxiv.org/pdf/2004.06718.pdf

[2] Liao, Jing, et al. "Visual attribute transfer through deep image analogy." arXiv preprint arXiv:1705.01088 (2017).

[3] Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 327–340, 2001.

[4] Harrish Thasarathan, Kamyar Nazeri, and Mehran Ebrahimi. Automatic temporally coherent video colorization. In 2019 16th Conference on Computer and Robot Vision (CRV), pages 189–194. IEEE, 2019

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1125–1134, 2017.

[6]http://vr.sina.com.cn/news/hz/2020-11-16/doc-iiznezxs2137644.shtml

也许你还想看

通用AI元素识别在UI自动化测试的最佳实践

学术派 | 基于AI的视频精彩度分析技术

扫一扫下方二维码，更多精彩内容陪伴你！