飞道的博客

视频中的自监督学习:Predicting Motion and Appearance Statistics

281人阅读  评论(0)

Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics

2019年的CVPR文章,作者所设计的pretext task是由运动、颜色衍生出来的统计量(具体来说是最大的动作位置以及方向,颜色改变最大 / 最小的位置以及颜色的值),在文章的Introduction中作者提到了动作的表示在人的视觉系统中是基于一系列learned patterns,文章的思路跟这息息相关。

The idea is inspired by Giese and Poggio’s work on human visual system [14], in which the representation of motion is found to be based on a set of learned patterns.

These patterns are encoded as sequences of snapshots of body shapes by neurons in the form pathway, and by sequences of complex optic flow patterns in the motion pathway.

一、整体框架

  1. 网络的motion branch:首先是提取光流,然后计算了x y方向上的梯度以消除camera motion;为了统计帧上最大的动作出现在什么位置,作者还把图片分成了好几个block,运用了不同的pattern(如上图所示3种pattern)。
    然后,以块为单位,计算像素的动作magnitude并求平均——这里应该就是所有帧的光流求平均,数值最大的位置即为label;同时在最大的位置对每个像素的动作方向做sum,策略是360°方向分成8份,出现最多的方向就是dominant orientation的label。
    最后,作者还弄了个label预测最大的motion frame。

总的来说是用光流图去算这个label,并且会有水平、竖直两个分量,故在一种划分图片的pattern中,label有2(两个分量)x 2(动作最大的位置和动作的方向) = 4个。

  1. Apperance branch:整体策略是以块为单位求RGB值变化的IoU,IoU大的颜色变化就小,and vice versa。根据IoU确定颜色变化最大、最小的位置,以及对应的值(作者说也把3D的RGB空间划分成了8块,块的编号作为dominant color的值,但没具体说咋分的),作为4个label。
    同样的,作者也求了一个整个视频的 dominant color作为label。

  2. 从上图能够看出,自监督的时候,对于一个视频整个网络的label是motion branch的14维,和apperance branch的13维,用MSE loss来训练。

二、训练策略



转载:https://blog.csdn.net/weixin_42443072/article/details/115645112
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场