学习内容无关的视频时间一致性

Posted on 2021-06-13 Edited on 2021-06-14

学习领域无关的视频时间一致性

将图像处理算法独立地应用于视频的每一帧，随着时间的推移，常常会导致一些不一致的结果。

本文提出了一种基于深度递归网络的视频时间一致性增强算法，我们的方法将原始视频和每帧处理过的视频作为输入，以去除视频中的闪动。

我们通过最小化短期和长期的时间损失以及感知损失来训练所提出的网络，以便与处理的帧在时间一致性和感知相似性之间取得平衡。在测试时，我们的模型不需要计算光流，因此即使对于高分辨率的视频也能实现实时速度。我们表明，我们的单一模型可以处理多个不同的任务，包括但不限于艺术风格转换、增强、着色、图像到图像的转换和内在图像分解。广泛的客观评价和主题研究证明，提出的方法优于最先进的方法对各种类型的视频。

Fig2.提出模型总览

3.1循环神经网络

上图显示了本文模型的总览，原视频{I_t|t = 1...T},处理后的帧序列{P_t|t = 1...T}，输出帧{O_t|t = 1...T}

为了有效地处理任意长度的视频，我们开发了一个图像变换网络作为循环卷积网络，在线生成输出帧。设置第一个输出帧O1 = P1。在每一个时间步中，网络学会生成一个时间上与Ot−1一致的输出帧Ot。然后，当前的输出帧作为下一个时间步骤的输入。为了捕捉视频的时空相关性，作者将ConvLSTM层集成到图像变换网络中。

Fig.3 时间一致性损失本文对相邻帧应用短时时间一致性损失，对第一帧和所有的输出帧之间施加长时时间一致性损失。

3.2损失函数

本文希望在保留图像内容本身的相似性的基础上尽量减少闪烁，因此损失函数由两部分组成：

（1）输出帧和被处理帧之间的感知内容损失

感知损失是从一个预训练好的VGG分类网络得到的。O_t⁽ⁱ⁾表示在t时刻的三通道RGB图像输出，N是该帧内的像素总数，Φ_l(·)表示在VGG-19网络Φ第l层的特征激活。

（2）输出帧之间的短期和长期时间损失。

时间损失被表示为输出帧之间的扭曲误差。 Oˆ_t−1表示 O_t−1经过光流F_t=>t-1的扭曲后取得的图像，M_t=>t-1表示可见性掩膜。

长时时间一致性损失也是相同的形式，只不过它们是在第一个输出帧与其他输出帧之间计算的。

整体的损失如下：

3.3图像转换网络

我们的图像变换网络的输入是将当前处理的帧Pt，之前的输出帧Ot - 1，以及当前和之前未处理的帧It, It - 1串联起来。由于输出帧通常看起来与当前处理的帧相似，我们训练网络预测残差而不是实际的像素值，即Ot = Pt + F(Pt)，其中F为图像变换网络。图像变换网络由两个strided convolutional layer，一个B残差网络和一个ConvLSTM层构成，结构如下图所示。

三、数据集以及结果

数据集来自DAVIS-2017 dataset，与最先进的结果比较如下，原视频标注为V_p, [6]为Blind video temporal consistency. ACM TOG (2015)，比较项为时间扭曲误差（ temporal warping error）

感知距离（perceptual distance）的比较结果如下

在风格转换上的视觉比较：