Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors

Zhengfei Kuang, Tianyuan Zhang, Kai Zhang, Hao Tan, Sai Bi, Yiwei Hu, Zexiang Xu, Milos Hasan, Gordon Wetzstein, Fujun Luan·November 26, 2024

Summary

Buffer Anytime 是一种无需配对训练数据的视频深度和法线图估计框架。它利用单张图像先验和时间一致性约束，通过混合损失函数和轻量级时间注意力架构。将此零训练方法应用于领先图像模型，可实现高质量视频缓冲估计，超越需要视频-几何配对训练的方法。Buffer Anytime 是一种零训练策略，让图像模型生成无配对视频数据的视频几何缓冲。它结合图像几何模型知识和光流方法，确保时间和准确性。应用于 Depth Anything V2 和 Marigold-E2E-FT，模型在视频几何估计方面表现出显著改进，超越图像基线模型，与配对数据训练的顶级视频模型相匹敌。

Key findings

Advanced features