Industry

研究

Client

2024年4月16日

Ctrl-Adapter 为视频生成的 Controlnet

Ctrl-Adapter 一个专门为了视频生成做的Controlnet。

为各种图像及视频扩散模型增添丰富的控制功能,并优化视频的时间对齐。 Ctrl-Adapter 具备包括图像控制、视频控制、稀疏帧视频控制、多条件控制、与各种基础模型的兼容、适应新的控制条件和视频编辑等多项能力。

大致思路:

训练了适配层,将 ControlNet 的预训练特征与不同的图像/视频扩散模型融合,同时冻结了 ControlNets 和扩散模型的参数。

Ctrl-Adapter 结合了时间和空间模块,有效保证视频内容的连贯性。 此外,为了更好地适应不同的基础模型和稀疏控制,还引入了潜在跳过技术和逆时间步采样策略。

Ctrl-Adapter 通过简单地对 ControlNet 的输出进行加权平均,实现了从多个条件进行控制。

测试结果:

在与多种图像和视频扩散模型(如SDXL、Hotshot-XL、I2VGen-XL和SVD)的实验中,

Ctrl-Adapter 在 COCO 数据集上实现了与 ControlNet 相当的图像控制效果。 而在视频控制方面,它不仅超越了所有基线模型,在 DAVIS 2017 数据集上还达到了最高的准确率,且计算成本大幅降低(在不到10个GPU小时内完成)。

© 2024 GUIZANG, Inc. All rights reserved.