Industry

研究

Client

2024年4月18日

微软发布VASA-1图片和音频生成说话视频

微软这个VASA-1通过照片和声音生成人物说话视频的项目抢的有点离谱。

从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。

项目特点:

✦ 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。

✦ 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。

✦ 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。

✦ 支持表情和姿势的编辑。

✦ 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。

© 2024 GUIZANG, Inc. All rights reserved.