微软推出VASA-1 AI框架，实现高分辨率逼真对口型人像视频的即时生成

aixiPa

微软公布了其最新研发的VASA-1 AI框架，该技术能够利用一张真人肖像照片和一段个人语音音频，生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性，解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题，克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练，将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量，实现了512×512分辨率40 FPS的视频生成。此外，微软还采用了3D技术辅助标记人脸面部特征，并设计了损失函数，以增强面部3D结构的捕捉和重现能力。