微软公布了其最新研发的VASA-1 AI框架,该技术能够利用一张真人肖像照片和一段个人语音音频,生成精确且逼真的对口型视频。这项技术特别注重面部表情和头部动作的自然性,解决了以往面部生成技术中存在的僵硬和缺乏说服力的问题,克服了恐怖谷现象。VASA-1框架通过扩散Transformer模型进行面部动态和头部运动的训练,将嘴唇动作、表情、眼睛注视和眨眼等行为视为单一潜在变量,实现了512×512分辨率40 FPS的视频生成。此外,微软还采用了3D技术辅助标记人脸面部特征,并设计了损失函数,以增强面部3D结构的捕捉和重现能力。