由通义实验室研发的AI模型EMO已在通义App上线,供用户免费使用。EMO是一个音频驱动的AI肖像视频生成系统,能够根据输入的参考图像和语音音频生成具有表现力的面部表情和头部姿势视频。用户可以选择多种模板,如热门歌曲或网络热梗,上传肖像照片后,EMO将合成相应的唱歌视频。目前,App提供了80多个模板,但不支持自定义音频。
EMO的主要特点包括音频驱动的视频生成、高表现力和逼真度、无缝帧过渡、身份保持、稳定的控制机制、灵活的视频时长以及跨语言和风格的适应能力。此外,EMO的官方项目主页、研究论文和GitHub链接均已提供,模型和源码将待开源。
项目主页 | GitHub(待开源) | 通义App(iOS) | Arxiv