aixiPa Voice Engine 模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音,小样本即可创建情感丰富且逼真的声音。该模型于 2022 年底首次开发,正在支持 ChatGPT 语音朗读和文本转语音 API,已被 HeyGen 等企业用户采用。 由于合成语音的滥用风险,Voice Engine 每段音频都有用于跟踪的隐水印,并且 OpenAI 暂不打算广泛部署和允许个人声音克隆,直到公众意识到深度伪造的挑战。