aixiPa Zyphra发布了两款开源的文本转语音(TTS)模型Zonos,仅需5秒的样本音频即可克隆用户声音。模型基于1.6亿参数,训练数据超过20万小时,涵盖多种语言和表达方式。其中一款采用纯Transformer架构,另一款结合了Transformer和Mamba架构,后者在生成速度上提升了20%。目前支持中文。 Zyphra|部署教程