Zyphra推出开源文本转语音模型，仅需几秒音频即可克隆声音

aixiPa

Zyphra发布了两款开源的文本转语音（TTS）模型Zonos，仅需5秒的样本音频即可克隆用户声音。模型基于1.6亿参数，训练数据超过20万小时，涵盖多种语言和表达方式。其中一款采用纯Transformer架构，另一款结合了Transformer和Mamba架构，后者在生成速度上提升了20%。目前支持中文。

Zyphra｜部署教程