Zonos：一个高质量、实时的文本转语音 (TTS) 开源项目！

Zyphra 团队发布 Zonos v0.1 的 beta 。

这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型，支持 高保真语音克隆。

这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型：一个是 1.6B 参数的 transformer 模型，另一个是 1.6B 参数的混合模型。这些模型以 Apache 2.0 许可证开源发布。

据 Zyphra 评估，Zonos 生成的语音质量可与领先的商业 TTS 提供商（如 ElevenLabs、Cartesia）媲美，甚至更胜一筹。

主要功能与特点：

训练与架构：

Zonos 的模型基于 200,000 小时的语音数据进行训练，使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。

DAC 是一种高比特率自动编码器，旨在提高模型的质量，但也增加了预测任务的复杂性。

GitHub地址：
https://github.com/zyphra/zonos

小包资源网