Zonos:一个高质量、实时的文本转语音 (TTS) 开源项目!

站长
0 评论
/ /
308 阅读
/
2938 字
15 2025-02

Zyphra 团队发布 Zonos v0.1 的 beta 。

这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆

这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B 参数的混合模型。这些模型以 Apache 2.0 许可证开源发布。

据 Zyphra 评估,Zonos 生成的语音质量可与领先的商业 TTS 提供商(如 ElevenLabs、Cartesia)媲美,甚至更胜一筹。

 

主要功能与特点:

  • 高保真语音克隆:Zonos 能够根据 5 至 30 秒的语音片段进行高保真语音克隆。
  • 可调语音特性:支持语速、音调、情绪(如悲伤、愤怒、喜悦等)等多种语音特性的控制
  • 表达性与自然语音生成:Zonos 能够生成非常表达性和自然的语音,支持多种语言,虽然目前以英语为主,但也包含了中文、日语、法语、西班牙语和德语等。

 

训练与架构:

Zonos 的模型基于 200,000 小时的语音数据进行训练,使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。

DAC 是一种高比特率自动编码器,旨在提高模型的质量,但也增加了预测任务的复杂性。

GitHub地址:
https://github.com/zyphra/zonos

#AI开源项目推荐##github##AI技术##开源TTS#