Zyphra 团队发布 Zonos v0.1 的 beta 。
这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。
这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B 参数的混合模型。这些模型以 Apache 2.0 许可证开源发布。
据 Zyphra 评估,Zonos 生成的语音质量可与领先的商业 TTS 提供商(如 ElevenLabs、Cartesia)媲美,甚至更胜一筹。

主要功能与特点:
- 高保真语音克隆:Zonos 能够根据 5 至 30 秒的语音片段进行高保真语音克隆。
- 可调语音特性:支持语速、音调、情绪(如悲伤、愤怒、喜悦等)等多种语音特性的控制。
- 表达性与自然语音生成:Zonos 能够生成非常表达性和自然的语音,支持多种语言,虽然目前以英语为主,但也包含了中文、日语、法语、西班牙语和德语等。

训练与架构:
Zonos 的模型基于 200,000 小时的语音数据进行训练,使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。
DAC 是一种高比特率自动编码器,旨在提高模型的质量,但也增加了预测任务的复杂性。
GitHub地址:
https://github.com/zyphra/zonos