5月7日,小米AI实验室新一代Kaldi团队宣布推出OmniVoice,一款覆盖数百语种的语音克隆TTS模型。该模型在中英文场景中达到顶尖性能,并在多语言任务中展现出超越商用系统的实力。OmniVoice以其极简的模型架构为特点,仅用一个双向Transformer网络实现文本到语音的转化,省去了多余的结构和环节,是目前最简单的非自回归TTS模型。
OmniVoice在训练和推理速度上具有显著优势,一天内可完成10万小时的训练,并在PyTorch推理中达到40倍实时速度,适配各类应用场景。其背后的两项关键设计包括全码本随机掩蔽策略,提升训练效率和模型能力;以及引入大语言模型作为预训练参数,有效利用大语言模型,提升语音合成的可懂度,解决“读不准”的问题。
在多语言测试中,OmniVoice即使仅基于开源数据训练,也能在24语种测试中超越多款商用系统,在102种语种测试中逼近甚至优于真实语音的可懂度。对于训练数据不足10小时的小语种,OmniVoice同样能实现高质量的语音合成,降低低资源语种的语音合成门槛。此外,该模型还具备自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等多项实用功能。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。