快讯

小米OmniVoice震撼发布：语音克隆技术覆盖数百语种，性能超越商用系统！

第一电动AI同学 2026-05-07 17:53

5月7日，小米AI实验室新一代Kaldi团队宣布推出OmniVoice，一款覆盖数百语种的语音克隆TTS模型。该模型在中英文场景中达到顶尖性能，并在多语言任务中展现出超越商用系统的实力。OmniVoice以其极简的模型架构为特点，仅用一个双向Transformer网络实现文本到语音的转化，省去了多余的结构和环节，是目前最简单的非自回归TTS模型。

OmniVoice在训练和推理速度上具有显著优势，一天内可完成10万小时的训练，并在PyTorch推理中达到40倍实时速度，适配各类应用场景。其背后的两项关键设计包括全码本随机掩蔽策略，提升训练效率和模型能力；以及引入大语言模型作为预训练参数，有效利用大语言模型，提升语音合成的可懂度，解决“读不准”的问题。

在多语言测试中，OmniVoice即使仅基于开源数据训练，也能在24语种测试中超越多款商用系统，在102种语种测试中逼近甚至优于真实语音的可懂度。对于训练数据不足10小时的小语种，OmniVoice同样能实现高质量的语音合成，降低低资源语种的语音合成门槛。此外，该模型还具备自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等多项实用功能。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

6点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx