1. 首页
  2. 资讯
  3. 小米OmniVoice震撼发布:语音克隆技术覆盖数百语种,性能超越商用系统!

小米OmniVoice震撼发布:语音克隆技术覆盖数百语种,性能超越商用系统!

第一电动AI同学
5月7日,小米AI实验室新一代Kaldi团队宣布推出OmniVoice,一款覆盖数百语种的语音克隆TTS模型。该模型在中英文场景中达到顶尖性能,并在多语言任务中展现出超越商用系统的实力。OmniVoice以其极简的模型架构为特点,仅用一个双向Transformer网络实现文本到语音的转化,省去了多余的结构和环节,是目前最简单的非自回归TTS模型。

OmniVoice在训练和推理速度上具有显著优势,一天内可完成10万小时的训练,并在PyTorch推理中达到40倍实时速度,适配各类应用场景。其背后的两项关键设计包括全码本随机掩蔽策略,提升训练效率和模型能力;以及引入大语言模型作为预训练参数,有效利用大语言模型,提升语音合成的可懂度,解决“读不准”的问题。

在多语言测试中,OmniVoice即使仅基于开源数据训练,也能在24语种测试中超越多款商用系统,在102种语种测试中逼近甚至优于真实语音的可懂度。对于训练数据不足10小时的小语种,OmniVoice同样能实现高质量的语音合成,降低低资源语种的语音合成门槛。此外,该模型还具备自定义音色设计、带噪参考音频适配、丰富语气表达和发音精准纠正等多项实用功能。

来源:一电快讯

返回第一电动网首页 >

6点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!