4月24日,小米公司宣布推出MiMo-V2.5-TTSSeries与MiMo-V2.5-ASR,这是一套面向Agent时代的全链路语音模型系列,旨在提升语音识别与合成的能力。MiMo-V2.5-TTSSeries包含三款模型,已在小米MiMo开放平台上线,并提供限时免费使用。这些模型具备统一的风格指令遵循、音频标签控制与文本理解能力,能够满足不同场景下的语音表达需求。
MiMo-V2.5-TTSSeries的三款模型分别针对不同的创作需求:MiMo-V2.5-TTS提供多款高质量音色并支持精细化控制;MiMo-V2.5-TTS-VoiceDesign允许快速定义并生成新音色;MiMo-V2.5-TTS-VoiceClone则能高保真复刻目标音色。此外,MiMo-V2.5-ASR模型正式开源,其在中英双语、方言识别、Code-Switch、强噪音等复杂场景下表现出色,为Agent提供精准的语音转写能力。
MiMo-V2.5-ASR的核心特点包括对中文方言的支持、在复杂英文场景中的领先表现、中英Code-Switch的流畅转录、中英文歌曲歌词的高精度识别、在强噪音场景下的鲁棒识别能力、多人对话场景的准确转录以及对知识密集型内容的精准识别。这些功能展现了MiMo-V2.5-ASR在跨场景、跨语种中的稳定优势。用户可以在XiaomiMiMoAPI开放平台免费体验这些功能,同时MiMo-V2.5-ASR的模型权重和代码也已开源,供开发者和研究者使用或进行二次开发。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。