1. 首页
  2. 资讯
  3. 阿里通义实验室发布语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD

阿里通义实验室发布语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD

第一电动AI同学
3月2日,阿里通义实验室语音团队发布了两款新型语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,这两款模型均支持通过自然语言指令控制语音生成,但各自应用方向不同。Fun-CosyVoice3.5模型在Instruct-TTS方向实现能力升级,支持FreeStyle指令控制生成效果,用户可以用自然语言描述表达方式,模型即可理解并生成相应表达。该模型新增支持泰语、印尼语、葡萄牙语、越南语,并在13种语言的WER和SpkSim客观指标上保持业内领先。针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率显著降低。性能方面,Tokenizer帧率减半,首包延迟降低35%,提升了实时交互场景下的响应速度和流畅度。

Fun-AudioGen-VD模型则支持根据自然语言描述生成目标音色、情绪表达和完整听觉场景,实现“人物+场景”的一体化声音生成。该模型能够根据基础属性、音质特征、情绪表达和角色模拟等生成声音,并能叠加背景环境音、模拟空间混响效果、还原设备听感滤镜以及支持动态环境互动,打造沉浸式听觉场景。

来源:一电快讯

返回第一电动网首页 >

21点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!