5月20日,通义实验室宣布,通义千问团队推出了Qwen3.5-LiveTranslate-Flash实时语音翻译模型,该模型在语种覆盖、延迟控制和音色保留等方面取得显著进步,旨在解决跨境直播、跨国会议等场景中的实时同传难题。Qwen3.5-LiveTranslate-Flash支持60种语言的音频输入和文字输出,以及29种语言的音频输出,端到端字均延迟低至2.8秒,同时能够保留说话人的原声特征。
该模型在输入音频和输出文本语种上从18种提升至60种,输出音频从10种提升至29种,覆盖更多国家与区域的语言互译组合,满足多种多语同传需求。引入的全新ReadableUnit实时翻译技术,在保证译文可读性与语义连贯性的同时,实现更激进的流式输出。此外,模型支持Real-timeVoiceCloning技术,在同传过程中自动捕捉并复刻说话人音色特征,保持“同一个人”的声音质感与情绪表现力。内置动态热词引擎,支持1000个自定义词条,对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译,降低技术发布会、医疗/法律/金融会议、企业内训中术语翻错、名字听错的风险。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。