5月6日消息,字节跳动旗下火山引擎Doubao-Seed-2.0-lite模型升级新版本,作为豆包大模型家族首款全模态理解模型,该版本支持视频、图像、音频、文本的原生统一理解,Agent、Coding与GUI能力同步升级。新版本不止能看懂图文还能听懂世界,在视觉理解能力上大幅提升,尤其在物理、医疗等高阶学科推理上表现超越前代,细粒度感知与具身理解达到SOTA水平,适合企业在高价值场景规模化部署。
Doubao-Seed-2.0-lite新版本融入语音理解后,能同时理解多种输入模态并完成跨模态联合推理,直接处理复杂业务需求。在视频理解场景下,模型联合分析画面与音频信息,精准辨析视听一致性,支持根据自然语言指令定位视频中特定事件发生的时间点,并能跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理。
此外,新版本模型在音频上支持19个语种的精准语音转写、中英文与其他14个语种互译,并能深度捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。在Agent和Coding能力上,新版本显著提升多轮、多步、多约束的用户指令遵循度,增强任务反思推理与多Agent协同调度能力,适配深度搜索与Skill动态调用,提升Coding能力覆盖前端页面、3D场景与游戏开发,胜任前后端深度开发。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。