字节跳动发布豆包全模态理解模型
http://www.5ipr.cn   2026-05-08 10:11:49   太平洋科技   

字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2 0-lite。该模型支持视频、图像、音频、文本原生统一理解,并升级了Agent、Coding与GUI能力。
据悉,字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite。该模型支持视频、图像、音频、文本原生统一理解,并升级了Agent、Coding与GUI能力。在同等算力成本下,是企业大规模部署全模态推理任务的更优选择。
 
新版本在视觉理解能力上大幅提升,在物理、医疗等高阶学科推理上表现优于2月发布的Doubao-Seed-2.0-pro。在细粒度感知与具身理解等关键领域达到SOTA水平。融入语音理解后,模型可直接处理音画结合的复杂业务需求,支持视频中特定事件时间点定位和多步逻辑推理。
 
模型在语音识别、翻译等音频理解基准上优于Gemini-3.1-Pro。多轮、多步指令遵循度显著提升,增强任务反思推理与多Agent协同调度能力。Coding能力全面覆盖前端页面、3D场景与游戏开发,GUI能力实现界面识别与操作闭环。
 
模型可应用于电竞游戏、在线教育、海外电商等多个场景。例如在电竞游戏中,模型可分析比赛画面与语音指挥,生成高光/失误图谱与时间轴复盘。在线教育场景中,模型可识别教学状态并生成课堂表现报告。海外电商场景中,模型可自主搜索、拆解并生成多语言推广视频。

TAG:

分享到:
收藏