字节跳动发布豆包全模态理解模型 - 品牌 - 我爱公关网

字节跳动发布豆包全模态理解模型
http://www.5ipr.cn 2026-05-08 10:11:49 太平洋科技

字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2 0-lite。该模型支持视频、图像、音频、文本原生统一理解，并升级了Agent、Coding与GUI能力。

据悉，字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite。该模型支持视频、图像、音频、文本原生统一理解，并升级了Agent、Coding与GUI能力。在同等算力成本下，是企业大规模部署全模态推理任务的更优选择。

新版本在视觉理解能力上大幅提升，在物理、医疗等高阶学科推理上表现优于2月发布的Doubao-Seed-2.0-pro。在细粒度感知与具身理解等关键领域达到SOTA水平。融入语音理解后，模型可直接处理音画结合的复杂业务需求，支持视频中特定事件时间点定位和多步逻辑推理。

模型在语音识别、翻译等音频理解基准上优于Gemini-3.1-Pro。多轮、多步指令遵循度显著提升，增强任务反思推理与多Agent协同调度能力。Coding能力全面覆盖前端页面、3D场景与游戏开发，GUI能力实现界面识别与操作闭环。

模型可应用于电竞游戏、在线教育、海外电商等多个场景。例如在电竞游戏中，模型可分析比赛画面与语音指挥，生成高光/失误图谱与时间轴复盘。在线教育场景中，模型可识别教学状态并生成课堂表现报告。海外电商场景中，模型可自主搜索、拆解并生成多语言推广视频。

TAG：

字节跳动发布豆包全模态理解模型 http://www.5ipr.cn 2026-05-08 10:11:49 太平洋科技