豆包大模型家族全新升级，视觉理解模型可解题、优化作文

2024-12-19 08:37:11发布来源：多知作者：王上

　　多知12月19日消息，字节跳动18日在“火山引擎Force大会”上，带来豆包大模型家族全新升级。

　　会上透露，豆包大模型12月日均tokens使用量超过4万亿，较5月发布时期增长超过33倍。

　　tokens调用规模化增长，且在不同场景中都有应用。比如信息处理场景，最近3个月豆包大模型调用量增长了39倍，帮助企业更好的分析和处理内外部数据;在客服与销售场景，调用量增长16倍，帮助企业更好的服务客户，扩大销售；在硬件终端场景，增长13倍，AI工具增长9倍。

　　本次大会上，火山引擎正式发布了豆包·视觉理解模型，用户可以同时输入文本和图像相关的问题，模型能够综合理解并给出准确的回答。

　　根据介绍，豆包·视觉理解模型能力包括：

　　更强的内容识别能力：不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。

　　更强的理解和推理能力：不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算。

　　更细腻的视觉描述能力：可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作。

　　基于以上能力，豆包·视觉理解模型在教育、旅游、电商等场景有着广泛的应用。如在教育场景中，为学生优化作文、科普知识、儿童陪伴等；在旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识……

　　火山引擎还宣布，豆包视觉理解模型每千tokens输入价格定为3厘(即0.003元)，相当于一块钱可以处理284张720P的图片，让视觉理解类大模型价格步入“厘时代”。

　　在本次大会中，火山引擎除了推出视觉理解模型之外，还发布、升级了多个其他模型。

　　豆包通用模型pro完成新版本迭代：综合任务处理能力较5月份提升32%，在推理上提升13%，在指令遵循上提升9%，在代码上提升58%，在数学上提升43%，在专业知识领域能力提升54%。

　　豆包·音乐模型4.0发布：从 “高光片段” 走向 “完整歌曲”，支持包括前奏、主歌、副歌、间奏、过渡段的3分钟全曲创作;歌词局部修改，仍能适配原有旋律;全曲风格、情感和音乐逻辑保持一致，曲风连贯。

　　豆包·文生图模型2.1发布：支持“一键P图”，可以高精度指令理解，对中英文、专有名词“来者不拒”;高质量编辑效果，聚焦目标，不“误伤”原图；可实现多元风格，美观自然。支持“一键海报”，中文精准生成；图文精妙融合，字体与图片内容融合；快速海报生成，模型最快6秒出图。

　　veOmniverse+豆包·3D生成模型发布：veOmniverse支持高保真视觉渲染、大规模渲染算力池、物理&传感精确模拟、即开即用的3D编辑器。豆包·3D生成模型，支持文生3D、图生3D及多模态生成，1min生成高保真、高质量3D资产，复杂物品、物品组合大规模场景生成，支持多模态3D资产编辑。

　　豆包·视频生成模型将在2025年1月正式对外开放服务，用户可在火山引擎官网预约正式服务。

商学院

Open Talk

豆包大模型家族全新升级，视觉理解模型可解题、优化作文

相关阅读