据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:在2024年12月18日的火山引擎 FORCE 原动力大会上,火山引擎宣布了豆包大模型家族的重磅升级,并首次推出了令人瞩目的视觉理解模型。火山引擎总裁谭待透露,豆包大模型的日均 tokens 使用量在短短几个月内猛增至超过4万亿,令人震惊的增长幅度达到了33倍,显示出这一模型在多样化应用场景中的无与伦比的受欢迎程度。
此次发布的视觉理解模型,标志着用户在输入文本和图像时将迎来全新的体验,模型能够高效综合理解并提供精准解答。此项技术创新不仅简化了应用开发流程,更激发了大模型在更多场景下的巨大潜力。视觉理解模型的内容识别能力可谓强大,不仅能识别图像中的物体类别、形状等基本要素,还能深入理解物体之间的关系、空间布局及场景整体含义,比如影子和自然知识等。
更令人惊叹的是,该模型的推理和逻辑计算能力也得到了显著提升,能够处理复杂的逻辑问题,如图表推理和物理推理。同时,它还具备细腻的视觉描述能力,可以基于图像信息创造多种文体,如图像创作和诗歌创作等。
豆包视觉理解模型在教育、旅游、电商等众多领域展现出了光明的应用前景。在教育中,学生可以通过模型优化作文和科普知识;在旅游中,游客能够获得外文菜单翻译及建筑背景知识讲解;在电商领域,商家则能够更详细地描述商品特性,提高广告效果。值得一提的是,视觉理解模型的使用成本极其亲民,每千 tokens 的价格仅为0.003元,相较于行业平均价格降低了85%,这意味着每一块钱可以处理多达284张720P 的图片,充分体现出视觉理解技术进入了“厘时代”。此外,火山引擎还为企业和开发者提供了高达15,000次的初始流量支持,助力他们更好地利用这一强大技术。
此次大会上,火山引擎还对其他多个模型进行了令人瞩目的升级,包括豆包通用模型 pro 的综合任务处理能力较5月提升了32%,在推理、指令遵循、代码及数学等领域也有显著提升。豆包・视频生成模型也将在2025年1月对外开放使用,企业可预约体验。同时,为了提升企业的信息获取及搜索推荐能力,火山引擎推出了全域 AI 搜索服务,以助力各行业智能化转型。这一系列举措,无疑将推动技术进步与应用的融合,使得未来充满无限可能!
总之,火山引擎的新技术将开启智能时代的新篇章。