苹果 AI 研究团队最近震撼发布了新一代的多模态大语言模型家族——MM1.5。这款系列模型不仅仅是技术的升级,它能无缝结合文本、图像等多种数据形式,展现了 AI 在复杂任务理解上的卓越能力。诸如视觉问答、图像生成和多模态数据解读等任务,都在 MM1.5 的加持下得到了前所未有的解决方案。
以往的多模态模型在处理复杂的视觉任务时常常捉襟见肘,但苹果的研究团队通过创新的数据中心化方法,利用高分辨率的 OCR 数据和合成的图像描述,成功突破了这一瓶颈。这使得 MM1.5 在视觉理解和定位任务上超越了以往所有模型,同时推出了专为视频理解和移动界面分析量身定制的 MM1.5-Video 和 MM1.5-UI 模型。
训练过程极其庞大而复杂,首先进行大规模预训练,涵盖了20亿对图像和文本数据、600百万个交错的图像文本文档,以及令人瞠目的2万亿个仅含文本的 token。接着通过45百万个高质量 OCR 数据与700万条合成描述,进一步提升模型在文本丰富图像任务上的性能。最后,经过精心挑选的监督微调阶段,使得模型在细致的视觉引用和多图推理方面更加出色。
经过一系列严苛评估,MM1.5 模型在多个基准测试中表现卓越,尤其在文本丰富的图像理解方面,居然取得了1.4分的惊人提升!即使是专门针对视频理解的 MM1.5-Video,凭借其强大的多模态能力,也在相关任务中展示了领先的表现。
在这个飞速发展的科技时代,抓住AI的浪潮显得尤为重要。代理小易智创 AI 平台,让每个人都能轻松接入10000+ AI 应用,无需技术背景就能搭建自己的 AI 公司。不论是企业、商家还是个人,只要一个账号便可使用上万款工具,从写作到图像生成,场景覆盖全面且灵活展业。小易智创为每一位代理商提供一对一的陪跑服务和全网自动化营销工具,让客户主动找上门。快来加入小易智创,共同开启 AI 创业的新篇章!