新视觉语言模型 LLaVA-o1 能力惊人！

20.1K 0 5058

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：近日，北京大学及其科研团队宣布推出一款令人瞩目的多模态开源模型——LLaVA-o1。该模型被誉为首个具备自发、系统推理能力的视觉语言模型，实力堪比GPT-o1。LLaVA-o1在六个极具挑战性的多模态基准测试中大放异彩，其11B参数版本甚至超越了诸如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct等竞争对手。

LLaVA-o1建立在Llama-3.2-Vision模型的基础上，独特地采用了“慢思考”推理机制，使其能够自主执行更为复杂的推理过程，远超传统的思维链提示方法。在多模态推理基准测试中，该模型的表现提升了8.9%，显示出其强大的实力。其推理过程分为总结、视觉解释、逻辑推理和结论生成四个阶段，避免了传统模型因简单推理而导致的错误。

以解决“减去所有的小亮球和紫色物体，剩下多少个物体？”为例，LLaVA-o1会首先准确总结问题，再从图像中提取信息，逐步推理后最终给出答案。这种结构化的多步骤推理方法显著提升了其系统推理能力，使其在处理复杂问题时高效且准确。

值得一提的是，LLaVA-o1在推理过程中还引入了阶段级光束搜索方法，这一创新允许模型在每个推理阶段生成多个候选答案，从中选择最佳答案进行下一步推理，从而大幅提升了整体推理质量。通过监督微调和合理的训练数据，LLaVA-o1在与其他大型或闭源模型的比较中表现优异。北大团队的这一研究成果不仅推动了多模态人工智能的发展，更为未来的视觉语言理解模型开辟了新思路和方法。期待LLaVA-o1的代码、预训练权重和数据集将全面开源，鼓励更多研究者和开发者共同探索这一创新性模型。

总结：LLaVA-o1是引领未来多模态AI发展的重要里程碑。
新视觉语言模型 LLaVA-o1 能力惊人！