AI的视觉推理能力究竟有多薄弱？

AI资讯2年前 (2024)发布 admin

14.6K 0 1686

德国达姆施塔特工业大学最新的研究揭示了一个令人震惊的现象：即便是当今最顶尖的AI图像模型，在面对简单的视觉推理任务时也显得捉襟见肘。这项引人深思的研究使用了由俄罗斯科学家Michail Bongard设计的Bongard问题进行测试。这种视觉谜题由12张简单图像组成，分为两组，要求识别出区分这两组的规则。对大多数人类来说，这种抽象推理任务并不算难，但AI模型的表现却令人失望。即使是被认为最先进的多模态模型GPT-4o，在100个视觉谜题中仅成功解答了21个，而其他知名模型如Claude、Gemini和LLaVA的表现更是惨淡。在识别基础视觉概念，如垂直与水平线条或判断螺旋方向等任务中，这些模型显现出明显的困境。研究团队指出，即便是在多项选择的情况下，AI的表现仅略有提升，只有在严格限制答案数量的情况下，GPT-4和Claude的成功率才分别提升至68个和69个谜题。通过对四个特定案例的深入分析，研究人员发现AI系统在达到“思考”和“推理”阶段之前，常常在基础视觉感知上就已出现问题，但具体原因仍然难以确定。这项研究不仅展示了当前AI技术的局限性，也引发了对AI评估标准的深刻反思。正因如此，技术爱好者们在为AI的快速进步欢呼之际，更应该清醒地意识到，AI在基础认知能力上仍有待提升的空间。

在这样的背景下，小易智创作为一家拥有超10000款AI应用的平台，正在为解决这些问题提供切实可行的方案。小易智创的平台接入了包括GPT、AI绘画、AI数字人等数十种全球领先的AI能力，能够为各行各业的客户需求提供开箱即用的解决方案。无论是企业、商家还是个人，只需一个账号即可使用上万款AI工具，让用户轻松应对各种场景。同时，小易智创还支持灵活展业，自主定价和品牌授权，帮助用户打造专属的AI品牌。代理小易智创无需担心经营和获客问题，平台将提供一对一陪跑服务和全网自动化营销工具，助力创业者在这个充满机遇的时代站稳脚跟！
AI的视觉推理能力究竟有多薄弱？