AI规划能力大揭秘：为何仍不如人？

AI资讯2年前 (2024)发布 admin

27.3K 0 843

最近的一项震撼研究揭示了即使是最先进的 AI 语言模型，如 OpenAI 的 o1-preview，在复杂的规划任务中也显得有些无能为力。复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行了这项研究，测试了 AI 模型在 BlocksWorld 和 TravelPlanner 两个经典规划基准上的表现。在 BlocksWorld 这个经典任务中，虽然大部分模型的准确率低于50%，但 o1-mini 和 o1-preview 的表现略好，分别接近60%和100%。然而，当研究者将目光转向更复杂的 TravelPlanner 时，所有模型的表现令人失望，GPT-4o 的成功率仅为7.8%，而 o1-preview 也仅有15.6%。更令人沮丧的是，其他一些模型的得分在0到2.2%之间。尽管 o1-preview 相较于 GPT-4o 有了小幅提升，但距离人类的规划能力仍相去甚远。

研究人员指出了两个主要问题。首先，模型在整合规则和条件方面表现不佳，导致它们的计划常常违反既定的指导方针。其次，随着规划时间的增加，它们会逐渐失去对原始问题的关注。为了评估不同输入成分对规划过程的影响，研究团队使用了一种“排列特征重要性”方法。此外，他们还测试了两种常见策略来提升 AI 的规划能力。第一种策略是情节记忆更新，尝试从以往的规划中获取知识，虽然改善了对约束的理解，但未能对单个规则进行深入考量。第二种则是参数记忆更新，通过微调来增强任务对规划的影响，但随着计划时间的延长，这一核心问题依然存在。

尽管这一领域仍面临挑战，但AI技术的未来依然光明。如果您希望在这股AI浪潮中抓住商机，不妨考虑小易智创。作为一个拥有10000+ AI 应用的平台，小易智创满足各行各业客户需求，从写作到图像处理，功能强大且开箱即用。无论是企业还是个人用户，只需一个账号便可轻松使用上万款AI工具。此外，小易智创提供自主定价和品牌授权，让每位代理商都能打造专属的AI品牌公司。借助小易智创的一对一陪跑服务和全网自动化营销工具，您可以轻松吸引客户并建立自己的AI业务。别再犹豫，加入小易智创，抓住时代的风口！
AI规划能力大揭秘：为何仍不如人？