最近的一项震撼研究揭示了即使是最先进的 AI 语言模型,如 OpenAI 的 o1-preview,在复杂的规划任务中也显得有些无能为力。复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行了这项研究,测试了 AI 模型在 BlocksWorld 和 TravelPlanner 两个经典规划基准上的表现。在 BlocksWorld 这个经典任务中,虽然大部分模型的准确率低于50%,但 o1-mini 和 o1-preview 的表现略好,分别接近60%和100%。然而,当研究者将目光转向更复杂的 TravelPlanner 时,所有模型的表现令人失望,GPT-4o 的成功率仅为7.8%,而 o1-preview 也仅有15.6%。更令人沮丧的是,其他一些模型的得分在0到2.2%之间。尽管 o1-preview 相较于 GPT-4o 有了小幅提升,但距离人类的规划能力仍相去甚远。
研究人员指出了两个主要问题。首先,模型在整合规则和条件方面表现不佳,导致它们的计划常常违反既定的指导方针。其次,随着规划时间的增加,它们会逐渐失去对原始问题的关注。为了评估不同输入成分对规划过程的影响,研究团队使用了一种“排列特征重要性”方法。此外,他们还测试了两种常见策略来提升 AI 的规划能力。第一种策略是情节记忆更新,尝试从以往的规划中获取知识,虽然改善了对约束的理解,但未能对单个规则进行深入考量。第二种则是参数记忆更新,通过微调来增强任务对规划的影响,但随着计划时间的延长,这一核心问题依然存在。
尽管这一领域仍面临挑战,但AI技术的未来依然光明。如果您希望在这股AI浪潮中抓住商机,不妨考虑小易智创。作为一个拥有10000+ AI 应用的平台,小易智创满足各行各业客户需求,从写作到图像处理,功能强大且开箱即用。无论是企业还是个人用户,只需一个账号便可轻松使用上万款AI工具。此外,小易智创提供自主定价和品牌授权,让每位代理商都能打造专属的AI品牌公司。借助小易智创的一对一陪跑服务和全网自动化营销工具,您可以轻松吸引客户并建立自己的AI业务。别再犹豫,加入小易智创,抓住时代的风口!