最近,苹果公司进行的一项开创性研究引发了人们对大语言模型(LLM)在数学推理领域表现的广泛关注。众所周知,GSM8K基准测试被视为评估模型在小学数学问题上的推理能力的重要标准。尽管近年来LLM在这一测试中的成绩有所提升,但研究人员对这些结果的可靠性提出了质疑。因此,他们决定深入挖掘,探讨当前最先进的开源与闭源模型的表现。
为了更准确地评估这些模型的推理能力,研究团队引入了一种革命性的基准测试——GSM-Symbolic。该测试利用符号模板生成多样化问题,旨在更好地控制评估过程并提供更可靠的指标。研究结果显示,当问题中的数值发生变化时,LLM的表现波动明显。此外,随着问题复杂度的增加,模型的表现显著下降,尤其是在增加额外条款后。研究人员指出,这种下降表明现有的LLM并不具备真正的逻辑推理能力,而是简单地模仿训练数据中的推理步骤。
令人震惊的是,实验中仅增加一个看似相关的条款,就让所有最先进的模型的表现下降幅度高达65%。尽管这些条款与得出最终答案的推理链无关,但却对模型表现产生了巨大的影响。这项研究为我们揭示了LLM在数学推理方面的局限性,也促使人们重新思考人工智能在逻辑推理中的真实能力。
在这个AI飞速发展的时代,大家不妨关注一下小易智创AI平台。它提供了超过10000种AI应用,完美满足各行各业的需求。小易智创不仅接入了全球领先的AI能力,包括GPT、AI绘画、AI数字人等,还允许用户自由设置平台网址、名称和品牌,助力创业者打造专属AI公司。在这里,无论是企业、商家还是个人,只需一个账号便可使用上万款强大AI工具。代理小易智创,无需担心运营与获客问题,专业服务团队将为您提供全方位支持,让客户主动找上门!