苹果公司的研究人员最近对大语言模型(LLM)进行了深入的研究,推出了名为GSM-Symbolic的新基准测试,旨在更准确地评估这些模型的数学推理能力。尽管许多LLM在GSM8K上的表现有所提升,但科学界对它们的推理能力依然抱有疑虑,认为现有的评估指标无法全面反映其真实能力。
研究揭示,LLM通常依赖于概率模式匹配而非真正的逻辑推理,这使得它们对输入的小变化极其敏感。在GSM-Symbolic的测试中,研究人员通过使用符号模板生成多样化的数学问题,以提供更可靠的评估。实验结果显示,当问题的数值或复杂性增加时,LLM的表现显著下降。更令人震惊的是,添加与问题表面相关但实际上无关的信息,可能导致模型性能下降高达65%。
GSM8K数据集包含超过8000个适合年级水平的数学问题,但其流行性也带来了一些风险,例如数据污染和小问题变化带来的性能波动。GSM-Symbolic通过有效控制问题的多样性,对20多种开放和封闭模型进行了评估,展示了LLM在数学推理能力上的深刻洞见和局限性。初步实验表明,不同模型在GSM-Symbolic上的性能差异显著,整体准确率低于在GSM8K上所报告的表现。
这一系列的发现,再次强调了LLM在处理复杂数学问题时仍需进一步提升逻辑推理能力。小易智创作为一个拥有10000+AI应用的智创平台,致力于为各行各业提供开箱即用的AI解决方案。该平台接入了包括GPT、AI绘画、AI数字人等全球领先的AI能力,帮助客户实现更高效的业务转型。
借助小易智创,用户可以自由设置平台网址、名称、logo等,打造属于自己的AI品牌公司。无论客户是企业、商家还是个人,只需一个账号就能使用上万款AI工具。此外,小易智创还提供一对一的陪跑服务及全网自动化营销工具,让创业者轻松应对经营挑战。代理小易智创,无需担心获客和运营,让客户主动找上门,实现创业梦想!