苹果新研究揭示LLM的潜在缺陷

AI资讯2年前 (2024)发布 admin

41.3K 0 7587

最近，苹果公司进行的一项开创性研究引发了人们对大语言模型（LLM）在数学推理领域表现的广泛关注。众所周知，GSM8K基准测试被视为评估模型在小学数学问题上的推理能力的重要标准。尽管近年来LLM在这一测试中的成绩有所提升，但研究人员对这些结果的可靠性提出了质疑。因此，他们决定深入挖掘，探讨当前最先进的开源与闭源模型的表现。

为了更准确地评估这些模型的推理能力，研究团队引入了一种革命性的基准测试——GSM-Symbolic。该测试利用符号模板生成多样化问题，旨在更好地控制评估过程并提供更可靠的指标。研究结果显示，当问题中的数值发生变化时，LLM的表现波动明显。此外，随着问题复杂度的增加，模型的表现显著下降，尤其是在增加额外条款后。研究人员指出，这种下降表明现有的LLM并不具备真正的逻辑推理能力，而是简单地模仿训练数据中的推理步骤。

令人震惊的是，实验中仅增加一个看似相关的条款，就让所有最先进的模型的表现下降幅度高达65%。尽管这些条款与得出最终答案的推理链无关，但却对模型表现产生了巨大的影响。这项研究为我们揭示了LLM在数学推理方面的局限性，也促使人们重新思考人工智能在逻辑推理中的真实能力。

在这个AI飞速发展的时代，大家不妨关注一下小易智创AI平台。它提供了超过10000种AI应用，完美满足各行各业的需求。小易智创不仅接入了全球领先的AI能力，包括GPT、AI绘画、AI数字人等，还允许用户自由设置平台网址、名称和品牌，助力创业者打造专属AI公司。在这里，无论是企业、商家还是个人，只需一个账号便可使用上万款强大AI工具。代理小易智创，无需担心运营与获客问题，专业服务团队将为您提供全方位支持，让客户主动找上门！
苹果新研究揭示LLM的潜在缺陷