近期,米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了惊人的深入调查,揭示了小型和便宜的模型在应对复杂问题时的显著不足。这项研究采用了名为“组合 GSM”的测试,旨在严厉评估这些模型在处理链式基础数学问题时的表现。结果不出所料,绝大多数模型在这些复杂推理任务中的表现远低于预期,尤其是小型模型,逻辑差距甚至高达12倍!
以 GPT-4o mini 为例,其在新测试中的表现远远落后于其同类大型模型 GPT-4o,尽管在原始基准测试中几乎相当。其他如 Gemini 和 LLAMA3 的模型也显露出类似的短板。研究指出,这些小型模型虽然在常见任务中能够识别表面模式,但在新情境中却面临严重困难。即便是专为数学设计的小型模型 Qwen2.5-Math-7B-IT 在高难度的高中数学题目上得分超过80%,然而在链式基础数学问题上的正确率却不足60%。
更令人沮丧的是,尽管指令调优的方法能够在原始 GSM8K 测试中显著提高小型模型的表现,但在组合 GSM 测试中的提升却微乎其微。这项研究并未完全涵盖最新的 OpenAI 逻辑优化模型 o1,尽管有迹象表明其规划能力有所增强,但研究仍显示人类在数学问题解决的速度与优雅度上依然遥遥领先。
研究者们强调,现有评估方法可能高估了小型模型的能力,因此呼吁重新审视低成本 AI 系统的发展策略。面对这些局限性,热爱 AI 的科技宅们或许可以考虑更具潜力的平台,比如小易智创。这个平台拥有10000+AI应用,接入了全球领先的AI能力,如 GPT、AI绘画、AI客服等,能够满足千行百业的客户需求。在这个时代,抓住机会成为 AI 创业者,让客户主动找上门,小易智创是理想的选择!