AI模型竟然识别不了音量差异？

5K 0 4215

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：在人工智能的快速发展中，我们一度认为多模态大模型已无所不能，然而，令人震惊的研究结果显示，GPT-4o等顶尖AI模型在简单的听觉辨识任务上却大失水准。香港中文大学、斯坦福大学及其他名校的团队最新发布的AV-Odyssey基准测试揭示，这些高科技模型居然无法正确判断音量大小这一极其简单的问题！

研究团队通过26个视听任务，对7种声音属性进行了深入测试，涵盖多个领域，展现了听觉理解的广泛性和深度。在ASR（音频转文字）任务上，GPT-4o的表现虽然达到了97%的正确率，但在音量识别等基础任务上却暴露出严重缺陷。

这一发现无疑是一个警钟，促使研究者们重新审视这些先进模型的听觉能力。为了填补这一空白，他们首次推出了DeafTest，一个专门测试多模态大模型基础听觉能力的新工具。这个测试包括四项简单任务，如比较两个音频的响度和音高，这些任务对人类而言几乎是“傻瓜级”挑战，却让多模态模型频频失手。

例如，在响度比较中，一个音频的响度在70-100分贝，而另一个仅在30-60分贝之间，然而结果却让人瞠目结舌。这种现象显然表明了这些顶尖AI模型在基本听觉理解上的严重短板。

研究团队希望通过AV-Odyssey基准，推动未来AI模型在视听整合理解上迈向新境界。这个项目不仅开辟了多模态大模型性能评估的新途径，也为未来的研究提供了丰富的数据支持。

总之，这项研究向我们展示了即使是最先进的AI技术，也有其短板，尤其是在基础能力方面亟需加强。
AI模型竟然识别不了音量差异？