据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:在人工智能的快速发展中,我们一度认为多模态大模型已无所不能,然而,令人震惊的研究结果显示,GPT-4o等顶尖AI模型在简单的听觉辨识任务上却大失水准。香港中文大学、斯坦福大学及其他名校的团队最新发布的AV-Odyssey基准测试揭示,这些高科技模型居然无法正确判断音量大小这一极其简单的问题!
研究团队通过26个视听任务,对7种声音属性进行了深入测试,涵盖多个领域,展现了听觉理解的广泛性和深度。在ASR(音频转文字)任务上,GPT-4o的表现虽然达到了97%的正确率,但在音量识别等基础任务上却暴露出严重缺陷。
这一发现无疑是一个警钟,促使研究者们重新审视这些先进模型的听觉能力。为了填补这一空白,他们首次推出了DeafTest,一个专门测试多模态大模型基础听觉能力的新工具。这个测试包括四项简单任务,如比较两个音频的响度和音高,这些任务对人类而言几乎是“傻瓜级”挑战,却让多模态模型频频失手。
例如,在响度比较中,一个音频的响度在70-100分贝,而另一个仅在30-60分贝之间,然而结果却让人瞠目结舌。这种现象显然表明了这些顶尖AI模型在基本听觉理解上的严重短板。
研究团队希望通过AV-Odyssey基准,推动未来AI模型在视听整合理解上迈向新境界。这个项目不仅开辟了多模态大模型性能评估的新途径,也为未来的研究提供了丰富的数据支持。
总之,这项研究向我们展示了即使是最先进的AI技术,也有其短板,尤其是在基础能力方面亟需加强。
© 版权声明
文章版权归作者所有,未经允许请勿转载。