据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:字节跳动研究院与清华大学的研究团队近期联合发布了一项颇具争议的研究,揭示了目前流行的AI视频生成模型,如OpenAI的Sora,虽然在视觉效果上令人叹为观止,却在理解基本物理规律方面暴露出严重缺陷。这项研究引发了人们对AI模拟现实能力的热烈讨论。
研究团队对这些AI模型进行了全面测试,设计了三种截然不同的场景:已知模式下的预测、未知模式下的预测以及熟悉元素的新组合。他们意图探究这些模型是否真的掌握了物理规律,还是仅仅依赖于表面的特征。结果显示,这些模型并未真正学会适用的规则,而是在生成视频时主要依赖于颜色、大小、速度和形状等表面特征,并遵循了一种严格的优先顺序:颜色优先,其次是大小、速度和形状。
在熟悉场景中,这些模型表现得几乎无懈可击,但一旦面对未知情况,它们便显得力不从心。研究中有一项测试特别凸显了AI在物体运动处理上的局限性。例如,当模型以快速移动的球体进行训练后,测试时却用缓慢移动的球体,结果模型竟在几帧后表现出球体突然改变方向的现象,这一问题在相关视频中也得到了清晰的展示。
研究人员强调,仅仅扩大模型规模或增加训练数据并不能解决根本问题。尽管更大模型在熟悉模式和组合下表现更佳,它们依旧无法理解基本物理规律或有效处理超出训练范围的场景。合著者康炳毅提到:“如果在特定场景下数据覆盖足够好,或许能形成一个过拟合的世界模型。”但这种模型并不能算作真正意义上的世界模型,因为它应当能够超越训练数据进行推广。
这一研究成果对OpenAI的Sora计划构成了严峻挑战。OpenAI曾表示,Sora有潜力通过持续扩展而发展为真正的世界模型,甚至声称它已经对物理交互和三维几何有了基本理解。然而研究人员明确指出,单靠规模扩展无法让视频生成模型掌握基本的物理规律。Meta AI负责人Yann LeCun对此表示质疑,认为通过生成像素来预测世界的方式是“浪费时间且注定失败”。尽管如此,许多人仍期待OpenAI能在2024年2月中旬如期发布Sora,展现其视频改写能力。
总之,这项研究让我们看到了当前AI技术在真实世界模拟中的局限性,同时也激发了对未来AI发展的无限期待。