据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:随着深度学习的飞速进展,规模化的数据集、模型和计算量已经成为其发展的重要基石。在自然语言处理和计算机视觉领域,研究人员已经发现模型性能与数据规模之间存在显著的幂律关系。然而,机器人领域尤其是在机器人操控方面,却尚未建立起类似的规模化规律。
最近,清华大学的研究团队发表了一篇开创性的论文,深入探讨了机器人模仿学习中的数据规模化规律,并提出了一种高效的数据收集策略。令人惊叹的是,他们仅用一个下午的时间便收集到了足够的数据,使得所训练的策略在新环境和新物体上的成功率高达90%。
研究者们将泛化能力分为环境泛化与物体泛化两个维度,利用手持式夹爪在多样的环境与不同的物体上收集人类演示数据,并对这些数据进行扩散策略建模。研究重点集中在倒水和鼠标放置两个任务上,通过分析策略在新环境或新物体上的表现如何随着训练环境或物体数量的增加而变化,从而总结出数据规模化规律。
研究结果表明,策略在新物体、新环境或两者上的泛化能力分别与训练物体、训练环境或训练环境-物体对的数量呈现出显著的幂律关系。增加环境和物体的多样性被证实比单纯增加每个环境或物体的演示数量更为有效。当在多达32个环境中收集数据,每个环境下使用一个独特的操作对象并提供50个演示时,就能培养出具有强泛化能力的策略,成功率高达90%,能够自如地在全新的环境和未见过的物体中运作。
基于这些突破性的规模化规律,研究团队提出了一种高效的数据收集策略。他们建议在尽可能多样的环境中收集数据,并为每个环境选取独特的物体。当环境-物体对总数达到32时,通常已足够训练出能在新环境中操作且与新物体交互的策略。此外,他们将此数据收集策略应用于折叠毛巾和拔掉充电器两项新任务,结果同样表明该策略有效。此项研究显示,只需投入相对适度的时间与资源,就能学习到可以零样本部署于任何环境及物体的单任务策略。最后,清华团队还发布了他们的代码、数据和模型,以期激励更多相关领域的研究,最终实现解决复杂开放世界问题的通用机器人。
总结来看,这一突破性研究为机器人操控提供了崭新的视野与方法。