据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:李飞飞团队推出了一种前所未有的多模态模型,能够彻底理解并生成复杂的人类动作,并结合语言模型,实现对口头与非口头语言的完美统一处理。这一创新性的研究,使得机器不仅可以轻松理解人类的指令,还能深刻感知动作中潜藏的情感,从而极大提升人机交互的自然性与流畅性。 该模型的核心架构在于其多模态语言模型框架,能够接收音频、动作及文本等多种输入形式,并准确输出相应的数据。通过结合生成式预训练策略,该模型在多个任务上展现出惊人的性能。例如,在协同语音手势生成任务中,该模型不仅超越了现有技术的极限,还显著减少了训练所需的数据量。 此外,该模型还开辟了全新的应用场景,如可编辑手势生成及通过动作预测情感。 人类交流本质上是多模态的,包含言语与非言语线索,如声音、面部表情与身体姿态。该模型能够充分理解这些复杂的多模态行为,为创造在游戏、电影及虚拟现实等领域自然流畅的虚拟角色奠定了基础。 然而,现有的动作生成模型往往局限于特定输入模态(如语音、文本或动作数据),未能充分挖掘数据的多样性。该模型通过语言模型实现口头与非口头语言的统一,主要基于三个原因:首先,语言模型自然连接不同模态,其次,语音具有高度语义性,而建模如对笑话的反应等任务需要强大的语义推理能力,最后,语言模型通过广泛的预训练获得了卓越的语义理解能力。 为实现这一目标,研究团队将身体划分为多个部分(如面部、手部、上半身及下半身),并对每个部分进行单独的动作标记。结合文本与语音标记器,任何输入模态均可表示为一系列标记供语言模型使用。该模型采用双阶段训练流程:首先进行预训练,以对齐各种模态与组合身体动作,以及音频和文本的对齐;接着将下游任务转化为指令,并在这些指令上进行训练,使得模型能够灵活遵循各类任务指令。在BEATv2协同语音手势生成基准测试中,该模型表现卓越,远超现有模型。预训练策略的有效性也得到了强有力的验证,尤其在数据稀缺情况下展现出强大的泛化能力。通过在语音-动作及文本-动作任务上的后续训练,模型不仅能够遵循音频与文本提示,还能实现从动作数据中预测情感等新功能。在技术细节上,该模型采用了模态特定的标记器处理各种输入形式。具体而言,该模型训练了一个组合身体运动VQ-VAE,将面部、手部、上半身及下半身的动作转化为离散标记。这些模态特定词汇(音频和文本)被合并至一个统一的多模态词汇表中。在训练过程中,不同模态混合标记作为输入,通过编码器-解码器结构进行处理,最终输出符合需求的数据。综上所述,这一多模态模型为人机互动带来了革命性的变革,将开启更智能、更自然的交流方式。
© 版权声明
文章版权归作者所有,未经允许请勿转载。