突破性AI模型如何改变人机互动？

58.9K 0 7587

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：李飞飞团队推出了一种前所未有的多模态模型，能够彻底理解并生成复杂的人类动作，并结合语言模型，实现对口头与非口头语言的完美统一处理。这一创新性的研究，使得机器不仅可以轻松理解人类的指令，还能深刻感知动作中潜藏的情感，从而极大提升人机交互的自然性与流畅性。该模型的核心架构在于其多模态语言模型框架，能够接收音频、动作及文本等多种输入形式，并准确输出相应的数据。通过结合生成式预训练策略，该模型在多个任务上展现出惊人的性能。例如，在协同语音手势生成任务中，该模型不仅超越了现有技术的极限，还显著减少了训练所需的数据量。此外，该模型还开辟了全新的应用场景，如可编辑手势生成及通过动作预测情感。人类交流本质上是多模态的，包含言语与非言语线索，如声音、面部表情与身体姿态。该模型能够充分理解这些复杂的多模态行为，为创造在游戏、电影及虚拟现实等领域自然流畅的虚拟角色奠定了基础。然而，现有的动作生成模型往往局限于特定输入模态（如语音、文本或动作数据），未能充分挖掘数据的多样性。该模型通过语言模型实现口头与非口头语言的统一，主要基于三个原因：首先，语言模型自然连接不同模态，其次，语音具有高度语义性，而建模如对笑话的反应等任务需要强大的语义推理能力，最后，语言模型通过广泛的预训练获得了卓越的语义理解能力。为实现这一目标，研究团队将身体划分为多个部分（如面部、手部、上半身及下半身），并对每个部分进行单独的动作标记。结合文本与语音标记器，任何输入模态均可表示为一系列标记供语言模型使用。该模型采用双阶段训练流程：首先进行预训练，以对齐各种模态与组合身体动作，以及音频和文本的对齐；接着将下游任务转化为指令，并在这些指令上进行训练，使得模型能够灵活遵循各类任务指令。在BEATv2协同语音手势生成基准测试中，该模型表现卓越，远超现有模型。预训练策略的有效性也得到了强有力的验证，尤其在数据稀缺情况下展现出强大的泛化能力。通过在语音-动作及文本-动作任务上的后续训练，模型不仅能够遵循音频与文本提示，还能实现从动作数据中预测情感等新功能。在技术细节上，该模型采用了模态特定的标记器处理各种输入形式。具体而言，该模型训练了一个组合身体运动VQ-VAE，将面部、手部、上半身及下半身的动作转化为离散标记。这些模态特定词汇（音频和文本）被合并至一个统一的多模态词汇表中。在训练过程中，不同模态混合标记作为输入，通过编码器-解码器结构进行处理，最终输出符合需求的数据。综上所述，这一多模态模型为人机互动带来了革命性的变革，将开启更智能、更自然的交流方式。
突破性AI模型如何改变人机互动？