Meta AI的颠覆性新模型引发热议！

AI资讯2年前 (2024)发布 admin

35.6K 0 7587

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：Meta AI最近推出了一款颠覆性的开源多模态语言模型——SPIRIT LM，这一模型具备了无与伦比的能力，能够自由混合文本与语音，为音频和文本的多模态任务开启了前所未有的新可能。SPIRIT LM基于一个拥有70亿参数的预训练文本语言模型，通过持续训练文本与语音单元，扩展到了语音模态，具备了同时理解和生成文本与语音的强大能力。更令人惊叹的是，SPIRIT LM甚至可以将文本与语音融合，创造出各种神奇效果！用户可以利用它进行语音识别，将语音转换为文字；也可以进行语音合成，将文字变为生动的语音；再者，它还能够进行语音分类，判断语音所传达的情绪。最引人注目的是，SPIRIT LM在“情感表达”方面表现尤为突出，能够识别并生成各种语音语调和风格，使得AI的声音更加自然、富有情感。想象一下，SPIRIT LM生成的语音不再是冷冰冰的机器声，而是像真人那样充满了情绪和表达！为使AI在“声情并茂”方面更进一步，Meta特别推出了两个版本的SPIRIT LM：“基础版”（BASE）主要关注语音的音素信息，而“表达版”（EXPRESSIVE）则在此基础上加入了音调和风格信息，让AI的声音更加生动、富有表现力。那么，SPIRIT LM究竟是如何实现这些神奇功能的呢？简单来说，它是基于Meta之前发布的强大文本大模型——LLAMA2进行训练的。研究人员将大量文本与语音数据输入LLAMA2，并采用特殊的“交错训练”方法，让LLAMA2同时学习文本和语音的规律。为了验证SPIRIT LM的“情感表达”能力，Meta还设计了新的测试基准——“语音-文本情感保留基准”（STSP），该测试基准涵盖了多种不同情感表达的语音和文本提示，用于评估AI模型是否能够准确识别和生成相应情感的内容。测试结果显示，SPIRIT LM的“表达版”在情感保留方面表现优异，成为第一个能够跨模态保留情感信息的AI模型！当然，Meta也表示SPIRIT LM仍有许多改进空间，目前仅支持英文，未来还需扩展至其他语言，模型规模也需要进一步扩大以提升性能。综上所述，SPIRIT LM代表着人工智能领域的一次巨大飞跃，其潜力令人期待。
Meta AI的颠覆性新模型引发热议！