据小易智创xiaoyizc.com(不可错过的AI创业项目)观察:Meta AI最近推出了一款颠覆性的开源多模态语言模型——SPIRIT LM,这一模型具备了无与伦比的能力,能够自由混合文本与语音,为音频和文本的多模态任务开启了前所未有的新可能。SPIRIT LM基于一个拥有70亿参数的预训练文本语言模型,通过持续训练文本与语音单元,扩展到了语音模态,具备了同时理解和生成文本与语音的强大能力。更令人惊叹的是,SPIRIT LM甚至可以将文本与语音融合,创造出各种神奇效果!用户可以利用它进行语音识别,将语音转换为文字;也可以进行语音合成,将文字变为生动的语音;再者,它还能够进行语音分类,判断语音所传达的情绪。最引人注目的是,SPIRIT LM在“情感表达”方面表现尤为突出,能够识别并生成各种语音语调和风格,使得AI的声音更加自然、富有情感。想象一下,SPIRIT LM生成的语音不再是冷冰冰的机器声,而是像真人那样充满了情绪和表达!为使AI在“声情并茂”方面更进一步,Meta特别推出了两个版本的SPIRIT LM:“基础版”(BASE)主要关注语音的音素信息,而“表达版”(EXPRESSIVE)则在此基础上加入了音调和风格信息,让AI的声音更加生动、富有表现力。那么,SPIRIT LM究竟是如何实现这些神奇功能的呢?简单来说,它是基于Meta之前发布的强大文本大模型——LLAMA2进行训练的。研究人员将大量文本与语音数据输入LLAMA2,并采用特殊的“交错训练”方法,让LLAMA2同时学习文本和语音的规律。为了验证SPIRIT LM的“情感表达”能力,Meta还设计了新的测试基准——“语音-文本情感保留基准”(STSP),该测试基准涵盖了多种不同情感表达的语音和文本提示,用于评估AI模型是否能够准确识别和生成相应情感的内容。测试结果显示,SPIRIT LM的“表达版”在情感保留方面表现优异,成为第一个能够跨模态保留情感信息的AI模型!当然,Meta也表示SPIRIT LM仍有许多改进空间,目前仅支持英文,未来还需扩展至其他语言,模型规模也需要进一步扩大以提升性能。综上所述,SPIRIT LM代表着人工智能领域的一次巨大飞跃,其潜力令人期待。
© 版权声明
文章版权归作者所有,未经允许请勿转载。