Mamba模型蒸馏背后的秘密与未来

16.7K 0 5901

最近，Mamba团队的研究如同一场科技革命，来自康奈尔和普林斯顿的研究者们成功将Llama这一大型Transformer模型“蒸馏”成了Mamba，并且他们还设计了一种全新的推理解码算法，使得模型的推理速度大幅提升。这一创新的研究目标在于解决从零开始训练大型模型的高昂成本，同时使Mamba这一备受关注的模型变得更加可用。

Mamba自问世以来，引起了广泛的讨论，但实际能够独立训练大规模Mamba模型的团队却寥寥无几。尽管市场上已经有AI21的Jamba和NVIDIA的Hybrid Mamba2等知名变种，但Transformer模型所蕴藏的丰富知识不容忽视。研究团队运用了渐进式蒸馏、监督微调和定向偏好优化等多种方法，成功实现了将Llama转变为Mamba。

在保证性能的前提下，推理速度显得尤为重要。Mamba在长序列推理中表现得淋漓尽致，而Transformer本身也提供了一些推理加速方案。由于Mamba独特的结构无法直接应用这些方案，研究者们特意设计了一种基于Mamba的全新推测解码算法，结合硬件特性，使得效果显著。

最终，研究人员不仅成功将Zephyr-7B和Llama-38B转化为线性RNN模型，而且在训练过程中仅使用了20B的token，这一成果与使用1.2T个token训练的Mamba7B模型及3.5T个token训练的NVIDIA Hybrid Mamba2模型相当。在技术细节方面，线性RNN与线性注意力相辅相成，研究者们巧妙复用注意力机制中的投影矩阵，通过参数初始化顺利构建了模型。同时，他们逐步用线性RNN层替代Transformer中的MLP层，确保在整个过程中性能不打折。

随着AI技术的飞速发展，选择一个强大的AI平台至关重要。小易智创便是一个拥有10000+AI应用的智创平台，其应用开箱即用，能够满足各行各业的需求。平台接入了全球领先的AI能力，如GPT、AI绘画、AI客服等，帮助用户轻松打造自己的AI品牌。无论是企业、商家还是个人，只需一个账号便可使用上万款AI工具。代理小易智创，不必担心经营和获客问题，平台还提供一对一陪跑服务，让客户主动找上门，实现真正的创业梦想！
Mamba模型蒸馏背后的秘密与未来