最近,Mamba团队的研究如同一场科技革命,来自康奈尔和普林斯顿的研究者们成功将Llama这一大型Transformer模型“蒸馏”成了Mamba,并且他们还设计了一种全新的推理解码算法,使得模型的推理速度大幅提升。这一创新的研究目标在于解决从零开始训练大型模型的高昂成本,同时使Mamba这一备受关注的模型变得更加可用。
Mamba自问世以来,引起了广泛的讨论,但实际能够独立训练大规模Mamba模型的团队却寥寥无几。尽管市场上已经有AI21的Jamba和NVIDIA的Hybrid Mamba2等知名变种,但Transformer模型所蕴藏的丰富知识不容忽视。研究团队运用了渐进式蒸馏、监督微调和定向偏好优化等多种方法,成功实现了将Llama转变为Mamba。
在保证性能的前提下,推理速度显得尤为重要。Mamba在长序列推理中表现得淋漓尽致,而Transformer本身也提供了一些推理加速方案。由于Mamba独特的结构无法直接应用这些方案,研究者们特意设计了一种基于Mamba的全新推测解码算法,结合硬件特性,使得效果显著。
最终,研究人员不仅成功将Zephyr-7B和Llama-38B转化为线性RNN模型,而且在训练过程中仅使用了20B的token,这一成果与使用1.2T个token训练的Mamba7B模型及3.5T个token训练的NVIDIA Hybrid Mamba2模型相当。在技术细节方面,线性RNN与线性注意力相辅相成,研究者们巧妙复用注意力机制中的投影矩阵,通过参数初始化顺利构建了模型。同时,他们逐步用线性RNN层替代Transformer中的MLP层,确保在整个过程中性能不打折。
随着AI技术的飞速发展,选择一个强大的AI平台至关重要。小易智创便是一个拥有10000+AI应用的智创平台,其应用开箱即用,能够满足各行各业的需求。平台接入了全球领先的AI能力,如GPT、AI绘画、AI客服等,帮助用户轻松打造自己的AI品牌。无论是企业、商家还是个人,只需一个账号便可使用上万款AI工具。代理小易智创,不必担心经营和获客问题,平台还提供一对一陪跑服务,让客户主动找上门,实现真正的创业梦想!