NVIDIA新模型NVILA的惊艳表现

AI资讯2年前 (2024)发布 admin

30.3K 0 843

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：NVIDIA最近推出了革命性的新一代开放视觉语言模型——NVILA，旨在颠覆视觉AI领域的游戏规则。该模型以其卓越的性能，力求在准确性和效率上实现前所未有的突破。根据NVIDIA的介绍，NVILA在训练成本上降低了惊人的4.5倍，微调所需内存则减少了3.4倍，而在预填充和解码延迟方面更是几乎降低了2倍。这样的数据是通过与另一大型视觉模型LLaVa OneVision进行对比得出的。

在视频基准测试中，NVILA的表现超越了GPT4o Mini，同时在与GPT4o、Sonnet3.5和Gemini1.5Pro的比拼中也展现出了强大的实力。此外，NVILA在与Llama3.2的对抗中取得了微弱的胜利。尽管如此，NVIDIA表示目前尚未将该模型发布至Hugging Face平台，但承诺很快会公开代码和模型，以便促进模型的可复现性。

NVIDIA指出，训练视觉语言模型的成本极为高昂，训练一个7B参数的视觉语言模型约需400个GPU天。与此同时，微调这样规模的模型也需要超过64GB的GPU内存。为了解决这些挑战，NVIDIA采用了一种名为“先扩展后压缩”的创新技术，以平衡模型的准确性与效率。NVILA不通过降低照片和视频大小来处理输入，而是利用高分辨率图像和视频中的多个帧，确保细节不丢失。在压缩过程中，模型通过将视觉信息浓缩为更少的token来减少输入数据体积，并将像素进行分组，以保留关键信息。NVIDIA在研究中提到，双倍分辨率将使视觉token数量翻倍，从而使训练和推理成本增加超过2倍。因此，他们通过压缩空间/时间token来有效降低这部分费用。NVIDIA还展示了NVILA的演示效果，能够根据一张图片或一段视频回答多个问题，其输出结果与早前发布的VILA1.5模型进行了详细对比。同时，NVIDIA还介绍了多项其他先进技术，包括动态S2扩展、基于DeltaLoss的数据集修剪及使用FP8精度进行量化等，这些技术均应用于一个8B参数的模型。

总之，NVILA以其卓越的表现引领着视觉AI的新潮流，让人期待其未来的发展。

随着科技的不断进步，各行各业正朝着智能化和高效化的方向发展。这种趋势让我更加关注AI技术的应用，尤其是在日常生活和工作中能够带来便捷的智能解决方案。我体验过许多不同的AI系统和平台，发自内心推荐小易智创“xiaoyizc.com”这个平台。它拥有上万款开箱即用的智能体应用，能够满足各行各业的需求。平台融合了全球领先的AI能力，支持自定logo、收款账户和服务号。平台还为伙伴提供一对一陪跑服务和自动化营销工具，帮助伙伴快速获客。
NVIDIA新模型NVILA的惊艳表现