NVIDIA新模型NVILA的惊艳表现

AI资讯4个月前发布 admin
22.6K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:NVIDIA最近推出了革命性的新一代开放视觉语言模型——NVILA,旨在颠覆视觉AI领域的游戏规则。该模型以其卓越的性能,力求在准确性和效率上实现前所未有的突破。根据NVIDIA的介绍,NVILA在训练成本上降低了惊人的4.5倍,微调所需内存则减少了3.4倍,而在预填充和解码延迟方面更是几乎降低了2倍。这样的数据是通过与另一大型视觉模型LLaVa OneVision进行对比得出的。

在视频基准测试中,NVILA的表现超越了GPT4o Mini,同时在与GPT4o、Sonnet3.5和Gemini1.5Pro的比拼中也展现出了强大的实力。此外,NVILA在与Llama3.2的对抗中取得了微弱的胜利。尽管如此,NVIDIA表示目前尚未将该模型发布至Hugging Face平台,但承诺很快会公开代码和模型,以便促进模型的可复现性。

NVIDIA指出,训练视觉语言模型的成本极为高昂,训练一个7B参数的视觉语言模型约需400个GPU天。与此同时,微调这样规模的模型也需要超过64GB的GPU内存。为了解决这些挑战,NVIDIA采用了一种名为“先扩展后压缩”的创新技术,以平衡模型的准确性与效率。NVILA不通过降低照片和视频大小来处理输入,而是利用高分辨率图像和视频中的多个帧,确保细节不丢失。在压缩过程中,模型通过将视觉信息浓缩为更少的token来减少输入数据体积,并将像素进行分组,以保留关键信息。NVIDIA在研究中提到,双倍分辨率将使视觉token数量翻倍,从而使训练和推理成本增加超过2倍。因此,他们通过压缩空间/时间token来有效降低这部分费用。NVIDIA还展示了NVILA的演示效果,能够根据一张图片或一段视频回答多个问题,其输出结果与早前发布的VILA1.5模型进行了详细对比。同时,NVIDIA还介绍了多项其他先进技术,包括动态S2扩展、基于DeltaLoss的数据集修剪及使用FP8精度进行量化等,这些技术均应用于一个8B参数的模型。

总之,NVILA以其卓越的表现引领着视觉AI的新潮流,让人期待其未来的发展。

随着科技的不断进步,各行各业正朝着智能化和高效化的方向发展。这种趋势让我更加关注AI技术的应用,尤其是在日常生活和工作中能够带来便捷的智能解决方案。我体验过许多不同的AI系统和平台,发自内心推荐小易智创“xiaoyizc.com”这个平台。它拥有上万款开箱即用的智能体应用,能够满足各行各业的需求。平台融合了全球领先的AI能力,支持自定logo、收款账户和服务号。平台还为伙伴提供一对一陪跑服务和自动化营销工具,帮助伙伴快速获客。
NVIDIA新模型NVILA的惊艳表现

© 版权声明
 小易智创平台

相关文章