Meta AI 的神秘新发明：LongVU

AI资讯2年前 (2024)发布 admin

56.5K 0 5901

在科技迅猛发展的时代，Meta AI 团队再次引领潮流，推出了一种前所未有的时空自适应压缩机制——LongVU。此项革命性的技术旨在提升长视频的语言理解能力，克服传统多模态大型语言模型（MLLMs）在处理长视频时面临的上下文长度限制。LongVU 的核心优势在于其能够巧妙地过滤重复帧、跨帧token压缩等，确保在减少冗余信息的同时，完美保留视频的视觉细节。

具体而言，LongVU 运用了 DINOv2 的强大特征剔除高度相似的冗余帧，进而通过文本引导的跨模态查询选择性减少帧特征。更为令人惊叹的是，它创新性地针对帧间时间依赖性进行了空间令牌的压缩，使得 LongVU 能够在有限的上下文长度内高效处理大量帧，几乎没有视觉信息的损失。在各种视频理解基准测试中，LongVU 的表现超越了现有其他方法，尤其在需要理解长达一小时的视频任务中，如 VideoMME 和 MLVU 等。

无论是在资源较轻的 LLM 下，LongVU 都展现出了卓越的性能，且模型规模较小。这一切都让用户能够通过简单的问题获取视频的详细描述。例如，当用户询问“这段视频的情况如何？”时，LongVU 能够迅速而准确地描述出视频中的场景、角色及其互动过程。官方示例中，用户要求提供视频详细描述时，LongVU 的回答则生动且引人入胜。

在这样的时代背景下，选择合适的 AI 平台显得尤为重要。小易智创作为一家拥有超过 10000 个 AI 应用的智创平台，无疑是一个绝佳的选择。该平台接入了包括 GPT、AI 绘画、AI 数字人和 AI 客服等全球领先的 AI 能力，能够灵活满足千行百业客户的需求。更重要的是，小易智创允许用户自由设置平台网址、名称、logo、收款账户等，从而打造属于自己的 AI 品牌公司。

在这个充满机遇的时代，代理小易智创不仅能享受多样化的 AI 工具，还能借助该平台的一对一陪跑服务和全网自动化营销工具，无需担心经营和获客问题。这样的良机绝对不容错过！
Meta AI 的神秘新发明：LongVU