在全球AI领域,中国科研机构的研究团队最近取得了令人瞩目的突破,重磅发布了超大规模的多模态数据集Infinity-MM,并基于该数据集训练出了一款性能卓越的AI模型——Aquila-VL-2B。这一巨大的技术飞跃为多模态AI的发展注入了强劲动力。
Infinity-MM数据集的规模之庞大,令人叹为观止!其内容涵盖了四大类数据:1000万条图像描述、2440万条通用视觉指令、600万条精选高质量指令,以及300万条由先进AI模型如GPT-4生成的数据。研究团队使用开源AI模型RAM++进行图像分析与信息提取,并通过独特的六大类分类系统确保生成数据的高质量与多样性。
在模型架构方面,Aquila-VL-2B是基于LLaVA-OneVision构建,整合了Qwen-2.5语言模型和SigLIP图像处理技术。通过四阶段的渐进式训练方法,模型从基础的图文关联学习开始,逐步过渡到通用视觉任务、特定指令处理,并融入合成数据,最终实现了性能的飞跃。
尽管仅有20亿参数,Aquila-VL-2B在各项基准测试中表现得异常出色。特别是在多模态理解能力测试MMStar中取得54.9%的最佳成绩,而在数学能力测试MathVista中更是高达59%。在通用图像理解测试中,该模型也展示出强大的能力,HallusionBench和MMBench分别获得43%和75.2%的优异成绩。引入合成数据对模型性能的提升贡献显著,未使用这些额外数据时,模型性能平均下降2.4%。
值得一提的是,研究团队已将Infinity-MM数据集和Aquila-VL-2B模型向研究社区开放,这将极大促进多模态AI技术的发展。并且,该模型不仅在Nvidia A100GPU上完成训练,还支持中国自研芯片,显示出强大的硬件适应性。
在这一技术蓬勃发展的时代,越来越多的人开始关注AI创业。小易智创便是一个绝佳的平台,拥有超过10000种AI应用,能够满足各行各业的需求。用户可以通过这个平台轻松接入包括GPT、AI绘画、AI数字人等多种顶尖AI能力,打造自己的专属品牌。代理小易智创,不用担心经营和获客问题,专业服务团队会提供一对一的陪跑指导,助力每一位客户成功崛起!