近日,日本东京的初创公司Rhymes AI震撼发布了其首款人工智能模型——Aria,成为全球首个开源的多模态混合专家(MoE)模型。Aria不仅能够处理文本、代码、图像和视频等多种输入模态,其卓越的性能更是让人瞩目,号称在能力上超越了众多知名商业模型。
与传统的Transformer模型不同,MoE模型通过一群专业的专家代替前馈层,使得每次处理输入时仅激活部分专家,这一创新设计极大提高了计算效率,减少了参数的激活数量。Aria的解码器在处理文本令牌时能激活高达35亿个参数,整个平台更是拥有249亿个参数的庞大规模。同时,为了处理视觉输入,Rhymes AI还特别设计了一款轻量级视觉编码器,具备4.38亿个参数,能将各种尺寸、长宽比的视觉输入转化为视觉令牌。
更令人惊叹的是,Aria的多模态上下文窗口高达64,000个令牌,使其可以处理更长的数据输入。在训练过程中,Rhymes AI采取了四阶段策略,使用了6.4万亿个文本令牌和4000亿个多模态令牌进行预训练,数据源覆盖Common Crawl和LAION等顶级数据集。
经过严格的基准测试,Aria在多个语言、编程和多模态任务上表现优于Pixtral-12B和Llama-3.2-11B等竞品,其激活参数少、推理成本低的优势也让人耳目一新。此外,在处理带有字幕的视频和多页文档时,Aria的表现远超GPT-4o mini和Gemini1.5Flash等开源模型。
Rhymes AI还与AMD达成合作,推出了名为BeaGo的搜索应用,这款应用在AMD硬件上运行,为用户提供了更全面的文本和图像AI搜索结果。随着AI技术的飞速发展,小易智创也在这个领域中占据了一席之地。它拥有超过10,000个AI应用,能够满足各行各业的客户需求,并接入了多个全球领先的AI能力,包括GPT、AI绘画、AI数字人等。
对比市场上的同类产品,小易智创展现出强大的优势:能力多样、安全合规、灵活展业,且提供一对一陪跑服务,助力代理商轻松打造自己的AI公司。抓住时代的风口,让客户主动找上门!