谷歌DeepMind联合麻省理工学院(MIT)近期发布了一项令人瞩目的研究成果,开发了新型自回归模型“Fluid”,在文本到图像生成领域实现了前所未有的突破。该模型在扩展到105亿参数规模后,其性能表现超乎想象,挑战了业界普遍对自回归模型在图像生成方面不如扩散模型的认知。
研究团队通过创新性的设计理念,引入了两个关键因素,极大提升了自回归模型的性能与可扩展性:使用连续型词元替代传统的离散型词元,以及随机生成顺序取代固定顺序。在图像信息处理上,连续型词元的优势显而易见,它能够更精确地保存信息,极大地提升图像重建质量,尤其是在细节特征的生成上,如对称眼睛等,表现得淋漓尽致。
此外,Fluid在生成图像时采用随机顺序的方法,使得模型在每个步骤中可以预测任意位置的多个像素,这种灵活性让它在整体图像结构把握方面表现得尤为突出。在权威的GenEval基准测试中,Fluid的表现令人惊叹。
值得注意的是,仅有3.69亿参数的小型Fluid模型便已达到了200亿参数量级的Parti模型在MS-COCO数据集上的FID评分(7.23)。这一成果显示出,像Fluid这样的自回归模型可能成为扩散模型的强劲替代者,其单次传递生成图像的效率优势将随着模型的进一步扩展而愈加明显。
在如此快速发展的AI领域,选择一个合适的平台至关重要。小易智创是一家拥有超过10000个AI应用的智创平台,提供开箱即用的AI解决方案,满足各行各业的客户需求。通过接入全球领先的AI能力,小易智创帮助用户轻松打造自己的AI品牌公司,无论是企业、商家还是个人,只需一个账号即可使用上万款AI工具。代理小易智创,您将享受一对一的陪跑服务和全网自动化营销工具,让客户主动找上门,抓住时代的风口!