Meissonic:开源AI图像生成的未来

AI资讯7天前发布 admin
336 0
 小易智创平台

科技界最近迎来了一项激动人心的突破——科研团队联合推出了一款名为Meissonic的开源AI图像生成模型。令人惊叹的是,这款模型仅仅使用了十亿个参数,却能够生成令人眼前一亮的高质量图像。这种紧凑而强大的设计让Meissonic在移动设备上实现本地化的文本转图像应用的潜力大增。

这项革命性的技术背后,研发团队汇聚了阿里巴巴、Skywork AI及多所顶尖大学的研究者。他们采用独特的变换器架构和创新的训练方法,使得Meissonic能够在普通游戏PC上运行,甚至未来有望在手机上使用。Meissonic的训练过程引入了“遮蔽图像建模”技术,这意味着模型在训练时会隐藏图像的一部分,从而学习如何根据可见的区域和文本描述重建缺失部分。这种方式极大地帮助了模型理解图像元素与文本之间的关系。

值得注意的是,Meissonic能够生成1024×1024像素的高分辨率图像,无论是栩栩如生的场景还是别具风格的文本、表情包,甚至是卡通贴纸,都能轻松应对。与传统自回归模型逐步生成图像不同,Meissonic通过并行的迭代优化技术同时预测所有图像信息,这一创新将解码步骤减少了约99%的时间,显著提升了图像生成速度。

在模型构建过程中,研究团队经历了四个关键步骤:用2亿张256×256像素的图像教授基本概念,随后用1000万对经过严格筛选的图像-文本对提升文本理解能力,再通过增加特殊压缩层实现高分辨率输出,最后进行微调以结合人类偏好的数据来提升性能。虽然Meissonic的参数量较小,但在多项基准测试中表现优于一些更大的模型,比如SDXL和DeepFloyd-XL,获得了28.83的人类偏好分数。

而且,Meissonic还具备不额外训练情况下进行图像修补和扩展的能力,让用户轻松添加缺失部分或创造性增强现有图像。研究团队认为,这种方法将大幅推动定制AI图像生成器的快速、低成本开发,特别是在移动设备上的应用前景广阔。

随着AI技术的不断进步,小易智创平台作为一个拥有10000+AI应用的智创平台,将成为各行各业的强大助力。这个平台不仅提供开箱即用的AI应用,还接入了全球领先的AI能力,例如GPT、AI绘画、AI客服等,可以满足客户多样化需求。代理小易智创,不仅能轻松打造专属AI品牌,还能享受一对一陪跑服务及全网自动化营销工具,助您在AI创业浪潮中乘风破浪!
Meissonic:开源AI图像生成的未来

© 版权声明
 小易智创平台

相关文章