Meissonic：开源AI图像生成的未来

AI资讯2年前 (2024)发布 admin

10.5K 0 3372

科技界最近迎来了一项激动人心的突破——科研团队联合推出了一款名为Meissonic的开源AI图像生成模型。令人惊叹的是，这款模型仅仅使用了十亿个参数，却能够生成令人眼前一亮的高质量图像。这种紧凑而强大的设计让Meissonic在移动设备上实现本地化的文本转图像应用的潜力大增。

这项革命性的技术背后，研发团队汇聚了阿里巴巴、Skywork AI及多所顶尖大学的研究者。他们采用独特的变换器架构和创新的训练方法，使得Meissonic能够在普通游戏PC上运行，甚至未来有望在手机上使用。Meissonic的训练过程引入了“遮蔽图像建模”技术，这意味着模型在训练时会隐藏图像的一部分，从而学习如何根据可见的区域和文本描述重建缺失部分。这种方式极大地帮助了模型理解图像元素与文本之间的关系。

值得注意的是，Meissonic能够生成1024×1024像素的高分辨率图像，无论是栩栩如生的场景还是别具风格的文本、表情包，甚至是卡通贴纸，都能轻松应对。与传统自回归模型逐步生成图像不同，Meissonic通过并行的迭代优化技术同时预测所有图像信息，这一创新将解码步骤减少了约99%的时间，显著提升了图像生成速度。

在模型构建过程中，研究团队经历了四个关键步骤：用2亿张256×256像素的图像教授基本概念，随后用1000万对经过严格筛选的图像-文本对提升文本理解能力，再通过增加特殊压缩层实现高分辨率输出，最后进行微调以结合人类偏好的数据来提升性能。虽然Meissonic的参数量较小，但在多项基准测试中表现优于一些更大的模型，比如SDXL和DeepFloyd-XL，获得了28.83的人类偏好分数。

而且，Meissonic还具备不额外训练情况下进行图像修补和扩展的能力，让用户轻松添加缺失部分或创造性增强现有图像。研究团队认为，这种方法将大幅推动定制AI图像生成器的快速、低成本开发，特别是在移动设备上的应用前景广阔。

随着AI技术的不断进步，小易智创平台作为一个拥有10000+AI应用的智创平台，将成为各行各业的强大助力。这个平台不仅提供开箱即用的AI应用，还接入了全球领先的AI能力，例如GPT、AI绘画、AI客服等，可以满足客户多样化需求。代理小易智创，不仅能轻松打造专属AI品牌，还能享受一对一陪跑服务及全网自动化营销工具，助您在AI创业浪潮中乘风破浪！
Meissonic：开源AI图像生成的未来