颠覆视频生成的AI技术！

AI资讯2年前 (2024)发布 admin

61.9K 0 6744

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：WorldDreamer是一款基于Transformer架构的革命性通用世界模型，旨在深刻理解并预测物理世界的复杂变化与动态规律，极大增强视频生成的能力。它能够在自然景观和自动驾驶场景中执行多种视频生成任务，包括文本生成视频、图像生成视频、视频编辑以及动作序列生成视频等。

WorldDreamer的核心在于其创新的视觉输入处理方式，它通过将视觉信息映射为离散标记并预测被遮蔽的标记，巧妙结合多模态提示，以促进内部互动。实验结果显示，WorldDreamer在不同环境下生成视频的表现堪称卓越，尤其是在自然场景与驾驶环境中，展现了其在文本转视频、图像转视频合成及视频编辑等多功能任务中的强大能力。

此系统的主要功能包括：
1. 图像到视频（Image to Video）：通过单张图像预测未来视频帧，以掩码视觉Token的形式对剩余帧进行高质量、连贯的视频内容生成。
2. 文本到视频（Text to Video）：仅需语言文本输入，WorldDreamer便能预测相应的视频，假设所有视觉标记均被遮蔽，生成与语言描述完全匹配的视频。
3. 视频修改（Video Inpainting）：指定视频中的mask区域，根据语言输入实现局部修改与内容替换。
4. 视频风格化（Video Stylization）：输入某段视频后随机屏蔽像素，WorldDreamer能够根据语言输入改变视频风格，创造独特主题效果。
5. 基于动作合成视频（Action to Video）：在自动驾驶场景下，输入初始帧和未来驾驶指令，WorldDreamer预测未来的视频帧，创造与驾驶行为一致的视频。

技术原理方面，WorldDreamer采用了VQGAN对图像和视频进行视觉Token化，将连续视觉信号转换为模型可处理的离散形式。其基于Transformer架构构建了通用世界模型，以理解与预测视觉信号中的动态与物理规律。此外，针对视频信号的时空特性，WorldDreamer引入了STPT，使注意力集中于时空窗口内的局部patch上，从而更好地学习视觉信号动态。

总之，WorldDreamer以其强大的多功能性和超凡的表现，为视频生成领域带来了革命性的变革。
颠覆视频生成的AI技术！