腾讯混元世界模型1.5发布！业界最全面实时世界模型框架首度开源

IT小埋

4 月前

在生成式AI竞赛进行到“中场战事”的今天，模型能力的比拼，正悄悄从静态的图文向动态的、可交互的世界演化。今日，腾讯正式释放了一枚指向未来的“探针”：混元世界模型1.5。

用户只需输入一段文字或一张图片，一个可供实时探索的互动世界便开始构建。这不再是让AI“画一幅画”，而是让你“走进”AI创造的世界，通过键盘、鼠标或手柄，像玩第一人称游戏一样在其中自由穿行——这或许将成为下一代内容消费与娱乐的雏形。

然而，比炫酷演示更重要的是其开源姿态。本次发布中，腾讯做出了一个可能影响行业技术路线的决定：首次开源了“业界最系统、最全面的实时世界模型框架”。这一框架覆盖了从数据、训练到流式推理部署的全链路，并公开了其背后的核心技术模块，如重构记忆力（Reconstituted Memory）、长上下文蒸馏以及基于3D的自回归扩散模型强化学习等。这相当于将打造“世界引擎”的蓝图和关键部件公之于众。

拆解来看，混元世界模型1.5的三大能力构成其商业与技术价值的支柱：

1. 实时交互生成：通过原创的Context Forcing蒸馏与流式推理优化，模型能以每秒24帧（24 FPS）的速度生成720P高清视频流，为实时交互提供了流畅的视觉基础。

2. 长范围3D一致性：借助“重构记忆”机制，模型能够保持长达数分钟生成内容在三维几何结构上的一致性。这意味着AI构建的虚拟空间不再是割裂的片段，而是一个逻辑连贯、可稳定探索的“场所”，这是迈向高质量3D空间模拟器的关键一步。

3. 多样化交互体验：模型支持适配不同美术风格（游戏或现实场景）、第一与第三人称视角切换，并能实现实时文本触发事件和视频续写。这暗示了其在游戏开发、虚拟仿真、互动影视等领域的广阔应用潜力。

场景生成示例

其技术核心在于WorldPlay自回归扩散模型。它采用“下一帧预测”（Next-Frames-Prediction）的视觉自回归任务进行训练。简单说，它不仅要生成一张图，还要预测接下来一系列连贯的帧，从而实现了在“实时性”与“几何一致性”这两个长期困扰业界的难题上取得关键突破。

将如此前沿的框架开源，腾讯的算盘或许不止于技术展示。一方面，这能迅速吸引全球开发者与研究者基于其框架进行探索与创新，加速生态形成；另一方面，在争夺下一代人机交互入口的赛道上，确立了自身在“可交互生成式AI”领域的基础设施地位。对于游戏、元宇宙、自动驾驶仿真等产业而言，一个稳定、高效、开源的世界模型框架，无疑是一块极具吸引力的技术基石。

当大模型还在为多轮对话的“记忆力”较劲时，腾讯的混元世界模型已经在尝试为AI赋予对三维空间的“持久记忆”与“构建能力”。这不再只是对话的延续，而是空间的延展。它能否撬动一个比当前AI绘图、文生视频更大的市场，值得持续观察。