站点图标 AI Siri-苹果智能资讯网

腾讯混元世界模型1.5发布!业界最全面实时世界模型框架首度开源

腾讯混元世界模型1.5发布!业界最全面实时世界模型框架首度开源

在生成式AI竞赛进行到“中场战事”的今天,模型能力的比拼,正悄悄从静态的图文向动态的、可交互的世界演化。今日,腾讯正式释放了一枚指向未来的“探针”:混元世界模型1.5

用户只需输入一段文字或一张图片,一个可供实时探索的互动世界便开始构建。这不再是让AI“画一幅画”,而是让你“走进”AI创造的世界,通过键盘、鼠标或手柄,像玩第一人称游戏一样在其中自由穿行——这或许将成为下一代内容消费与娱乐的雏形。

腾讯混元世界模型1.5发布

然而,比炫酷演示更重要的是其开源姿态。本次发布中,腾讯做出了一个可能影响行业技术路线的决定:首次开源了“业界最系统、最全面的实时世界模型框架”。这一框架覆盖了从数据、训练到流式推理部署的全链路,并公开了其背后的核心技术模块,如重构记忆力(Reconstituted Memory)、长上下文蒸馏以及基于3D的自回归扩散模型强化学习等。这相当于将打造“世界引擎”的蓝图和关键部件公之于众。

拆解来看,混元世界模型1.5的三大能力构成其商业与技术价值的支柱:

1. 实时交互生成:通过原创的Context Forcing蒸馏与流式推理优化,模型能以每秒24帧(24 FPS)的速度生成720P高清视频流,为实时交互提供了流畅的视觉基础。

2. 长范围3D一致性:借助“重构记忆”机制,模型能够保持长达数分钟生成内容在三维几何结构上的一致性。这意味着AI构建的虚拟空间不再是割裂的片段,而是一个逻辑连贯、可稳定探索的“场所”,这是迈向高质量3D空间模拟器的关键一步。

3. 多样化交互体验:模型支持适配不同美术风格(游戏或现实场景)、第一与第三人称视角切换,并能实现实时文本触发事件和视频续写。这暗示了其在游戏开发、虚拟仿真、互动影视等领域的广阔应用潜力。


场景生成示例

其技术核心在于WorldPlay自回归扩散模型。它采用“下一帧预测”(Next-Frames-Prediction)的视觉自回归任务进行训练。简单说,它不仅要生成一张图,还要预测接下来一系列连贯的帧,从而实现了在“实时性”与“几何一致性”这两个长期困扰业界的难题上取得关键突破。

将如此前沿的框架开源,腾讯的算盘或许不止于技术展示。一方面,这能迅速吸引全球开发者与研究者基于其框架进行探索与创新,加速生态形成;另一方面,在争夺下一代人机交互入口的赛道上,确立了自身在“可交互生成式AI”领域的基础设施地位。对于游戏、元宇宙、自动驾驶仿真等产业而言,一个稳定、高效、开源的世界模型框架,无疑是一块极具吸引力的技术基石。

当大模型还在为多轮对话的“记忆力”较劲时,腾讯的混元世界模型已经在尝试为AI赋予对三维空间的“持久记忆”与“构建能力”。这不再只是对话的延续,而是空间的延展。它能否撬动一个比当前AI绘图、文生视频更大的市场,值得持续观察。

退出移动版