|
12月17日,腾讯旗下混元系列产品迎来重要更新。其最新发布的世界模型1.5版本,允许用户通过输入文字描述或图片,快速构建出专属的、可交互的动态场景。 在该模型构建的场景中,用户能够通过键盘、鼠标或手柄等设备,实时控制观察视角的移动与转向,从而获得类似探索开放世界游戏般的沉浸式体验。 腾讯发布新一代世界模型技术框架 此次发布的技术框架,被业界视为目前覆盖链路最为完整的实时世界模型解决方案之一。该框架公开了从数据处理、模型训练到流式推理部署的全套环节,并整合了多项创新算法,包括重构记忆力机制、长上下文信息蒸馏以及基于三维空间的自回归扩散模型强化学习模块。 据悉,新版本模型主要聚焦于三大技术特性的提升:
技术资料显示,该模型的核心基于名为WorldPlay的自回归扩散模型架构。它采用下一帧预测的视觉自回归任务进行训练,旨在实现长序列内容中几何结构的一致性与实时交互的流畅性,这一直是相关技术领域面临的关键挑战。 |















