首页 财经 理财 产业 商业 证券 消费 图片 视频 全国

科技

旗下栏目: 科技 汽车 房产 工农

英伟达开源 NitroGen,统一的视觉到行动模型

来源: 作者:霞舞 人气: 发布时间:2025-12-22
摘要:英伟达研究团队近日正式对外开源了全新基础模型——NitroGen。据官方介绍,NitroGen是一款统一的“视觉到动作”模型,能够直接从原始游戏画面帧中理解内容并实时输出对应的手柄操作指令,实现端到端的游戏交互。该模型以“玩游戏”为根本训练目标,覆盖范围极

英伟达研究团队近日正式对外开源了全新基础模型——nitrogen。据官方介绍,nitrogen 是一款统一的“视觉到动作”模型,能够直接从原始游戏画面帧中理解内容并实时输出对应的手柄操作指令,实现端到端的游戏交互。

该模型以“玩游戏”为根本训练目标,覆盖范围极为广泛,涵盖《巫师3:狂猎》《赛博朋克2077》等在内的1000余款游戏,类型横跨RPG、竞速、大逃杀(吃鸡)、2D平台及3D开放世界等多种游戏形态。

NitroGen 的研发初衷并非单纯追求更高胜率或更优游戏表现的“AI玩家”,而是致力于探索一种更具泛化能力的具身智能训练路径——即在海量、多样化的虚拟仿真环境中,习得跨越不同物理规则与交互逻辑的通用运动控制策略。

研究人员观察到,原本为机器人控制任务设计的 GR00T N1.5 模型,在未经显著调整的前提下,便能在机制迥异的各类游戏中展现出极强的任务迁移能力,这为 NitroGen 的架构设计提供了关键启发。

SpeechEasy

SpeechEasy是一种合成语音解决方案,可以让用户从文本生成高质量、易于理解的音频。

下载

NitroGen 的核心构成包含三大要素:

  • 一个规模超4万小时、高质量、完全公开的真实游戏视频数据集;
  • 一个专为连续动作空间优化、具备强大运动建模能力的基础模型;
  • 一套通用 Gym API 接口,支持将任意游戏二进制程序封装为可执行环境,用于高效 rollout 推理与训练。

该数据集囊括800多款游戏,其中每款均提供不少于1小时的高质量行为轨迹;另有15款热门游戏的数据时长突破1000小时。值得一提的是,NitroGen 实现了全栈式开源:预训练权重、完整动作标注数据集、训练与推理代码、以及详尽的技术白皮书全部开放。

项目主页:https://www.php.cn/link/dd31058a4e2ad163eb0c08c07dea8dfb
源码地址:点击下载

责任编辑:霞舞
首页 | 财经 | 理财 | 产业 | 商业 | 证券 | 消费 | 图片 | 视频 | 全国

Copyright 2025 九掌金融版权所有  技术支持:政产学研(海南)投资有限公司 备案号:琼ICP备2025065810号-1

电脑版 | 移动版