NVIDIA联合多所顶尖高校打造的“全能机器人大脑“

这项研究来自NVIDIA与伊利诺伊大学厄巴纳-香槟分校、加州大学圣地亚哥分校、香港理工大学、密歇根大学、南洋理工大学、约翰斯·霍普金斯大学以及蒂宾根大学等多所顶尖机构的联合团队,于2026年6月18日发布在预印本平台arXiv,论文编号为arXiv:2606.20905。有兴趣深入了解的读者可以通过该编号查询完整论文。

现在,机器人领域正面临一个听起来有些滑稽的困境——为了让机器人变得聪明,工程师们往往需要给它装上一大堆"专家顾问":一个专门认路的导航专家、一个专门记事的记忆专家、一个专门看图说话的视觉专家……这些专家各自为政,互相传话,结果一旦某个专家出错,整条链子就断了。这就像你雇了一支豪华团队来帮你搬家,但厨师只管厨具、司机只管开车、搬运工只管箱子,没人能统筹全局,最后你的沙发被搬到了阳台,电视被放进了储物间。

Vesta的出现,就是为了解决这个"群龙无首"的混乱局面。它的核心思路很简单——把所有这些专家的能力,全部塞进一个人的脑子里。而且实验结果表明,这个"全能选手"不仅没有因为什么都学而变得平庸,反而在几乎每项测试中都打败了那些术业专攻的专家模型。

一、为什么机器人需要"全能大脑",而不是一群专家顾问

要理解Vesta解决的是什么问题,不妨先想象一个在超市工作的人形机器人。它需要同时具备好几种截然不同的能力:当地面脏了,它要规划出最高效的清洁路线;当有顾客过来询问,它要理解问题并给出合理答复;当它不确定某样东西该被放回货架还是扔进垃圾桶时,它需要结合常识作出判断;当它完成了一个区域的清洁之后,它还要记住自己做过什么,以免重复劳动。这四件事,在今天的机器人领域,通常是由四个完全独立的模型分别负责的。

这种"专家团队"模式在实验室里看起来很美好,因为每个专家都可以在自己的领域里达到最高水准。但当你把这些专家拼到一起部署到真实世界,问题就接踵而来。首先,多个大型模型同时运行,计算资源的消耗是惊人的;其次,专家之间传递信息本身就会引入延迟;更要命的是,一旦某个专家输出了一个错误的结论,这个错误会像多米诺骨牌一样,在传递过程中被后续专家放大和继承,最终导致整个系统崩溃。研究团队把这种现象称为"级联失败"。

Vesta的解决思路是把所有专家合并成一个,也就是用一个统一的基础模型,同时承担定位、导航、空间推理和长期规划四大能力。而且这个模型在面对真实机器人任务时,还要能够记住过去发生了什么,并基于这段"记忆"做出下一步决策。

二、Vesta是怎么被"喂"出来的——数据混合的讲究

Vesta的基础是阿里云的Qwen3-VL-8B模型,这是一个已经具备强大视觉和语言理解能力的大模型。研究团队对它进行了专门的"增强训练",而这个过程最关键的部分,是精心设计的训练数据配方。

整个训练数据集被分成六大类别,每类的比例都经过仔细斟酌。占比最大的是"空间智能"相关数据,约占总量的27.1%,这类数据专门训练模型理解三维空间中物体的位置关系。紧随其后的是导航数据,占21.8%,以及物体定位数据,占20.8%。通用视觉语言数据占16.2%,这部分数据的作用是防止模型在专项训练中"忘掉"原本的通用能力。剩余的约9.8%是具身推理数据,最后约4.3%来自真实机器人操作的实际数据。

这个数据配方的设计哲学很清晰:大头给空间相关能力,因为机器人理解世界本质上是在理解空间;保留一块给通用能力,防止模型变成"单纯的机器人工具"而失去泛化能力;最后用少量真实机器人数据来做"落地校准",让模型知道理论最终要服务于真实操作。

在定位能力的训练上,研究团队采用了一种"主干加尾巴"的策略。主干部分使用了Objects365、COCO和LVIS等大规模通用物体检测数据集,这些数据集覆盖了数以千计的物体类别,能让模型建立起扎实的通用识别基础。尾巴部分则专门加入了机器人视角的数据,包括第一人称视角的观察、以操作为中心的标注,以及随时间推移的交互序列。这些数据帮助模型适应机器人特有的观察条件,比如视角受限、物体被部分遮挡,以及需要预判哪个位置适合抓握等。

导航能力的训练数据来自R2R、RxR和ScaleVLN三个经典数据集,这些数据集在Habitat和Matterport3D等虚拟环境中被渲染成实际的导航轨迹。在训练时,模型不仅要看当前帧,还要接收历史帧作为参考,以便理解自己走过了哪条路。

三、让机器人有"记性"——记忆模块的设计

机器人任务中有一类格外棘手的挑战,就是那些跨越很长时间段的任务,比如把杂货从纸袋里一样一样取出来分门别类放好,或者在四个抽屉里找一块糖果并记住哪个抽屉已经翻过。这类任务有个特点:下一步要做什么,高度依赖于之前发生了什么。用研究者的术语说,这是"非马尔可夫"问题——当前状态不能完整描述你需要知道的一切。

Vesta的处理方式是给自己配备一个明确的记忆模块。这个记忆模块的工作方式其实非常朴素,但朴素不代表无效。每走完一个步骤,系统就把这一步的关键信息打包存档,包括步骤编号、时间戳、当时的视觉画面、模型做出的决策,以及整体目标。当需要做下一步决策时,这段历史记录会被重新注入到模型的输入中,让它"回忆"起之前做了什么。

历史图像的数量是有上限的,研究团队用了两种不同的采样策略来从历史中挑选哪些帧被保留下来:一种是均匀采样,均等地从历史时间轴上取点;另一种是偏向近期的采样,越近的帧被选中的概率越高,因为刚刚发生的事情通常与当前决策更相关。值得一提的是,第一帧永远会被保留,因为任务的起始状态对于理解整体进度至关重要。

研究团队还在决策过程中引入了链式思考机制。在给出每个子任务的预测之前,模型会经历四个思考阶段:先做"观察",描述当前看到了什么;再做"进度评估",判断整体任务完成了多少;然后进行"推理",分析下一步应该做什么以及为什么;最后才输出具体的"行动"指令。这四个阶段只有行动指令会被写入记忆,其余是辅助思考过程。

后来的消融实验证明,仅用图像记忆或仅用文字记忆的效果都比两者结合差。纯图像记忆的模型看到画面却难以理解任务进度,容易过早切换行动;纯文字记忆的模型则过度依赖文字捷径,频繁输出"继续当前任务"这种敷衍的答案。图像加文字的混合记忆才能两全其美。

四、导航能力——一个模型追平了导航专家

在视觉语言导航领域,衡量一个模型好不好,最核心的指标是它能否把智能体引导到正确目的地。研究团队用了R2R(Room-to-Room)数据集的未见场景验证集来测试Vesta,这个验证集包含1839个导航任务,都发生在训练时从未出现过的场景中。

Vesta在这项测试中取得了55.5%的成功率,与此前的导航专家模型InternVLA-N1几乎持平,后者的成功率是55.4%。Vesta在成功率和"预言成功率"两个指标上甚至微微领先,只是在路径效率方面略微逊色。相比之下,那些没有专门训练导航的通用模型——包括RynnBrain、RoboBrain 2.5和Qwen3-VL——成功率全部是零。这说明导航能力需要专门训练,但同时也说明,如果训练数据到位,一个通用模型完全可以达到专家水准。

消融实验进一步验证了这一点。当研究团队用完全相同的架构和训练资源,只做导航数据训练时,得到的专家模型成功率为54.1%;只做具身推理数据训练时,成功率为零;而统一训练的Vesta成功率达到了55.5%,反而比纯导航专家还高了1.4个百分点。这个结果出人意料却意义重大:不同任务之间的联合训练不但没有相互干扰,反而产生了正向迁移,让模型在各个维度上都有所提升。

五、具身推理——看图回答"这里发生了什么"

具身推理是一种比普通图像问答更复杂的能力,它要求模型不仅理解图像中有什么,还要理解智能体应该做什么、能从哪里抓取物体、物体放在哪里最合适。研究团队在十个认知类基准和五个定位类基准上对Vesta进行了综合测试。

在认知类测试中,Vesta的平均分是68.7,而最强的竞争者RynnBrain得了64.8,RoboBrain 2.5得了56.6,Qwen3-VL得了55.7。Vesta在Open-X VQA上得了89.3分,远超RynnBrain的74.0;在MindCube空间推理测试上得了80.9分,而RynnBrain只有56.6,RoboBrain 2.5只有29.2。在EgoTaskQA这项以第一人称视角理解人类任务的测试上,Vesta得了81.9分,比基础模型Qwen3-VL高出超过24分。

在定位类测试中,Vesta的平均分是69.9,超过了所有其他模型。RoboBrain 2.5紧随其后得了69.4,两者接近,但Vesta在CrossPoint这项需要理解跨视角对应关系的任务上以76.0分大幅领先(RynnBrain只有44.3,Qwen3-VL只有28.7)。

值得特别提到的是,那些纯导航专家模型在具身推理测试中的表现近乎灾难性——InternVLA-N1由于过度专项训练出现了"灾难性遗忘",在面对任何非导航问题时,都机械地输出转向指令,完全失去了回答问题的能力。这是"只会一招"的专家模型最典型的短板。

六、动作规划——在流水线式的真实任务中辗压对手

动作规划测试的场景是这样的:机器人面对一段预先录制好的操作视频,每隔固定时间,它要从候选动作列表中选出当前最合适的子任务,并持续追踪任务进度。这个测试分为两个数据集:AgiBot公开数据集提供了五类标准机器人操作任务,包括清理桌面、放置水果、分拣零件、折叠衬衫和补充货架;内部的以人手为主角的Egocentric Human-Hand数据集则包含了60种极为多样化的现实任务,从组装手机到雕刻石头再到修剪地毯,每种任务只有一条轨迹。

Vesta在这项测试中的表现令人印象深刻。总体平均分达到75.4,而最接近的竞争者RoboBrain 2.5只有38.5,Qwen3-VL和RynnBrain分别是33.6和33.5。具体到各个子任务,Vesta在清理桌面上得了74.4分(对手最高只有38.7),在放置水果上得了91.0分(对手最高81.6),在分拣零件上得了64.0分(对手最高18.1),在折叠衬衫上得了80.3分(对手最高38.3),在补充货架上得了82.3分(对手最高33.0)。即便是在那60个高度多样化、完全零样本的人手任务上,Vesta也以60.5分对27.0分大幅领先。

这个测试还特别关注"过渡时刻"——也就是机器人从一个子任务切换到下一个子任务的那一刻。过渡时刻在训练数据中天然稀少,因为大多数时候机器人都在"继续执行当前任务"。研究团队发现,将过渡时刻的训练样本按2倍比例过采样,能显著提升过渡阶段的准确率,同时整体表现也有明显改善;进一步提升到3倍则收益递减,还会轻微损害执行阶段的准确率。于是2倍成为了默认配置。

七、在真实机器人上验证——三个考验"记性"的任务

所有的基准测试都是在虚拟环境或预录视频上进行的,最终能否在真实机器人上有效运作,才是检验一切的终极考场。研究团队使用了I2RT公司的双臂YAM夹持机器人,设计了三个专门考验记忆和推理能力的实测任务。

第一个任务是"寻找物品":一件物品被随机放置在四个抽屉中的某一个里,机器人要逐一打开抽屉查找,找到后取出放到桌上。任务的挑战在于,如果同一个抽屉被打开两次,任务立即判定失败。这意味着机器人必须记住自己已经开过哪个抽屉,不能重复劳动。

第二个任务是"数水果":桌上摆着一个野餐篮和若干水果,系统指定要放入几个水果,机器人就要一个一个地把正确数量的水果放进去,然后关上篮子。这考验的是计数能力,以及在一系列重复动作中不出错地停在正确步骤。

第三个任务是"记住糖果":桌上放着一块糖、一个盒子和两个不同颜色的托盘。机器人要把糖放进盒子、关上盖子,然后把盒子放到与糖果颜色相匹配的托盘上。难点在于,一旦盒子关上,糖果就不再可见,机器人必须凭记忆知道盒子里装的是什么颜色的糖。

每个任务各测试20次,分三种配置对比:纯执行模型(没有规划器)、执行模型加Qwen3-VL规划器、执行模型加Vesta规划器。结果显示,加入Vesta规划器之后,三个任务的平均成功率比纯执行模型提升了38.3%,比使用Qwen3-VL规划器提升了25%。这个结果在统计上的置信度超过4个标准差,意味着这不是偶然现象。研究团队还指出,在失败案例中,大多数失败来自执行模型本身的动作错误,而非规划器的判断失误,这说明规划器已经相当可靠。

归根结底,Vesta这项研究的意义不只是"又一个比别人强的模型"。它回答了一个在机器人研究领域争论已久的问题:把所有能力塞进一个模型,真的可行吗?长期以来,很多研究者认为,每个任务太复杂、差异太大,让一个模型同时精通所有任务几乎是不可能的。Vesta的结果给出了一个明确的"可以"——而且不只是"也还行",而是"比专家团队集体出战还要强"。

当然,这项研究也坦诚地指出了自己的局限。目前的测试只在一种机器人平台和三种任务上进行了验证,真实世界的机器人场景远比这复杂;模型的规模停留在80亿参数级别,更大规模下的表现尚未探索;记忆模块目前依赖人工设计的规则,而不是从数据中自我学习。这些都是研究团队明确列出的"未来工作方向"。

这对普通人意味着什么?如果这条路线继续发展下去,未来家庭助理机器人、医疗陪护机器人、工厂操作机器人的内部设计可能会大幅简化,部署成本会降低,可靠性会提升。机器人不再需要是一群专家的拼凑,而可以是一个真正理解上下文、有记忆、能推理的整体。那个超市里的清洁机器人,或许某一天真的能够在打扫地板的同时,礼貌而准确地回答你"芝士片放在哪个货架"的问题了。

Q&A

Q1:Vesta和普通机器人控制模型有什么本质区别?

A:传统机器人系统通常使用多个专门模型分工合作,一个负责导航、一个负责识别物体、一个负责规划任务。Vesta把这四种能力——定位、导航、具身推理、动作规划——全部统一进一个模型。好处是减少了模型之间的传话误差,降低了计算资源消耗,也避免了某个专家出错后错误层层放大的问题。实验证明,这个"全能选手"甚至比各领域的专家模型还要表现得好。

Q2:Vesta的记忆功能是怎么实现的?

A:Vesta用一个明确的记忆模块来记录任务过程。每完成一个步骤,系统就把当时的图像、时间戳、步骤编号和决策结果存档。下次做决策时,这些历史记录会被重新注入模型输入,让它"回忆"之前发生了什么。历史图像数量有上限,通过均匀采样或偏向近期的采样来选取哪些帧保留,第一帧永远被保留。实验证明,图像加文字的混合记忆比单独用其中一种效果更好。

Q3:Vesta在真实机器人上测试了哪些任务,效果如何?

A:研究团队用双臂夹持机器人测试了三项任务:在四个抽屉里找物品(不能重复开同一个抽屉)、把指定数量的水果放进篮子、把糖放进盒子后凭记忆找到颜色匹配的托盘放置。每项任务测试20次。加入Vesta规划器后,三项任务的平均成功率比没有规划器的版本提升了38.3%,比使用Qwen3-VL规划器的版本提升了25%,统计置信度超过4个标准差。