复旦团队提出 ICWM:少量随机探测让 VLA 模型跨视角泛化能力提升 13% 【导语视觉 - 语言 - 动作VLA模型在部署时易因环境改变性能下降以往方法费时费力。复旦大学邱锡鹏教授团队提出“上下文世界建模”ICWM显著提升了 VLA 模型在新环境中的适应能力。】ICWM突破 VLA 模型部署困境视觉 - 语言 - 动作VLA模型在部署时相机视角、安装位置或机器人形态稍有变化性能就可能下降。以往“上下文学习”靠人工演示任务执行环境改变时需重新收集数据、调模型。而邱锡鹏教授团队提出的 ICWM让机器人在任务执行前进行随机探测将交互过程作为上下文输入模型判断系统运作。训练推理双阶段ICWM 独特设计ICWM 的设计分为训练和推理阶段。训练阶段研究团队在任务样本前拼接交互片段作为上下文输入模型根据画面变化判断系统配置且直接用 VLA 主干处理交互历史简化结构并利于动作预测。推理阶段机器人先主动探测记录观测变化形成交互上下文再结合上下文、画面和任务指令判断动作。实验结果显示ICWM 表现显著优于现有方法。在 LIBERO 仿真基准跨视角实验中已见视角下平均高出 8.1%新视角下平均高出 13.0%在 UR5e 真实机器人平台上稳定性也更强标准 VLA 平均成功率从 68% 降至 17%ICWM 表现相对稳定。消融分析交互上下文是关键消融实验表明ICWM 的性能提升来自交互上下文而非简单模式匹配。去掉图像信息平均成功率从 25.0% 降到 10.9%去掉动作信息或不提供交互上下文模型表现下降提供错误上下文表现更差。对照实验也说明模型需专门训练才能利用交互上下文适应环境。可视化结果显示模型能区分不同视角和配置且 ICWM 效果不依赖特定探测方式对机器人形态变化和语义扰动场景有较强适应性成功率提升约 15% 至 27%。不足与展望ICWM 仍待完善尽管 ICWM 提升了 VLA 模型适应能力但仍存在不足。部分极端视角下因遮挡和目标移出视野性能提升有限未来需结合多视角感知等能力语义扰动实验中因训练数据场景语义和组合配置不够丰富提升也较有限扩充训练数据有望继续提升表现。编辑观点ICWM 为 VLA 模型带来重要突破提升了其在新环境的适应能力。虽有不足但研究方向明确未来发展值得期待有望推动机器人在更多复杂场景的应用。