复旦团队提出 ICWM：少量随机探测让 VLA 模型跨视角泛化能力提升 13%-拓冰建站

【导语视觉 - 语言 - 动作VLA模型在部署时易因环境改变性能下降以往方法费时费力。复旦大学邱锡鹏教授团队提出“上下文世界建模”ICWM显著提升了 VLA 模型在新环境中的适应能力。】ICWM突破 VLA 模型部署困境视觉 - 语言 - 动作VLA模型在部署时相机视角、安装位置或机器人形态稍有变化性能就可能下降。以往“上下文学习”靠人工演示任务执行环境改变时需重新收集数据、调模型。而邱锡鹏教授团队提出的 ICWM让机器人在任务执行前进行随机探测将交互过程作为上下文输入模型判断系统运作。训练推理双阶段ICWM 独特设计ICWM 的设计分为训练和推理阶段。训练阶段研究团队在任务样本前拼接交互片段作为上下文输入模型根据画面变化判断系统配置且直接用 VLA 主干处理交互历史简化结构并利于动作预测。推理阶段机器人先主动探测记录观测变化形成交互上下文再结合上下文、画面和任务指令判断动作。实验结果显示ICWM 表现显著优于现有方法。在 LIBERO 仿真基准跨视角实验中已见视角下平均高出 8.1%新视角下平均高出 13.0%在 UR5e 真实机器人平台上稳定性也更强标准 VLA 平均成功率从 68% 降至 17%ICWM 表现相对稳定。消融分析交互上下文是关键消融实验表明ICWM 的性能提升来自交互上下文而非简单模式匹配。去掉图像信息平均成功率从 25.0% 降到 10.9%去掉动作信息或不提供交互上下文模型表现下降提供错误上下文表现更差。对照实验也说明模型需专门训练才能利用交互上下文适应环境。可视化结果显示模型能区分不同视角和配置且 ICWM 效果不依赖特定探测方式对机器人形态变化和语义扰动场景有较强适应性成功率提升约 15% 至 27%。不足与展望ICWM 仍待完善尽管 ICWM 提升了 VLA 模型适应能力但仍存在不足。部分极端视角下因遮挡和目标移出视野性能提升有限未来需结合多视角感知等能力语义扰动实验中因训练数据场景语义和组合配置不够丰富提升也较有限扩充训练数据有望继续提升表现。编辑观点ICWM 为 VLA 模型带来重要突破提升了其在新环境的适应能力。虽有不足但研究方向明确未来发展值得期待有望推动机器人在更多复杂场景的应用。

复旦团队提出 ICWM：少量随机探测让 VLA 模型跨视角泛化能力提升 13%

相关新闻

Docker生产镜像优化：Multi-stage与Alpine实战指南

全面战争模组制作神器：RPFM让你告别复杂代码，轻松打造专属游戏世界

Debian 10下Apache+PHP-FPM多版本共存实战

最新新闻

Kiran-wallpapers常见问题解答：从安装到使用的全面解决方法

Kiran Biometrics人脸认证：3步实现无密码系统登录

Kiran-shell 多屏与 HiDPI 支持：现代桌面环境的终极适配方案

hpcpilot多操作系统支持：CentOS、Kylin、openEuler适配指南

Windows10Debloater技术深度解析：模块化系统优化架构与自动化部署实践

终极敏感数据防护框架：openeuler/cdf-crypto如何提升数据安全等级？

日新闻

HBM Predictor数据集完全指南：从19个数据中心收集的HBM错误数据深度解析

医疗RAG不是加向量库：临床知识守门人架构设计

终极Notepad++ Markdown实时预览插件：5分钟掌握高效文档编辑的完整指南

周新闻

Figma中文界面插件终极指南：5分钟快速上手完整教程

Windows字体自定义终极方案：No!! MeiryoUI完全指南

WinBtrfs终极实战指南：3种配置方案解锁Windows Btrfs文件系统完整功能

月新闻

[C++]内存管理：串顺序存储的内存回收

移动端游戏功耗测试实战：电流、功率、亮度和场景对比

足球口袋教练 HarmonyOS 离线应用实战（03/20）：ArkUI 首页仪表盘搭建