不堆参数也能很强。长程Long-Horizon任务是当前AI Agent亟需突破的难题之一。在软件工程、科学研究和复杂决策等场景中Agent 往往需要在长程条件下连续决策任何一步失误都可能影响后续任务。过去这类能力往往依赖更大的模型扩展 Agent Horizon也是另一个重要方向但一直面临基础设施不足和异构能力难以统一的问题。针对这些问题上海AI Lab 团队推出了一个 35B 参数大小的MoEAgent 模型——Agents-A1试图不靠继续堆参数仅通过扩展 Agent Horizon用更小的模型逼近万亿参数级模型的长程表现。论文链接https://arxiv.org/abs/2606.30616研究结果显示Agents-A1 在多步搜索、科学研究和长指令遵循等部分任务上已经展现出超过部分万亿参数级模型的表现并在 35B 同规模模型中保持领先。图Agents-A1 的基准测试表现。不过研究团队也表示Agents-A1 在工程类任务上仍与前沿大模型存在差距。这项研究提出了一种更经济的强大AI Agent开发方法教它们养成更持久的、经过验证的工作习惯而不仅仅是扩大它们的参数规模。Agent- A1 是如何设计的Agents-A1 是一个面向长程任务的 35B 参数 MoE Agent 模型。它依托长程知识-动作基础设施通过三阶段训练把多种 Agent 能力整合进同一个模型先进行全领域 SFT再专门训练各领域教师最后通过多教师 on-policy distillationOPD完成统一。具体流程如下1.全领域监督微调SFT该阶段旨在建立模型的通用 Agent 能力。研究团队使用多领域、多任务的高质量长程轨迹数据进行训练增强模型在长上下文条件下的理解、推理和指令遵循能力训练中采用 sample packing将多个较短样本拼接到单个训练序列中并配合注意力掩码防止样本间串扰从而减少 padding 开销、提升 GPU 利用率。2.领域级教师模型训练研究团队将模型能力拆分为搜索、科学推理、指令遵循和工具调用四类专长教师分别设计训练方案。搜索教师采用“先 SFT、后 RL”的两阶段训练并结合 GRPO 提升复杂问题拆解、多跳搜索和工具协同能力目标是在保证正确率的同时减少冗余搜索。科学教师通过两阶段 SFT先强化科学推导能力再通过工具增强轨迹训练外部交互和证据整合能力。 让模型学会何时借助外部工具并整合检索或计算得到的证据。指令遵循教师采用采用两阶段 RL 和 GRPO 训练第一阶段提升格式、长度、关键词和语言等细粒度约束满足能力第二阶段强化长上下文 ICL 中的证据定位、信息整合和上下文规则遵循能力。工具调用教师采用工具 SFT 与工具 RL 的两阶段优化重点学习何时调用工具、如何纠错以及何时结束任务并结合结果奖励、过程奖励和高质量困难任务复用提升工具使用能力。3.统一模型阶段研究团队先收集学生轨迹再由对应领域教师打分指导。与离线模仿不同教师直接评估学生自身生成的轨迹。最终模型通过按领域路由的蒸馏和显著词汇对齐兼顾全领域 SFT 的广泛能力与各领域教师的专长。图Agents-A1 三阶段训练流程概览。为支撑这一训练流程研究团队构建了以知识-动作图 KAG为核心的知识-动作基础设施并通过自博弈不断扩展高质量长轨迹数据。这样训练样本不仅包含问题和答案也能完整保留工具使用与验证过程。图 Agents-A1 的知识-动作基础设施概览。实验结果整体来看Agents-A1 在长程搜索、指令遵循和科学推理等任务上表现突出不仅领先同规模 35B 模型也在部分基准上超过了部分万亿参数级模型。具体结果如下图Qwen3.5-35B-A3B、Agents-A1-SFT 和 Agents-A1 的性能对比。1.全领域 SFT结果显示Agents-A1-SFT 在长程搜索、工程任务和科学研究等方向上明显提升但在通用 Agent 任务、指令遵循和 HLE 上出现回落。这也说明仅靠全领域 SFT 还难以缓解不同推理模式之间的冲突。2.领域教师模型训练搜索增强教师在四个基准上都稳定优于 Qwen3.5-35B-A3B。尤其在通用AI 助手基准 GAIA 上提升最为明显数值从 59.8 提升到 95.1。图Qwen3.5-35B-A3B 与搜索增强教师模型的性能对比。科学增强教师两阶段 SFT 显著增强了教师模型的科学推理和工具交互能力相较基线模型科学增强教师在各项科学任务上整体更优尤其在 FS-R 上实现了从 2.5 到 54.3 的大幅提升。图Qwen3.5-35B-A3B 与科学增强教师模型的性能对比。指令遵循与长上下文学习实验强化学习显著提升了模型的长上下文理解、指令遵循及对可验证指令约束的泛化能力。总体上RL 增强教师在相关评测中优于 Qwen3.5-35B-A3B其中 LongBench V2 和 IFBench 的提升尤为明显。图Qwen3.5-35B-A3B 与 RL 增强教师模型在 LongBench V2、IFBench 和 IFEval 上的评测结果。工具调用实验显式工具使用监督与强化学习显著提升了模型的工具调用能力尤其在需要多轮、结构化交互的任务中效果更明显具体而言工具增强模型在 τ²-Bench 和 VitaBench 上均取得了显著提升。图Qwen3.5-35B-A3B 与工具增强 RL 教师模型在 τ²-Bench 和 VitaBench 上的性能评测结果。统一模型实验结果表明多教师 OPD 较单纯的全领域 SFT 更能缓解不同任务推理模式之间的冲突在保留广泛能力覆盖的同时更好地整合各领域专长并进一步提升长程任务表现。图Agents-A1 与 35B / 1T 级模型的对比。除标准基准外研究团队还通过两个案例展示了 Agents-A1 的长程 Agent 能力。以鲸鱼叫声检测任务为例Agents-A1 已经能够在较长时间跨度内持续优化完整机器学习流程。模型在一次 12 小时运行中从简单 CNN 基线出发将验证集 AUC 从 0.58 提升至 0.9935。这表明Agents-A1 已超越局部调参具备在多轮迭代中持续改进方案并提升泛化能力的能力。图Agents-A1 在 ICML 2013 Whale Challenge 上一次 12 小时运行中的优化轨迹。Agents-A1在地球科学任务中也具备较完整的端到端分析能力。以 2008 年热带气旋 Nargis 为例模型能够自动识别数据源并完成数据提取、清洗、派生指标计算、可视化和结果综合形成从规划到报告生成的多阶段闭环同时较高保真度地重建了风暴演化过程。图由 Agents-A1 生成的 2008 年热带气旋Nargis的路径。不足和未来方向尽管Agents-A1在多项长程任务上表现较强但仍存在一些不足。具体如下首先模型在“先规划再推理”“先反思再行动”、长上下文关键信息总结和重要历史信息识别等基础原子能力上仍有提升空间这些能力会直接影响长程任务中的稳定性、目标一致性与执行效率。未来需要重点强化这些基础能力并以此进一步提升 Agents-A1 的长过程求解能力。其次在机器学习工程任务上Agents-A1 与更大模型之间仍有明显差距。未来如何增强模型在完整工程流程中的目标一致性、决策记忆与试验效率仍是一个重要研究方向。最后经过 OPD 训练的统一学生模型并不能在所有领域都稳定超过对应的教师模型。未来如何在模型统一性与领域专长之间取得更好平衡仍是后续需要解决的问题。原文链接35B Agent超越万亿参数模型上海AI Lab开源Agents-A1scaling the Horizon-36氪
深度学习项目复现实战:从GitHub代码到可运行结果的系统方法论 1. 这篇文章真正要解决的问题你是否曾经在GitHub上看到一个炫酷的深度学习项目,论文结果令人惊艳,代码仓库也开源了,于是兴冲冲地git clone下来,结果在本地环境折腾了三天三夜,不是依赖冲突就是CUDA版本不对࿰…
UIAbility 与 WindowStage:窗口创建、加载、销毁的完整链路 UIAbility 与 WindowStage:窗口创建、加载、销毁的完整链路 在 Stage 模型里,UIAbility 负责应用组件生命周期,WindowStage 负责承载页面窗口。很多窗口问题表面看是页面白屏、重复加载、销毁后回调还在执行,本质都是 Ability 和窗…
Codex + Figma:从零构建高保真 UI 的终极指南 Codex + Figma:从零构建高保真 UI 的终极指南 引言:设计到代码的范式转移 在产品开发的传统流程中,设计师与开发者之间存在着一道无形的墙。设计师在 Figma 中精心打磨每一个像素,开发者则在前端代码中手动还原这些设计意图。这个过程充满了摩擦:手动标注、反复沟通、版…
Docker容器受限环境下反弹Shell的五种实战技巧与防御策略 1. 项目概述:一次在受限环境下的攻防博弈最近在安全研究圈里,禅道18.0.beta1版本的一个漏洞引起了不小的讨论。这个漏洞本身并不算特别新颖,但其利用场景——一个运行在Docker容器内的禅道系统——却给渗透测试带来了新的挑战。Docker容器化部…
UVa 522 Schedule Problem 题目描述 题目要求为项目中的各个部分安排开始时间,使得整个项目完成时间最短。每个部分需要连续若干天完成。约束条件有四种: FAS\texttt{FAS}FAS:第二部分必须在第一部分开始之后完成。FAF\texttt{FAF}FAF:第二部分必须在第一部…
UVa 521 Gossiping 题目描述 题目模拟一个城镇的公交系统。有 nnn 条公交线路(0<n<200 < n < 200<n<20),ddd 辆公交车(0<d<300 < d < 300<d<30),sss 个公交站(0<s<500 …
UVa 520 Append 题目描述 题目要求计算给定的编码序列 CwC_wCw 可以分解为 CuCvC_u C_vCuCv 的方式数,其中 uuu 和 vvv 均为非空字符串,且 wuvw uvwuv。编码规则如下: 每个编码对 (pi,ri)(p_i, r_i)(pi,ri) 要么是 0 c(表示添加字符 c…
ReActor换脸插件完整指南:3分钟掌握Stable Diffusion高效AI换脸 ReActor换脸插件完整指南:3分钟掌握Stable Diffusion高效AI换脸 【免费下载链接】sd-webui-reactor 项目地址: https://gitcode.com/gh_mirrors/sd/sd-webui-reactor 想要在Stable Diffusion中实现快速、精准的AI换脸吗?ReActor正是你需要的强大…
3分钟掌握uesave:轻松解锁Unreal引擎游戏存档编辑自由 3分钟掌握uesave:轻松解锁Unreal引擎游戏存档编辑自由 【免费下载链接】uesave Rust library and CLI to read and write Unreal Engine save files 项目地址: https://gitcode.com/gh_mirrors/ue/uesave 你是否曾经面对Unreal引擎游戏的神秘二进制存档束手无…
3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略 3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…
GXDE OS下Wayland兼容性实战:从deepin-mutter原理到VMware Tools修复 如果你正在用 GXDE OS 或者任何基于 Deepin 的发行版,并且遇到了“检测到窗口系统采用 Wayland 协议,程序即将退出”这类弹窗,或者发现 VMware Tools 在 Ubuntu 24.04 这类默认 Wayland 的系统上启动失败,那这篇文章就是为你准备的…
企业AI落地困境与AgenticOps实践指南 1. 企业AI落地的现实困境与破局之道过去两年,大模型技术呈现爆发式增长,从GPT-3到GPT-4,从LLaMA到DeepSeek,模型参数规模从百亿级跃升至万亿级,多模态能力从单一文本扩展到图文音视频的综合处理。然而在企业应用层面&a…
3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略 3步彻底解决Windows右键菜单混乱问题:ContextMenuManager使用全攻略 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…
GXDE OS下Wayland兼容性实战:从deepin-mutter原理到VMware Tools修复 如果你正在用 GXDE OS 或者任何基于 Deepin 的发行版,并且遇到了“检测到窗口系统采用 Wayland 协议,程序即将退出”这类弹窗,或者发现 VMware Tools 在 Ubuntu 24.04 这类默认 Wayland 的系统上启动失败,那这篇文章就是为你准备的…
企业AI落地困境与AgenticOps实践指南 1. 企业AI落地的现实困境与破局之道过去两年,大模型技术呈现爆发式增长,从GPT-3到GPT-4,从LLaMA到DeepSeek,模型参数规模从百亿级跃升至万亿级,多模态能力从单一文本扩展到图文音视频的综合处理。然而在企业应用层面&a…
[C++]内存管理:串顺序存储的内存回收 在串(字符串)的顺序存储中,内存回收的方式取决于字符串的存储方式以及所使用的编程语言和相关库。以下以 C 为例进行说明,因为 C 对内存管理有较为直接的控制。 1. 基于 char 数组的串顺序存储 如果使用普通的 char 数组来存储字…
移动端游戏功耗测试实战:电流、功率、亮度和场景对比 移动端游戏功耗测试:先控制变量,再比较优化是否真的省电 摘要:功耗测试最容易犯的错误,是拿两次不同温度、不同亮度、不同场景的平均功率直接比较。本文给出一套可复现的游戏功耗测试方法,覆盖引擎特性验证、版本回归和黑盒体验测试,并说明如何把功耗与帧率、温控、CPU/G…
足球口袋教练 HarmonyOS 离线应用实战(03/20):ArkUI 首页仪表盘搭建 本文是“足球口袋教练 HarmonyOS 离线应用实战”系列第 3 篇。示例项目是一个 HarmonyOS / ArkTS / ArkUI 编写的离线足球训练助手,围绕真实页面、真实截图和可复现操作展开。 本篇要解决的问题 训练 App 的首页不能只展示欢迎语,它要解决“我现在该点哪…