引言
随着大语言模型逐步具备“理解—推理—行动”的能力,如何让模型稳定、可控地调用外部工具,已成为构建智能体(Agent)系统的关键一环。相比早期基于文本协议的工具调用方式,OpenAI 推出的 Function Calling&#x…
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
动机
现有 RLVR 虽能提高采样效率、在小采样数下提升表现,但并未真正挖掘出超越基础模型的新推理能力,其效果受制于基础模型本身,远未达…