Cline 配置 Claude Sonnet 5 实战指南:思考深度调优与切换 Fable 5 的时机


Cline 很吃 token。每一轮它都会重发你的文件树、打开的缓冲区和正在跑的任务上下文,所以你选的模型很快就会体现在账单上。Claude Sonnet 5 就是那个能让这个循环负担得起、又不至于掉到弱模型的选择,本文大约五分钟带你配好。

有两件事最容易把人绊住:该用哪个 provider 槽位,以及 reasoning 预算是怎么悄悄同时决定质量和成本的。下面两点都会讲到,还有那个真正重要的决定——什么时候该为 Fable 5 多花 5 倍的钱。

配好之后你能做什么(以及做不到什么)

配好之后,你就有了一个由 Sonnet 5 驱动的完整 Cline agent:读文件、写代码、跑命令,还带 prompt 缓存和 extended thinking。这里说清楚它的真实边界。

问题答案
Sonnet 5 能当完整的 Cline agent 吗?能,配 Anthropic provider 就有原生工具调用。
能控制 reasoning 深度吗?能,通过 effort 级别(low/medium/high),不是 token 预算。
以后能切换到 Fable 5 或 Opus 吗?能,改一个 Model ID 字段,别的都不用动。
prompt 缓存适用吗?走 Anthropic 路径适用;把重发上下文的成本砍 10 倍。
这能去掉所有速率限制吗?不能。网关会平滑 provider 的限制,但不会消除它。
OpenAI Compatible 给的功能一样吗?不完全一样;它可能丢掉缓存控制和原生 thinking。

决策框架:什么时候在 Cline 里跑 Sonnet 5(什么时候别跑)

Sonnet 5 是 Cline 的默认驱动,不是将就。但它不是唯一选项,选错了两个方向都会浪费钱。

什么时候用 Sonnet 5

  • 你的 Cline 会话很长、文件很多,所以是 token 量、而不是峰值推理,决定了账单。

  • 你想靠缓存来削掉每轮重发仓库上下文的成本。

  • 你需要一个能干活的 agent 来处理日常改动、重构和样板代码,这占了大部分工作。

什么时候不要用它

  • 任务稳定地把 Sonnet 5 打败:深层多文件重构、棘手的并发 bug,或者一步走错就代价高昂的架构决策。那是 Fable 5 或 Opus 4.8 的地盘。

  • 你在大规模做琐碎的文件操作和简单改动,这时一个更便宜的模型也能做到同样结果。

停手规则

如果你的目标只是把 Cline 指向一个更便宜的 Claude 端点,那就设好 Anthropic provider、base URL 和 Model ID,然后停手。reasoning 和对比这两节是给那些在成本和质量之间调优的人看的,不是给基本连接用的。

系统要求

  • 装好 Cline 扩展 的 VS Code,从应用市场安装并更新到当前版本。

  • 一个 API key,对应给模型提供服务的后端。本文用 ofox,一个 Anthropic 兼容的网关,所以一个 key 就能同时够到 Sonnet 5、Fable 5 和 Opus 4.8。

  • 能连到你的端点。如果在企业 TLS 代理后面,先把证书搞定;跟我们 Claude Code SSL 证书报错指南 里的规则一样,适用于任何基于 Node 的工具。

一步步来:在 Cline 里跑 Sonnet 5

整个配置就是四个字段加一条测试消息。唯一真正要做的决定是第 1 步。

第 1 步:选 provider 槽位

Cline 提供两种接入方式。对 Claude 来说,Anthropic provider 是正确的默认。

provider 槽位Base URL最适合
Anthropichttps://api.ofox.io/anthropicClaude 模型,完整原生工具调用、缓存、thinking
OpenAI Compatiblehttps://api.ofox.io/v1一个槽位同时服务 Claude 和非 Claude 模型

Anthropic provider 走 Claude 的原生协议,所以 Cline 的 agent 功能不用经过翻译层就能工作。只有当你有意要一个端点服务混合模型、并且接受缓存控制和原生 thinking 可能传不过去时,才选 OpenAI Compatible。

第 2 步:打开 Cline 设置并选 provider

点 VS Code 活动栏里的 Cline 图标,再点面板顶部的齿轮图标。在API Provider下选Anthropic(如果你第 1 步选的是它,就选OpenAI Compatible)。

第 3 步:填 base URL 和 key

把表里的 base URL 粘到 Base URL 字段,把你的 API key 粘到 API Key 字段。

Base URL: https://api.ofox.io/anthropic API Key: sk-ofox-...

预期结果:字段保存成功,Cline 不再警告缺少 key。

第 4 步:设 Model ID

把 Model ID 设成带命名空间的 id,前缀不能少:

anthropic/claude-sonnet-5

裸写claude-sonnet-5在网关上会失败,因为模型目录是按 provider 分命名空间的。以后要切换模型,只改这一个字段;base URL 和 key 不动。anthropic/claude-fable-5anthropic/claude-opus-4.8是你最常会用到的两个。

第 5 步:测试连接

在 Cline 聊天里发一条简短消息,比如”列出这个项目里的文件”。如果 Cline 读了文件树并回复了,说明工具调用生效,基本配置就完成了。

你的第一个真实任务

一条测试消息证明线路接通了;一个真实任务才证明 agent 循环能跑。让 Cline 处理一个小而自洽的东西,比如”给parseConfig函数加输入校验,再配一个测试”。运行时盯三件事。它应该自己读相关文件、提一个让你先批准再落地的 diff、完成后跑测试命令。如果它读也写但从不跑命令,那是终端集成关了,不是模型的问题;打开 Cline 的命令批准再重试。这第一遍也会告诉你默认的 reasoning 预算合不合适,这正是下一节要讲的。

Reasoning:控制成本的 effort 设置

Sonnet 5 在回答之前会先用单独一遍推理来想清楚问题,这一遍默认开启(adaptive thinking)。你控制的不是 token 数量,而是一个深度设置:Anthropic 的effort参数,取值lowmediumhigh。旧的budget_tokens旋钮在 Sonnet 5 上没了——发它请求会返回 400。在 Cline 里你在模型设置中打开 reasoning;如果你的 Cline 版本还在传遗留的budget_tokens值,请升级 Cline 或把它切到 effort 控制,否则 Sonnet 5 会拒绝这次调用。

effort 是一个成本旋钮,不是免费升级。reasoning token 按 output 计费,而 Sonnet 5 的 output 是每 M $10,所以每一个琐碎轮次都开 high effort 就是烧钱。让设置匹配任务。

任务类型建议 effort原因
改动、样板、文件操作关或 low几乎不需要规划;保持每轮便宜
标准功能开发Medium够规划又不至于成本失控
难重构、棘手 bugHigh走错一步代价高时,深度物有所值

实用做法是默认把 effort 保持在 low,只在需要的那一轮才调高。Cline 允许你按会话改它,所以你不会被一个设置锁死整个项目。

举个具体例子:在一个例行的”把这个变量在整个文件里改名”轮次上,high effort 会让 Sonnet 5 写一大段没人读的推理,而你要为此付 output 的价钱。而在一个”搞清楚这个异步处理器为什么死锁”的轮次上,同样的 high effort 才让它去追踪调用图而不是瞎猜。同一个模型、同样的每 token 价格,价值却因任务是否真需要思考而天差地别。盯着 Cline 每轮显示的 token 计数看上一天,你校准这个旋钮会比任何经验法则都快。

反方向也有个质量陷阱。在一个真正难的任务上把 thinking 完全关掉并不省钱,只会让 Sonnet 5 又快又错地回答,然后你花三个纠正轮次来收拾。便宜但出错,比你省下的那点 effort 更贵。

Sonnet 5 什么时候胜过 Fable 5(什么时候不)

这是那个左右你账单的决定。在 ofox 上,两个模型的定价是这样:

模型InputOutput缓存读取Model ID
Claude Sonnet 5$2/M$10/M$0.20/Manthropic/claude-sonnet-5
Claude Fable 5$10/M$50/M$1/Manthropic/claude-fable-5

Sonnet 5 这些价格是 introductory 价,有效期到 2026 年 8 月 31 日;之后的标准价是每 M input $3、每 M output $15,把差距收窄到大约 3.3 倍。当前的每 token 价格与 ofox 模型页一致;introductory 对比标准价的划分和 8 月 31 日的截止日来自 Anthropic 的 pricing docs。

在 introductory 窗口内,Fable 5 在 input 和 output 上都是 Sonnet 5 的 5 倍。Cline 的工作负载——每轮重发上下文、生成 diff——正是那个价格差决定月度总额的高 token 模式。

按一个真实会话算笔账。假设一次工作会话跨很多轮总共走了大约 2M input 和 200k output token。在 Sonnet 5 上大概是 input $4 加 output $2,接近 $6,而缓存会把 input 那边压得更低。在 Fable 5 上同样的会话大概是 input $20 加 output $10,缓存前接近 $30。每天都这么跑,对一个开发者是零头,对一个团队就是实打实的一笔支出。放大到五个开发者、每月二十个工作日,光是默认模型的选择就能把月账单从 Sonnet 5 的大约 $600 摆到 Fable 5 的大约 $3,000,这还是在缓存把 Sonnet 5 那个数字压下去之前。这就是为什么默认模型比任何一个聪明的 prompt 都更重要。

所以规则很简单。默认用 Sonnet 5。只在 Sonnet 5 真的做不下任务时才升级到 Fable 5:一个它脑子里装不下的大型跨文件重构、一个它反复看错的并发或类型 bug,或者一个走错代价永远超过 token 溢价的架构决策。对于 Cline 工作里日常的那 80%,Sonnet 5 以五分之一的价格给出同样结果。想看更完整的正面对比,见我们的 Claude Fable 5 vs Sonnet 5 对比;想看 Sonnet 5 相对老旗舰的位置,见 Sonnet 5 vs Opus 4.8 拆解。

Anthropic vs OpenAI 兼容:完整差异

第 1 步说了 Claude 要选 Anthropic provider。这里详细说说为什么,因为选错槽位会悄悄丢掉你付了钱的功能。 Anthropic 原生 API 支持 extended thinking 和精细的 cache_control 标记,而通过 OpenAI 兼容层或 ofox.io、OpenRouter 等聚合网关路由时,部分厂商对这两个字段的透传存在截断或忽略的情况,需在配置前确认端点的实际支持范围。

功能Anthropic providerOpenAI Compatible
原生工具调用(文件、终端、编辑)完整能用,但经过翻译层
prompt 缓存控制暴露常常不暴露
Extended thinking / effort原生可能被压平或忽略
Model ID 格式anthropic/claude-sonnet-5anthropic/claude-sonnet-5
Base URL 路径/anthropic/v1
最适合纯 Claude 工作流一个槽位混跑 Claude 和非 Claude

翻译层是关键。OpenAI Compatible 槽位把 Claude 的协议映射到 OpenAI 的形状,任何没有干净对应的东西——尤其是缓存断点和 effort/reasoning 控制——都可能在映射里丢掉。对一个纯 Claude 的 Cline 配置,这会让你损失最影响账单和难任务质量的两个功能。接受这个取舍的唯一理由,是你真有需要让 Claude 和一个非 Claude 模型通过同一个一模一样的槽位跑、又不想重新配置。如果那不是你,就走原生路径。哪些功能能在映射里活下来还取决于你的 Cline 版本,所以把上面那两项损失当成大概率情况、而不是铁定结论——如果缓存和 reasoning 对你重要,Anthropic provider 直接消除了这个不确定。

一个值得知道的细节:两个槽位上 Model ID 是同一个字符串,anthropic/claude-sonnet-5,因为网关不管什么协议都用同样的方式给目录分命名空间。变的只是 base URL 路径和哪些功能能活下来。

盯住花销:缓存和 token 的账

Cline 的成本其实不在模型的名义单价。它在于你每轮重发多少 token、以及它们有没有被缓存。Cline 每轮都重建上下文:system prompt、你的自定义指令、文件树,还有打开的文件。在一次长会话里,同一块内容会发出去几十次。 Anthropic 的 prompt caching 在 cache hit 时将输入 token 费率降至原价的 10%,但若通过 ofox.io 或 OpenRouter 等第三方网关转发请求,需核查该网关是否将 cache_control 字段原样透传至 Anthropic 后端,否则缓存命中率统计会出现偏差。

这正是 prompt 缓存的用武之地。在原生 Anthropic 路径上,Sonnet 5 的缓存读取按每 M $0.20 计费,而新鲜 input 是每 M $2,对你上下文里那些逐轮不变的部分砍掉 10 倍。一个稳定的 system prompt 加一组固定的仓库文件,在一次会话里重发 40 次,命中缓存后只花十分之一的钱。

给一天的工作估个大概的数:

场景模型预估会话成本说明
功能开发,开缓存Sonnet 5~$4-6缓存吸收了大部分重发上下文
同样工作,关缓存Sonnet 5~$8-10每轮都走完整 input 单价
同样工作Fable 5~$25-305 倍单价主导总额
难任务,high effortSonnet 5+$2-4reasoning token 按 output 计费

要点是一个顺序。先确保缓存开着,也就是用 Anthropic provider。然后把 Sonnet 5 当默认。只有到那时,才在真正难的那一轮上花钱做 thinking 或升级到 Fable 5。把这个顺序搞反了——默认跑 Fable 5 还关着缓存——你会为 Sonnet 5 本能同样做好的工作多付大约五到八倍。

要确认缓存真的在工作,盯着 Cline 每轮的 token 读数:一次会话第一轮之后,缓存 input 计数应该往上爬,而新鲜 input 保持很小。如果每轮都显示完整的新鲜 input、零缓存,说明你在一个丢了缓存的槽位或路径上,回到上面的 provider 选择。

配置时常见的报错(和修法)

现象原因修法
model not foundModel ID 缺了anthropic/前缀anthropic/claude-sonnet-5
401 Unauthorizedkey 是别的网关的,或者空的粘贴与你设的 base URL 对应的 key
工具调用悄无声息什么都不做OpenAI 兼容槽位丢了原生工具切到 Anthropic provider
缓存从不命中路径不对,或该槽位不支持缓存/anthropicbase URL 和 Anthropic provider
SSL / 自签证书报错企业 TLS 代理重签流量按上面链接的 SSL 指南加 CA
reasoning 没效果reasoning 被禁用,或 effort 设得太低启用 reasoning 并调高 effort 级别

如果一个 model id 解析成功但回复感觉被截断,检查一下 Cline 的 max-tokens 设置是不是在 reasoning 那一遍和答案都放下之前就把 output 剪掉了。

在 Sonnet 5、Fable 5 和 Opus 之间切换

升级这个决定只有在切换成本低时才划算,而在 Cline 里它确实低。因为三个模型都在同一个网关、同一个 key 后面,从 Sonnet 5 切到 Fable 5 或 Opus 4.8 只需改一个字段:在 provider 设置里改 Model ID,接着干活。

anthropic/claude-sonnet-5 # 默认驱动 anthropic/claude-fable-5 # 难的那一轮升级用 anthropic/claude-opus-4.8 # 老旗舰,如果你想用

让这件事保持便宜的工作流,是升级一个任务、而不是一个项目。当 Sonnet 5 卡在某个具体问题上,就切到 Fable 5 处理那一段,让它把事情解决,然后切回来。Cline 在切换时保留对话和文件上下文,所以 Fable 5 从 Sonnet 5 停下的地方接手,不用重读整个仓库。难的部分做完后还把默认停在 Fable 5,就是一个 $6 的会话悄悄变成 $30 的方式。

切换时关于缓存有个注意点:缓存是按模型分的,所以切换后的第一轮要付完整 input 单价来给 Fable 5 的缓存预热,之后又便宜下来。那一个预热轮次跟解决一个 Sonnet 5 搞不定的 bug 相比微不足道,但它是个理由,别因为紧张就每隔一轮就翻一次模型。决定、升级、完成、切回来。

如果你发现自己在不停升级,那是信号,不是噪声。要么是你 Sonnet 5 的默认 reasoning 预算太低、它在做本可以多想想就能搞定的任务上失败,要么是工作确实偏难、那个项目该把 Fable 5 当默认。一旦你在 Cline 每轮读数里注意到这个模式,两者都可修。

团队 / 多开发者配置

对团队来说,收益是一个端点和一套模型策略,而不是每个人各接各的 key。注册一个网关,通过你的密钥管理器给每个开发者发一个 key,并把 Cline 的 provider 设置标准化,让所有人都通过同一个 base URL 路由 Sonnet 5。计费在一个地方落地,横跨 Sonnet 5、Fable 5 和 Opus 4.8,而切换整个团队的默认模型是对共享 Model ID 改一行,而不是一大批各自的重新配置。

跟这搭配的成本控制习惯是模型分层:大部分轮次跑便宜的默认,只把难的升级。我们 Claude Code 混合路由模式 背后的逻辑同样适用于 Cline,端点切换的具体做法在 Cline API 配置指南 里,更宽的 Cursor、Claude Code 和 Cline 自定义 API 配置 也讲了。

FAQ

怎么在 Cline 里添加 Claude Sonnet 5?打开 Cline 设置(齿轮图标),选 Anthropic provider,把 Base URL 设成https://api.ofox.io/anthropic,粘贴你的 key,把 Model ID 设成anthropic/claude-sonnet-5。发一条测试消息。

通过网关调用时 Cline 里 Sonnet 5 的 model ID 是什么?带前缀的anthropic/claude-sonnet-5。裸名在网关上会失败;只有 Anthropic 的直连 API 认它。

该用 Anthropic provider 还是 OpenAI Compatible?Claude 模型用 Anthropic,这样你能保住原生工具调用、缓存和 thinking。只有当一个槽位必须服务混合模型时才用 OpenAI Compatible。

怎么为 Sonnet 5 打开 extended thinking?在 Cline 里启用 reasoning。深度由 Anthropic 的effort参数(low/medium/high)设定,不是 token 预算;adaptive thinking 默认开启,旧的budget_tokens值会返回 400。写代码时把 effort 保持在 low;reasoning token 按 output 计费。

Sonnet 5 比 Fable 5 便宜吗?便宜,input 和 output 都是 5 倍(ofox 上 $2/$10 vs $10/$50)。对 Cline 的高 token 循环,那个差距定了账单。

什么时候 Fable 5 值得 5 倍价钱?当 Sonnet 5 直接做不出任务时:大型重构、隐蔽的 bug、高风险架构。对日常工作,Sonnet 5 以五分之一的成本做到同样效果。

为什么我会遇到 401 或 model-not-found?缺了anthropic/前缀、provider 对应的 base-URL 路径不对,或者 key 是别的网关的。补上前缀,并让 base URL 跟 provider 匹配。

Cline 里 Sonnet 5 的 prompt 缓存能用吗?走 Anthropic 路径能用,缓存读取每 M $0.20 对比 input 每 M $2。OpenAI 兼容路径可能不暴露缓存控制。

本次刷新核对的来源

  • Cline VS Code API 配置指南,核对于 2026-07-03。Anthropic vs OpenAI 兼容 provider 槽位和设置流程的来源。

  • Anthropic extended thinking 文档,核对于 2026-07-03。adaptive thinking 和effort参数、以及手动budget_tokens在 Sonnet 5 上返回 400 的来源。

  • ofox 模型目录快照,核对于 2026-07-03。anthropic/claude-sonnet-5anthropic/claude-fable-5的 model ID、以及当前 $2/$10 vs $10/$50 的每 token 定价、包括 $0.20/M vs $1/M 缓存读取单价的来源。

  • Anthropic pricing 文档,核对于 2026-07-03。Sonnet 5 的 introductory 对比标准分层的来源:$2/$10 到 2026 年 8 月 31 日,之后 $3/$15。