Cline 配置 Claude Sonnet 5 实战指南：思考深度调优与切换 Fable 5 的时机-拓冰建站

Cline 很吃 token。每一轮它都会重发你的文件树、打开的缓冲区和正在跑的任务上下文，所以你选的模型很快就会体现在账单上。Claude Sonnet 5 就是那个能让这个循环负担得起、又不至于掉到弱模型的选择，本文大约五分钟带你配好。

有两件事最容易把人绊住：该用哪个 provider 槽位，以及 reasoning 预算是怎么悄悄同时决定质量和成本的。下面两点都会讲到，还有那个真正重要的决定——什么时候该为 Fable 5 多花 5 倍的钱。

配好之后你能做什么（以及做不到什么）

配好之后，你就有了一个由 Sonnet 5 驱动的完整 Cline agent：读文件、写代码、跑命令，还带 prompt 缓存和 extended thinking。这里说清楚它的真实边界。

问题	答案
Sonnet 5 能当完整的 Cline agent 吗？	能，配 Anthropic provider 就有原生工具调用。
能控制 reasoning 深度吗？	能，通过 effort 级别（low/medium/high），不是 token 预算。
以后能切换到 Fable 5 或 Opus 吗？	能，改一个 Model ID 字段，别的都不用动。
prompt 缓存适用吗？	走 Anthropic 路径适用；把重发上下文的成本砍 10 倍。
这能去掉所有速率限制吗？	不能。网关会平滑 provider 的限制，但不会消除它。
OpenAI Compatible 给的功能一样吗？	不完全一样；它可能丢掉缓存控制和原生 thinking。

决策框架：什么时候在 Cline 里跑 Sonnet 5（什么时候别跑）

Sonnet 5 是 Cline 的默认驱动，不是将就。但它不是唯一选项，选错了两个方向都会浪费钱。

什么时候用 Sonnet 5

你的 Cline 会话很长、文件很多，所以是 token 量、而不是峰值推理，决定了账单。
你想靠缓存来削掉每轮重发仓库上下文的成本。
你需要一个能干活的 agent 来处理日常改动、重构和样板代码，这占了大部分工作。

什么时候不要用它

任务稳定地把 Sonnet 5 打败：深层多文件重构、棘手的并发 bug，或者一步走错就代价高昂的架构决策。那是 Fable 5 或 Opus 4.8 的地盘。
你在大规模做琐碎的文件操作和简单改动，这时一个更便宜的模型也能做到同样结果。

停手规则

如果你的目标只是把 Cline 指向一个更便宜的 Claude 端点，那就设好 Anthropic provider、base URL 和 Model ID，然后停手。reasoning 和对比这两节是给那些在成本和质量之间调优的人看的，不是给基本连接用的。

系统要求

装好 Cline 扩展的 VS Code，从应用市场安装并更新到当前版本。
一个 API key，对应给模型提供服务的后端。本文用 ofox，一个 Anthropic 兼容的网关，所以一个 key 就能同时够到 Sonnet 5、Fable 5 和 Opus 4.8。
能连到你的端点。如果在企业 TLS 代理后面，先把证书搞定；跟我们 Claude Code SSL 证书报错指南里的规则一样，适用于任何基于 Node 的工具。

一步步来：在 Cline 里跑 Sonnet 5

整个配置就是四个字段加一条测试消息。唯一真正要做的决定是第 1 步。

第 1 步：选 provider 槽位

Cline 提供两种接入方式。对 Claude 来说，Anthropic provider 是正确的默认。

provider 槽位	Base URL	最适合
Anthropic	`https://api.ofox.io/anthropic`	Claude 模型，完整原生工具调用、缓存、thinking
OpenAI Compatible	`https://api.ofox.io/v1`	一个槽位同时服务 Claude 和非 Claude 模型

Anthropic provider 走 Claude 的原生协议，所以 Cline 的 agent 功能不用经过翻译层就能工作。只有当你有意要一个端点服务混合模型、并且接受缓存控制和原生 thinking 可能传不过去时，才选 OpenAI Compatible。

第 2 步：打开 Cline 设置并选 provider

点 VS Code 活动栏里的 Cline 图标，再点面板顶部的齿轮图标。在API Provider下选Anthropic（如果你第 1 步选的是它，就选OpenAI Compatible）。

第 3 步：填 base URL 和 key

把表里的 base URL 粘到 Base URL 字段，把你的 API key 粘到 API Key 字段。

Base URL: https://api.ofox.io/anthropic API Key: sk-ofox-...

预期结果：字段保存成功，Cline 不再警告缺少 key。

第 4 步：设 Model ID

把 Model ID 设成带命名空间的 id，前缀不能少：

anthropic/claude-sonnet-5

裸写claude-sonnet-5在网关上会失败，因为模型目录是按 provider 分命名空间的。以后要切换模型，只改这一个字段；base URL 和 key 不动。anthropic/claude-fable-5和anthropic/claude-opus-4.8是你最常会用到的两个。

第 5 步：测试连接

在 Cline 聊天里发一条简短消息，比如”列出这个项目里的文件”。如果 Cline 读了文件树并回复了，说明工具调用生效，基本配置就完成了。

你的第一个真实任务

一条测试消息证明线路接通了；一个真实任务才证明 agent 循环能跑。让 Cline 处理一个小而自洽的东西，比如”给parseConfig函数加输入校验，再配一个测试”。运行时盯三件事。它应该自己读相关文件、提一个让你先批准再落地的 diff、完成后跑测试命令。如果它读也写但从不跑命令，那是终端集成关了，不是模型的问题；打开 Cline 的命令批准再重试。这第一遍也会告诉你默认的 reasoning 预算合不合适，这正是下一节要讲的。

Reasoning：控制成本的 effort 设置

Sonnet 5 在回答之前会先用单独一遍推理来想清楚问题，这一遍默认开启（adaptive thinking）。你控制的不是 token 数量，而是一个深度设置：Anthropic 的effort参数，取值low、medium或high。旧的budget_tokens旋钮在 Sonnet 5 上没了——发它请求会返回 400。在 Cline 里你在模型设置中打开 reasoning；如果你的 Cline 版本还在传遗留的budget_tokens值，请升级 Cline 或把它切到 effort 控制，否则 Sonnet 5 会拒绝这次调用。

effort 是一个成本旋钮，不是免费升级。reasoning token 按 output 计费，而 Sonnet 5 的 output 是每 M $10，所以每一个琐碎轮次都开 high effort 就是烧钱。让设置匹配任务。

任务类型	建议 effort	原因
改动、样板、文件操作	关或 low	几乎不需要规划；保持每轮便宜
标准功能开发	Medium	够规划又不至于成本失控
难重构、棘手 bug	High	走错一步代价高时，深度物有所值

实用做法是默认把 effort 保持在 low，只在需要的那一轮才调高。Cline 允许你按会话改它，所以你不会被一个设置锁死整个项目。

举个具体例子：在一个例行的”把这个变量在整个文件里改名”轮次上，high effort 会让 Sonnet 5 写一大段没人读的推理，而你要为此付 output 的价钱。而在一个”搞清楚这个异步处理器为什么死锁”的轮次上，同样的 high effort 才让它去追踪调用图而不是瞎猜。同一个模型、同样的每 token 价格，价值却因任务是否真需要思考而天差地别。盯着 Cline 每轮显示的 token 计数看上一天，你校准这个旋钮会比任何经验法则都快。

反方向也有个质量陷阱。在一个真正难的任务上把 thinking 完全关掉并不省钱，只会让 Sonnet 5 又快又错地回答，然后你花三个纠正轮次来收拾。便宜但出错，比你省下的那点 effort 更贵。

Sonnet 5 什么时候胜过 Fable 5（什么时候不）

这是那个左右你账单的决定。在 ofox 上，两个模型的定价是这样：

模型	Input	Output	缓存读取	Model ID
Claude Sonnet 5	$2/M	$10/M	$0.20/M	`anthropic/claude-sonnet-5`
Claude Fable 5	$10/M	$50/M	$1/M	`anthropic/claude-fable-5`

Sonnet 5 这些价格是 introductory 价，有效期到 2026 年 8 月 31 日；之后的标准价是每 M input $3、每 M output $15，把差距收窄到大约 3.3 倍。当前的每 token 价格与 ofox 模型页一致；introductory 对比标准价的划分和 8 月 31 日的截止日来自 Anthropic 的 pricing docs。

在 introductory 窗口内，Fable 5 在 input 和 output 上都是 Sonnet 5 的 5 倍。Cline 的工作负载——每轮重发上下文、生成 diff——正是那个价格差决定月度总额的高 token 模式。

按一个真实会话算笔账。假设一次工作会话跨很多轮总共走了大约 2M input 和 200k output token。在 Sonnet 5 上大概是 input $4 加 output $2，接近 $6，而缓存会把 input 那边压得更低。在 Fable 5 上同样的会话大概是 input $20 加 output $10，缓存前接近 $30。每天都这么跑，对一个开发者是零头，对一个团队就是实打实的一笔支出。放大到五个开发者、每月二十个工作日，光是默认模型的选择就能把月账单从 Sonnet 5 的大约 $600 摆到 Fable 5 的大约 $3,000，这还是在缓存把 Sonnet 5 那个数字压下去之前。这就是为什么默认模型比任何一个聪明的 prompt 都更重要。

所以规则很简单。默认用 Sonnet 5。只在 Sonnet 5 真的做不下任务时才升级到 Fable 5：一个它脑子里装不下的大型跨文件重构、一个它反复看错的并发或类型 bug，或者一个走错代价永远超过 token 溢价的架构决策。对于 Cline 工作里日常的那 80%，Sonnet 5 以五分之一的价格给出同样结果。想看更完整的正面对比，见我们的 Claude Fable 5 vs Sonnet 5 对比；想看 Sonnet 5 相对老旗舰的位置，见 Sonnet 5 vs Opus 4.8 拆解。

Anthropic vs OpenAI 兼容：完整差异

第 1 步说了 Claude 要选 Anthropic provider。这里详细说说为什么，因为选错槽位会悄悄丢掉你付了钱的功能。 Anthropic 原生 API 支持 extended thinking 和精细的 cache_control 标记，而通过 OpenAI 兼容层或 ofox.io、OpenRouter 等聚合网关路由时，部分厂商对这两个字段的透传存在截断或忽略的情况，需在配置前确认端点的实际支持范围。

功能	Anthropic provider	OpenAI Compatible
原生工具调用（文件、终端、编辑）	完整	能用，但经过翻译层
prompt 缓存控制	暴露	常常不暴露
Extended thinking / effort	原生	可能被压平或忽略
Model ID 格式	`anthropic/claude-sonnet-5`	`anthropic/claude-sonnet-5`
Base URL 路径	`/anthropic`	`/v1`
最适合	纯 Claude 工作流	一个槽位混跑 Claude 和非 Claude

翻译层是关键。OpenAI Compatible 槽位把 Claude 的协议映射到 OpenAI 的形状，任何没有干净对应的东西——尤其是缓存断点和 effort/reasoning 控制——都可能在映射里丢掉。对一个纯 Claude 的 Cline 配置，这会让你损失最影响账单和难任务质量的两个功能。接受这个取舍的唯一理由，是你真有需要让 Claude 和一个非 Claude 模型通过同一个一模一样的槽位跑、又不想重新配置。如果那不是你，就走原生路径。哪些功能能在映射里活下来还取决于你的 Cline 版本，所以把上面那两项损失当成大概率情况、而不是铁定结论——如果缓存和 reasoning 对你重要，Anthropic provider 直接消除了这个不确定。

一个值得知道的细节：两个槽位上 Model ID 是同一个字符串，anthropic/claude-sonnet-5，因为网关不管什么协议都用同样的方式给目录分命名空间。变的只是 base URL 路径和哪些功能能活下来。

盯住花销：缓存和 token 的账

Cline 的成本其实不在模型的名义单价。它在于你每轮重发多少 token、以及它们有没有被缓存。Cline 每轮都重建上下文：system prompt、你的自定义指令、文件树，还有打开的文件。在一次长会话里，同一块内容会发出去几十次。 Anthropic 的 prompt caching 在 cache hit 时将输入 token 费率降至原价的 10%，但若通过 ofox.io 或 OpenRouter 等第三方网关转发请求，需核查该网关是否将 cache_control 字段原样透传至 Anthropic 后端，否则缓存命中率统计会出现偏差。

这正是 prompt 缓存的用武之地。在原生 Anthropic 路径上，Sonnet 5 的缓存读取按每 M $0.20 计费，而新鲜 input 是每 M $2，对你上下文里那些逐轮不变的部分砍掉 10 倍。一个稳定的 system prompt 加一组固定的仓库文件，在一次会话里重发 40 次，命中缓存后只花十分之一的钱。

给一天的工作估个大概的数：

场景	模型	预估会话成本	说明
功能开发，开缓存	Sonnet 5	~$4-6	缓存吸收了大部分重发上下文
同样工作，关缓存	Sonnet 5	~$8-10	每轮都走完整 input 单价
同样工作	Fable 5	~$25-30	5 倍单价主导总额
难任务，high effort	Sonnet 5	+$2-4	reasoning token 按 output 计费

要点是一个顺序。先确保缓存开着，也就是用 Anthropic provider。然后把 Sonnet 5 当默认。只有到那时，才在真正难的那一轮上花钱做 thinking 或升级到 Fable 5。把这个顺序搞反了——默认跑 Fable 5 还关着缓存——你会为 Sonnet 5 本能同样做好的工作多付大约五到八倍。

要确认缓存真的在工作，盯着 Cline 每轮的 token 读数：一次会话第一轮之后，缓存 input 计数应该往上爬，而新鲜 input 保持很小。如果每轮都显示完整的新鲜 input、零缓存，说明你在一个丢了缓存的槽位或路径上，回到上面的 provider 选择。

配置时常见的报错（和修法）

现象	原因	修法
`model not found`	Model ID 缺了`anthropic/`前缀	用`anthropic/claude-sonnet-5`
`401 Unauthorized`	key 是别的网关的，或者空的	粘贴与你设的 base URL 对应的 key
工具调用悄无声息什么都不做	OpenAI 兼容槽位丢了原生工具	切到 Anthropic provider
缓存从不命中	路径不对，或该槽位不支持缓存	用`/anthropic`base URL 和 Anthropic provider
SSL / 自签证书报错	企业 TLS 代理重签流量	按上面链接的 SSL 指南加 CA
reasoning 没效果	reasoning 被禁用，或 effort 设得太低	启用 reasoning 并调高 effort 级别

如果一个 model id 解析成功但回复感觉被截断，检查一下 Cline 的 max-tokens 设置是不是在 reasoning 那一遍和答案都放下之前就把 output 剪掉了。

在 Sonnet 5、Fable 5 和 Opus 之间切换

升级这个决定只有在切换成本低时才划算，而在 Cline 里它确实低。因为三个模型都在同一个网关、同一个 key 后面，从 Sonnet 5 切到 Fable 5 或 Opus 4.8 只需改一个字段：在 provider 设置里改 Model ID，接着干活。

anthropic/claude-sonnet-5 # 默认驱动 anthropic/claude-fable-5 # 难的那一轮升级用 anthropic/claude-opus-4.8 # 老旗舰，如果你想用

让这件事保持便宜的工作流，是升级一个任务、而不是一个项目。当 Sonnet 5 卡在某个具体问题上，就切到 Fable 5 处理那一段，让它把事情解决，然后切回来。Cline 在切换时保留对话和文件上下文，所以 Fable 5 从 Sonnet 5 停下的地方接手，不用重读整个仓库。难的部分做完后还把默认停在 Fable 5，就是一个 $6 的会话悄悄变成 $30 的方式。

切换时关于缓存有个注意点：缓存是按模型分的，所以切换后的第一轮要付完整 input 单价来给 Fable 5 的缓存预热，之后又便宜下来。那一个预热轮次跟解决一个 Sonnet 5 搞不定的 bug 相比微不足道，但它是个理由，别因为紧张就每隔一轮就翻一次模型。决定、升级、完成、切回来。

如果你发现自己在不停升级，那是信号，不是噪声。要么是你 Sonnet 5 的默认 reasoning 预算太低、它在做本可以多想想就能搞定的任务上失败，要么是工作确实偏难、那个项目该把 Fable 5 当默认。一旦你在 Cline 每轮读数里注意到这个模式，两者都可修。

团队 / 多开发者配置

对团队来说，收益是一个端点和一套模型策略，而不是每个人各接各的 key。注册一个网关，通过你的密钥管理器给每个开发者发一个 key，并把 Cline 的 provider 设置标准化，让所有人都通过同一个 base URL 路由 Sonnet 5。计费在一个地方落地，横跨 Sonnet 5、Fable 5 和 Opus 4.8，而切换整个团队的默认模型是对共享 Model ID 改一行，而不是一大批各自的重新配置。

跟这搭配的成本控制习惯是模型分层：大部分轮次跑便宜的默认，只把难的升级。我们 Claude Code 混合路由模式背后的逻辑同样适用于 Cline，端点切换的具体做法在 Cline API 配置指南里，更宽的 Cursor、Claude Code 和 Cline 自定义 API 配置也讲了。

FAQ

怎么在 Cline 里添加 Claude Sonnet 5？打开 Cline 设置（齿轮图标），选 Anthropic provider，把 Base URL 设成https://api.ofox.io/anthropic，粘贴你的 key，把 Model ID 设成anthropic/claude-sonnet-5。发一条测试消息。

通过网关调用时 Cline 里 Sonnet 5 的 model ID 是什么？带前缀的anthropic/claude-sonnet-5。裸名在网关上会失败；只有 Anthropic 的直连 API 认它。

该用 Anthropic provider 还是 OpenAI Compatible？Claude 模型用 Anthropic，这样你能保住原生工具调用、缓存和 thinking。只有当一个槽位必须服务混合模型时才用 OpenAI Compatible。

怎么为 Sonnet 5 打开 extended thinking？在 Cline 里启用 reasoning。深度由 Anthropic 的effort参数（low/medium/high）设定，不是 token 预算；adaptive thinking 默认开启，旧的budget_tokens值会返回 400。写代码时把 effort 保持在 low；reasoning token 按 output 计费。

Sonnet 5 比 Fable 5 便宜吗？便宜，input 和 output 都是 5 倍（ofox 上 $2/$10 vs $10/$50）。对 Cline 的高 token 循环，那个差距定了账单。

什么时候 Fable 5 值得 5 倍价钱？当 Sonnet 5 直接做不出任务时：大型重构、隐蔽的 bug、高风险架构。对日常工作，Sonnet 5 以五分之一的成本做到同样效果。

为什么我会遇到 401 或 model-not-found？缺了anthropic/前缀、provider 对应的 base-URL 路径不对，或者 key 是别的网关的。补上前缀，并让 base URL 跟 provider 匹配。

Cline 里 Sonnet 5 的 prompt 缓存能用吗？走 Anthropic 路径能用，缓存读取每 M $0.20 对比 input 每 M $2。OpenAI 兼容路径可能不暴露缓存控制。

本次刷新核对的来源

Cline VS Code API 配置指南，核对于 2026-07-03。Anthropic vs OpenAI 兼容 provider 槽位和设置流程的来源。
Anthropic extended thinking 文档，核对于 2026-07-03。adaptive thinking 和effort参数、以及手动budget_tokens在 Sonnet 5 上返回 400 的来源。
ofox 模型目录快照，核对于 2026-07-03。anthropic/claude-sonnet-5和anthropic/claude-fable-5的 model ID、以及当前 $2/$10 vs $10/$50 的每 token 定价、包括 $0.20/M vs $1/M 缓存读取单价的来源。
Anthropic pricing 文档，核对于 2026-07-03。Sonnet 5 的 introductory 对比标准分层的来源：$2/$10 到 2026 年 8 月 31 日，之后 $3/$15。