2026年如何选择大模型:一份基于真实价格的实战指南

大模型选型早已不是"哪个更聪明"这么简单的问题——同样一个任务,价格可以相差几十倍。这篇文章基于 2026 年 7 月的官方最新定价,帮你把"选模型"这件事拆解成可执行的决策流程。

一、主流模型价格总览(2026年7月,官方定价)

美元价格来自各厂商官方文档;人民币按约 1:7.25 折算仅供参考,实际以国内厂商原生人民币计价为准。

1. Anthropic(Claude)

模型输入 $/1M输出 $/1M说明
Claude Haiku 4.5$1.00$5.00最快、最便宜,适合简单任务
Claude Sonnet 5$3.00(限时 $2.00,至 2026-08-31)$15.00(限时 $10.00)编码/Agent性价比之选
Claude Opus 4.8$5.00$25.00当前最强 Opus 级别,长任务/知识工作
Claude Fable 5$10.00$50.00目前最强模型,最难的推理与长程 Agent 任务

2. OpenAI

模型输入 $/1M输出 $/1M说明
GPT-5.6 Luna(预览)$1.00$6.00轻量级新品
GPT-5.3-Codex$1.75$14.00代码定向
GPT-5.4$2.50$15.00中端主力
GPT-5.6 Terra(预览)$2.50$15.00新一代中端
GPT-5.5(当前旗舰)$5.00(缓存 $0.50)$30.004月底发布,取代 GPT-5.4 成为旗舰
GPT-5.6 Sol(预览)$5.00$30.00新一代旗舰预览

Batch/Flex 模式可将 GPT-5.5 降至 $2.50 / $15。

3. Google(Gemini)

模型输入 $/1M输出 $/1M说明
Gemini 2.5 Flash-Lite$0.10$0.40全场地板价
Gemini 3.5 Flash$1.50$9.00代码能力甚至超过 3.1 Pro
Gemini 2.5 Pro$1.25(>200K: $2.50)$10.00(>200K: $15.00)上一代旗舰
Gemini 3.1 Pro$2.00(≤200K)$12.00当前推理旗舰,支持 2M 上下文

Batch 模式全系 5 折;缓存命中价约为未命中价的 10%。

4. DeepSeek

模型输入 $/1M(未命中缓存)输入 $/1M(缓存命中)输出 $/1M说明
DeepSeek-V4-Flash$0.14$0.0028$0.28综合性价比之王,缓存命中几乎免费
DeepSeek-V4-Pro$1.74(常规)/ 促销期 $0.435$0.0348 左右$3.48(常规)/ 促销期 $0.87注意区分常规价和促销价

deepseek-chat(V3)/deepseek-reasoner(R1)将于 2026-07-24 弃用,统一并入 V4。

5. 阿里云百炼(通义千问)

模型输入价格说明
qwen3-max(短上下文,≤32K)¥2.50/1M国内日常任务性价比优选
qwen3.7-max阶梯计费,长文本区间价格更高最新旗舰,支持 Batch 5折

新用户注册可领取合计超 7000 万免费 Token。

二、价格之外:选型该看的四个维度

只看价格容易踩坑。真正决定"是否值这个钱"的是以下几个维度:

  1. 上下文窗口:处理长文档、长对话、视频理解时,Gemini(2M)和 Claude/DeepSeek/Qwen(1M)比 128K 级别的模型有本质优势。
  2. 推理/思考模式:Claude Fable 5、DeepSeek V4(思考模式)、GPT-5.5、Gemini 3.1 Pro 都支持深度推理,但推理过程本身会计入输出 token,成本会明显高于表面单价。
  3. Agent / 工具调用能力:如果你要做长程自主 Agent(多步骤调用工具、写代码、验证结果),模型的"自主性"比单纯的问答能力更重要——这方面 Claude Opus 4.8 / Fable 5、GPT-5.5 目前评价较高。
  4. 生态与合规:国内业务优先考虑阿里云百炼、DeepSeek,涉及数据合规、内网部署、政企审批时尤其明显;出海业务则更看重 OpenAI/Anthropic/Google 的生态成熟度。

三、按场景推荐

场景推荐模型理由
日常问答、分类、客服机器人Haiku 4.5 / GPT-5.6 Luna / Gemini 2.5 Flash-Lite / DeepSeek V4 Flash / qwen3-max单价低,响应快,够用
复杂编码、Agent 自动化Claude Sonnet 5(性价比)/ Claude Opus 4.8(更强)/ DeepSeek V4 Pro(国产平替)Sonnet 5 已经接近 Opus 级别质量,价格却是 Sonnet 档
超长文档、多模态(视频/音频)Gemini 3.1 Pro / Gemini 3.5 Flash原生超长上下文,多模态成本低
极限推理(数学、科研、高难度代码)Claude Fable 5 / GPT-5.5 / DeepSeek V4 Pro(思考模式)推理深度和准确率优先,愿意为此付费
国内合规、政企场景通义千问 qwen3-max / qwen3.7-max / DeepSeek数据在境内、审批更顺畅

四、四个立竿见影的省钱技巧

  1. 善用 Prompt Caching(上下文缓存):如果你的系统提示词很长(知识库、角色设定),几乎所有厂商缓存命中后输入价格能降 50%~99%。DeepSeek V4 Flash 缓存命中价甚至只有未命中价的 2%。
  2. 离线任务走 Batch API:不需要实时响应的场景(离线洗数据、批量摘要),OpenAI/Google/Anthropic/阿里云的 Batch 接口普遍是原价 5 折。
  3. 按任务难度分层路由:简单任务交给 Haiku / Flash-Lite / V4 Flash 这类模型,只有真正复杂的任务才调用旗舰模型,能把整体成本压低一个数量级。
  4. 先用小模型验证 Prompt,再上大模型:调试阶段用便宜模型跑通逻辑,确认没问题后再切换到生产环境的旗舰模型,避免在调试阶段浪费旗舰模型的调用额度。

五、总结

2026年中的大模型市场呈现出明显的"哑铃型"格局:轻量模型价格被压到极致(Gemini Flash-Lite、DeepSeek V4 Flash 输入价格已逼近免费),而旗舰模型(Claude Fable 5、GPT-5.5)价格持续走高,专注服务愿意为顶尖能力付费的场景。

选型的核心思路不是"哪个模型最好",而是:先明确任务的复杂度和响应时效要求,再匹配对应价位的模型,最后用缓存和 Batch 把实际成本再压一压。大多数应用场景下,一个"轻量模型打底 + 旗舰模型兜底"的分层架构,往往比无脑全部调用旗舰模型更划算。

欢迎评论区讨论

本文由 [六墨书场] 团队原创,更多好文欢迎在微信端搜索关注。