真正贵的不是 token，而是低质量编排

过去大家讨论 AI coding 工具，最常见的问题是两个：模型强不强，token 贵不贵。

这两个问题当然重要，但我越来越觉得，它们都还停留在表层。因为同样一个任务，不同系统做出来的真实成本，根本不是只差一点点。你以为你在为模型推理买单，最后真正烧掉的钱，常常是反复搬运的上下文、命不中的缓存、低价值的工具回路、以及长会话漂掉以后的人类返工。

Agent 时代真正贵的，不是 token 单价，而是低质量编排。

Claude 这次收紧第三方 Agent 框架接入，在我看来，不该只被理解成平台变得更封闭。它更像一次强行记账：把原来被订阅补贴遮住的成本，重新算回系统本身。

这次争议真正暴露的，不是价格，而是浪费

微信那篇文章里转述罗福莉的批评，我觉得最有价值的不是情绪，而是它点中了一种行业通病：一个请求里触发很多轮低价值工具调用，每轮都带着超长上下文，各种历史消息和工具结果反复回灌。这样一来，账单膨胀几乎是必然的。

如果只是单次聊天，这种浪费不一定明显。可一旦你把系统拉长到 Agent 模式，问题马上就暴露了。因为 Agent 不是一问一答，而是一整条执行链。计划、调用工具、改代码、跑测试、修失败、更新状态，任何一个环节设计粗糙，都会把后面的 token 和时间一起拖高。

这也是为什么我越来越不认同一种说法：只要模型再便宜一点，问题就解决了。不是的。便宜模型能降低一部分成本，但它解决不了系统级浪费。一个坏的编排层，挂什么模型都不会变得真正经济。

Anthropic 官方材料其实已经把答案写出来了

如果只看 Anthropic 的 pricing 文档，会发现它最值得注意的地方，根本不是单价表，而是它反复在讲 prompt caching、Batch API 和 tool use overhead。

这背后的意思很清楚：同样一个任务，成本不只是由输入输出 token 决定，还由缓存有没有命中、工具说明有没有做瘦身、动态结果有没有污染上下文决定。

更有意思的是 Anthropic 自己那篇讲 advanced tool use 的工程文章。它里面有一组数字我印象很深：通过 tool search，把工具提示从大约 72K token 压到 8.7K；通过 programmatic tool calling，把平均 token 从 43,588 降到 27,297。

这说明什么？说明真正的降本，很多时候根本不是换模型，而是把系统里不该让模型看到的东西拿掉。把动态结果留在执行层，把工具按需暴露，把稳定前缀留给缓存，这些动作听起来不性感，却直接决定了产品的单位经济。

编排层不再只是“实现细节”，它正在变成产品本身。

以后真正值钱的，不是会接模型，而是会把系统做成

OpenAI 讲 harness engineering 时有一句话很重：Humans steer. Agents execute. 我觉得它最值得咀嚼的地方，不是“人指挥、AI 执行”这么简单，而是工程工作的重心已经挪了。

以前大家拼的是谁写得更快。现在越来越像在拼谁能把环境、规则、记忆、评测和回退机制设计得更稳。长任务不是靠一段巨长 prompt 跑出来的，而是靠一整套 plan → execute → verify → repair 的 loop 才跑得稳。

也就是说，未来真正有护城河的东西，不会只是“我也能调同一个模型 API”。真正的差异化在 orchestrator 里：

工具是全量暴露，还是按需加载
上下文是无限往下滚，还是分层裁剪
缓存是产品里的真机制，还是 PPT 上的能力点
失败以后是继续烧 token 碰运气，还是有明确回退和修复路径

这些事情用户看不见，但账单看得见，完成率看得见，团队自己也迟早会感受到。

订阅和 API 的未来，不是二选一，而是分层

这次争议里还有一个被低估的信号：用户真正想要的，并不是“永远用订阅白跑自动化”，而是一个中间态。

GitHub 上有人提议，把订阅和 API 放进统一配额池里，人类交互和第三方 Agent 都从一个预算里扣，用完就 throttle。这种想法为什么反复出现？因为大家已经意识到，纯订阅和纯 API 都各有问题。

纯订阅的问题是太容易把真实成本藏起来。纯 API 的问题是成本太显性，很多人不敢放心把工作流搭上去。更合理的方向，大概率是：

日常人工工作流有一个 seat 或 subscription 级的保底额度
高频自动化和超额使用走 API 或额外 usage 包
不同入口共用统一预算池，防止套利，也逼系统把编排做好

所以我不觉得 Anthropic 这次动作只是“堵漏洞”。它更像是在用价格信号告诉整个生态：以后谁能活下来，不取决于谁最会讲 Agent 的故事，而取决于谁最懂得尊重算力和上下文这两种稀缺资源。

这件事对做平台的人，其实是个提醒

很多公司现在一看到模型变强，就很容易往一个方向冲：把越来越多事情交给通用 Agent，希望它自然长出平台能力。

这条路不是不能走，但我会非常警惕。因为自由度越高，意味着上下文、状态、失败路径和安全负担都会一起膨胀。最后你运营的不是一个产品，而是一个高波动的成本容器。

更稳的系统，往往不是一上来就把一切都开放给 Agent，而是先把大部分确定性 workflow 收好，把规则清楚、边界稳定、结果可验证的部分收进流水线，只把真正需要开放式推理和复杂博弈的那一层留给 frontier model。

这样做的意义不只是省钱，更是为了可预测。一个系统如果大多数时候都在可控轨道上运行，只有少数复杂情况再把智能放出来，它才更像能规模化交付的产品，而不是炫技 demo。

最后一句

我现在回头看 Claude 这次争议，脑子里留下来的已经不是“又一家平台变贵了”这种直觉，而是另一句话：

AI coding 赛道真正的分水岭，不是谁把 token 卖得更便宜，而是谁能在资源约束下，把同一个任务更稳定、更克制、更少浪费地做成。

以后真正能留下来的 Agent，不一定是 context 最长的，也不一定是最会说的，而是最懂得在该省的地方省，在该花的地方花，最后还能把任务做成的那个。

这篇文章不是调研笔记的平铺直叙版，而是我从那份调研里真正带走的判断：算力不再是背景条件，它正在反过来塑造产品哲学。