随笔 / AI × Agent × 商业模式

真正贵的不是 token,而是低质量编排

· AI/Agent 商业模式 Context Engineering

Claude 收紧第三方 Agent 接入,很多人第一反应是又涨价、又封闭。但我更在意的不是这场争议本身,而是它把一个一直被遮住的问题彻底掀开了:在 Agent 时代,真正贵的往往不是模型,而是低质量编排造成的系统性浪费。

过去大家讨论 AI coding 工具,最常见的问题是两个:模型强不强,token 贵不贵。

这两个问题当然重要,但我越来越觉得,它们都还停留在表层。因为同样一个任务,不同系统做出来的真实成本,根本不是只差一点点。你以为你在为模型推理买单,最后真正烧掉的钱,常常是反复搬运的上下文、命不中的缓存、低价值的工具回路、以及长会话漂掉以后的人类返工。

Agent 时代真正贵的,不是 token 单价,而是低质量编排。

Claude 这次收紧第三方 Agent 框架接入,在我看来,不该只被理解成平台变得更封闭。它更像一次强行记账:把原来被订阅补贴遮住的成本,重新算回系统本身。

这次争议真正暴露的,不是价格,而是浪费

微信那篇文章里转述罗福莉的批评,我觉得最有价值的不是情绪,而是它点中了一种行业通病:一个请求里触发很多轮低价值工具调用,每轮都带着超长上下文,各种历史消息和工具结果反复回灌。这样一来,账单膨胀几乎是必然的。

如果只是单次聊天,这种浪费不一定明显。可一旦你把系统拉长到 Agent 模式,问题马上就暴露了。因为 Agent 不是一问一答,而是一整条执行链。计划、调用工具、改代码、跑测试、修失败、更新状态,任何一个环节设计粗糙,都会把后面的 token 和时间一起拖高。

这也是为什么我越来越不认同一种说法:只要模型再便宜一点,问题就解决了。不是的。便宜模型能降低一部分成本,但它解决不了系统级浪费。一个坏的编排层,挂什么模型都不会变得真正经济。

Anthropic 官方材料其实已经把答案写出来了

如果只看 Anthropic 的 pricing 文档,会发现它最值得注意的地方,根本不是单价表,而是它反复在讲 prompt cachingBatch APItool use overhead

这背后的意思很清楚:同样一个任务,成本不只是由输入输出 token 决定,还由缓存有没有命中、工具说明有没有做瘦身、动态结果有没有污染上下文决定。

更有意思的是 Anthropic 自己那篇讲 advanced tool use 的工程文章。它里面有一组数字我印象很深:通过 tool search,把工具提示从大约 72K token 压到 8.7K;通过 programmatic tool calling,把平均 token 从 43,588 降到 27,297。

这说明什么?说明真正的降本,很多时候根本不是换模型,而是把系统里不该让模型看到的东西拿掉。把动态结果留在执行层,把工具按需暴露,把稳定前缀留给缓存,这些动作听起来不性感,却直接决定了产品的单位经济。

编排层不再只是“实现细节”,它正在变成产品本身。

以后真正值钱的,不是会接模型,而是会把系统做成

OpenAI 讲 harness engineering 时有一句话很重:Humans steer. Agents execute. 我觉得它最值得咀嚼的地方,不是“人指挥、AI 执行”这么简单,而是工程工作的重心已经挪了。

以前大家拼的是谁写得更快。现在越来越像在拼谁能把环境、规则、记忆、评测和回退机制设计得更稳。长任务不是靠一段巨长 prompt 跑出来的,而是靠一整套 plan → execute → verify → repair 的 loop 才跑得稳。

也就是说,未来真正有护城河的东西,不会只是“我也能调同一个模型 API”。真正的差异化在 orchestrator 里:

这些事情用户看不见,但账单看得见,完成率看得见,团队自己也迟早会感受到。

订阅和 API 的未来,不是二选一,而是分层

这次争议里还有一个被低估的信号:用户真正想要的,并不是“永远用订阅白跑自动化”,而是一个中间态。

GitHub 上有人提议,把订阅和 API 放进统一配额池里,人类交互和第三方 Agent 都从一个预算里扣,用完就 throttle。这种想法为什么反复出现?因为大家已经意识到,纯订阅和纯 API 都各有问题。

纯订阅的问题是太容易把真实成本藏起来。纯 API 的问题是成本太显性,很多人不敢放心把工作流搭上去。更合理的方向,大概率是:

所以我不觉得 Anthropic 这次动作只是“堵漏洞”。它更像是在用价格信号告诉整个生态:以后谁能活下来,不取决于谁最会讲 Agent 的故事,而取决于谁最懂得尊重算力和上下文这两种稀缺资源。

这件事对做平台的人,其实是个提醒

很多公司现在一看到模型变强,就很容易往一个方向冲:把越来越多事情交给通用 Agent,希望它自然长出平台能力。

这条路不是不能走,但我会非常警惕。因为自由度越高,意味着上下文、状态、失败路径和安全负担都会一起膨胀。最后你运营的不是一个产品,而是一个高波动的成本容器。

更稳的系统,往往不是一上来就把一切都开放给 Agent,而是先把大部分确定性 workflow 收好,把规则清楚、边界稳定、结果可验证的部分收进流水线,只把真正需要开放式推理和复杂博弈的那一层留给 frontier model。

这样做的意义不只是省钱,更是为了可预测。一个系统如果大多数时候都在可控轨道上运行,只有少数复杂情况再把智能放出来,它才更像能规模化交付的产品,而不是炫技 demo。

最后一句

我现在回头看 Claude 这次争议,脑子里留下来的已经不是“又一家平台变贵了”这种直觉,而是另一句话:

AI coding 赛道真正的分水岭,不是谁把 token 卖得更便宜,而是谁能在资源约束下,把同一个任务更稳定、更克制、更少浪费地做成。

以后真正能留下来的 Agent,不一定是 context 最长的,也不一定是最会说的,而是最懂得在该省的地方省,在该花的地方花,最后还能把任务做成的那个。

这篇文章不是调研笔记的平铺直叙版,而是我从那份调研里真正带走的判断:算力不再是背景条件,它正在反过来塑造产品哲学。