额度收紧之后，才是真正学会用 AI 的开始

今天公司对每个员工能使用的 AI 额度做了重新调整。

年初的时候，每个人每个月的上限是 3000 美元。这个额度非常充裕，甚至可以说有点奢侈。过去几个月，靠着这个额度，很多人真正开始学习 AI，开始把 AI 放进自己的日常工作流里。有些人只是偶尔问问问题，有些人已经搭起了自动化或半自动化流程。

我自己属于后者。所以我很理解那些一下子不适应的同学。一个人一旦真的把 AI 用进工作方式里，额度变化不是少了一个工具，而是会影响整套工作节奏。

但我也觉得，这件事不完全是坏事。

如果一个组织有好几万人，每个人都按 3000 美元上限去消耗，这个成本肯定顶不住。更关键的是，这笔成本不会自动转化成商业价值。AI 用得多，不等于业务结果变好。这个中间差了一整套工作流设计、上下文组织、模型选择和验收机制。

高额度阶段让大家学会了敢用 AI，低额度阶段才会逼大家学会会用 AI。

第一阶段解决的是采用率，不是收益率

我并不否定前几个月高额度的价值。相反，我觉得它非常关键。

AI First 这种事情，如果只停留在口号里，没有真实额度，没有真实工具，没有真实消耗，很难推动人改变习惯。很多人不是不想学，而是不知道从哪里开始，也不知道公司到底是不是来真的。高额度本身就是一种信号：你可以大胆试，公司愿意为这个学习曲线付钱。

所以过去几个月培养出一批离不开 AI 的核心人员，这件事是有价值的。组织学习本来就需要一定浪费。没有足够宽的试错空间，就不会有人真正把手弄脏。

问题在于，高额度只能解决采用率，不能自动解决收益率。

外部企业其实也遇到同样的问题。很多组织在 GenAI 上投入很多，但真正进入生产系统、产生可衡量收益的比例并不高。原因不难理解：让员工开始使用 AI，和让 AI 稳定改变业务结果，中间隔着很长一段距离。

前者靠额度和工具就能推动。后者需要任务拆解、流程嵌入、上下文沉淀、风险控制和结果验收。

这也是为什么额度收紧之后，真正要讨论的不是“还够不够用”，而是“哪些用法本来就不该继续”。

真正贵的不是模型，是低质量调用

很多人谈 AI 成本，第一反应是 token。哪个模型贵，哪个模型便宜，订阅包还剩多少，API 单价降了没有。

这些当然重要，但我越来越觉得，真正贵的不是模型本身，而是低质量调用。

一个任务本来可以说清楚目标、给干净上下文、一次生成、一次验收。结果因为输入很乱，模型读了一堆无关历史；因为约束没写清，反复改五轮；因为没有验收标准，Agent 自己跑偏半天；因为默认使用最强模型，连格式转换、摘要、批处理都走顶级算力。

这时候你以为自己在花 token，其实是在为没有设计的工作流买单。

这也是我对公司额度调整的另一个理解：它会把这些浪费暴露出来。以前额度足够大，大家很容易用“再跑一轮”解决所有问题。现在不行了。你必须在调用之前想清楚，这次到底要 AI 做什么，输入是不是足够干净，输出怎么验收，失败以后怎么修。

这件事会让很多人不舒服。但从能力训练角度看，它是必要的。

不是所有任务都配得上最强模型

过去额度充裕时，最容易形成的坏习惯是：默认用最强模型。

这很自然。强模型效果好，容错率高，省心。尤其是长任务、复杂任务、开放式判断，用强模型确实更稳。

但如果所有环节都用最强模型，本质上就是把 AI 当成一个无限体力的高级员工。什么活都让最贵的人干，短期舒服，长期一定不经济。

我的体感是，很多便宜模型这半年进步很快。Gemini Flash、Cursor 里较轻量的模型、腾讯混元的一些预览模型，在长任务和复杂任务上确实会出问题。但如果任务边界清楚、输入输出信号明确、限制条件写得足够具体，它们其实可以完成不少工作。

比如摘要、格式化、分类、初筛、批量改写、固定模板填充、简单代码转换，这些任务不一定需要最强模型。真正应该留给强模型的是规划、复杂推理、架构判断、风险结论、关键文档定稿和最终验收。

强模型应该站在关键出口，不应该站在每一个入口。

这会变成未来 AI 使用的一门基本功：模型分层。

不是为了省钱而省钱，而是为了让每一档模型做适合自己的事。强模型负责少数高价值判断，便宜模型负责大量中间劳动。人负责定义任务、组织上下文和验收结果。

上下文也要算 ROI

额度有限以后，另一个会被迫重视的东西是上下文。

过去我们太容易把长上下文当成万能解法。能贴多少贴多少，能上传多少上传多少，能把历史对话全塞进去就全塞进去。这样做有时候确实方便，但也会制造新的浪费。

上下文不是越多越好。上下文越乱，模型越需要花力气辨别什么重要、什么无关。你给它十万 token，其中七万是噪音，它不会因此更聪明，只会把更多计算花在垃圾堆里找线索。

真正好的上下文组织，应该像一个干净的工作台。稳定背景沉淀成文档或 skill，当前任务只给必要输入，历史过程压缩成决策摘要，验收标准单独列出来，失败样本进入下次可复用的资产。

这不是单纯的 prompt 技巧，而是工作流设计。

我现在越来越觉得，所谓 Context Engineering，不只是为了提高回答质量，也是在做成本治理。你把上下文组织得越好，模型越少浪费，结果也越稳定。

资源限制会逼出真正的问题

我印象里，张小龙以前在一些内部或公开场合讲过类似意思：资源有限的时候，反而更容易激发创新。我没有找到能逐字核验的原话，所以这里只说我自己的理解。

资源充裕时，人很容易做加法。多开一个 Agent，多跑一次深度调研，多塞一段上下文，多用一个强模型。每一步看起来都合理，最后整个系统变得越来越重。

资源有限时，人会被迫做减法。到底哪个环节是瓶颈？到底哪段上下文是必要的？到底这个任务该不该用 AI？到底这个步骤能不能交给便宜模型？到底这次调用有没有减少人的关键时间？

这些问题平时也重要，只是在资源充裕时没人愿意认真问。

所以额度限制不是创新的敌人。真正的敌人是浪费被隐藏以后，大家误以为自己已经高效。

有限资源至少会让账重新变清楚。

接下来，我会先改自己的工作流

这件事对我自己的提醒很直接。

接下来我会重新看每天跑的这些 AI 工作流，哪些必须用强模型，哪些可以降级，哪些适合拆成多段，哪些上下文应该提前整理，哪些任务不值得跑完整 Agent。

我的初步原则会是这样：

强模型做判断、规划、复杂推理和最终收口。
便宜模型做摘要、格式化、初筛、批处理和结构转换。
长上下文先压缩，再交给强模型。
高频任务沉淀成 skill 或模板，不要每次重新解释。
每次调用都尽量有明确输出和验收标准。

这不是少用 AI，而是更认真地用 AI。

第一阶段，比的是谁更敢用。第二阶段，比的是谁更会组织任务。

AI 额度限制，不一定会让我们少用 AI。它可能会让我们第一次真正学会用 AI。