今天公司对每个员工能使用的 AI 额度做了重新调整。
年初的时候,每个人每个月的上限是 3000 美元。这个额度非常充裕,甚至可以说有点奢侈。过去几个月,靠着这个额度,很多人真正开始学习 AI,开始把 AI 放进自己的日常工作流里。有些人只是偶尔问问问题,有些人已经搭起了自动化或半自动化流程。
我自己属于后者。所以我很理解那些一下子不适应的同学。一个人一旦真的把 AI 用进工作方式里,额度变化不是少了一个工具,而是会影响整套工作节奏。
但我也觉得,这件事不完全是坏事。
如果一个组织有好几万人,每个人都按 3000 美元上限去消耗,这个成本肯定顶不住。更关键的是,这笔成本不会自动转化成商业价值。AI 用得多,不等于业务结果变好。这个中间差了一整套工作流设计、上下文组织、模型选择和验收机制。
高额度阶段让大家学会了敢用 AI,低额度阶段才会逼大家学会会用 AI。
第一阶段解决的是采用率,不是收益率
我并不否定前几个月高额度的价值。相反,我觉得它非常关键。
AI First 这种事情,如果只停留在口号里,没有真实额度,没有真实工具,没有真实消耗,很难推动人改变习惯。很多人不是不想学,而是不知道从哪里开始,也不知道公司到底是不是来真的。高额度本身就是一种信号:你可以大胆试,公司愿意为这个学习曲线付钱。
所以过去几个月培养出一批离不开 AI 的核心人员,这件事是有价值的。组织学习本来就需要一定浪费。没有足够宽的试错空间,就不会有人真正把手弄脏。
问题在于,高额度只能解决采用率,不能自动解决收益率。
外部企业其实也遇到同样的问题。很多组织在 GenAI 上投入很多,但真正进入生产系统、产生可衡量收益的比例并不高。原因不难理解:让员工开始使用 AI,和让 AI 稳定改变业务结果,中间隔着很长一段距离。
前者靠额度和工具就能推动。后者需要任务拆解、流程嵌入、上下文沉淀、风险控制和结果验收。
这也是为什么额度收紧之后,真正要讨论的不是“还够不够用”,而是“哪些用法本来就不该继续”。
真正贵的不是模型,是低质量调用
很多人谈 AI 成本,第一反应是 token。哪个模型贵,哪个模型便宜,订阅包还剩多少,API 单价降了没有。
这些当然重要,但我越来越觉得,真正贵的不是模型本身,而是低质量调用。
一个任务本来可以说清楚目标、给干净上下文、一次生成、一次验收。结果因为输入很乱,模型读了一堆无关历史;因为约束没写清,反复改五轮;因为没有验收标准,Agent 自己跑偏半天;因为默认使用最强模型,连格式转换、摘要、批处理都走顶级算力。
这时候你以为自己在花 token,其实是在为没有设计的工作流买单。
这也是我对公司额度调整的另一个理解:它会把这些浪费暴露出来。以前额度足够大,大家很容易用“再跑一轮”解决所有问题。现在不行了。你必须在调用之前想清楚,这次到底要 AI 做什么,输入是不是足够干净,输出怎么验收,失败以后怎么修。
这件事会让很多人不舒服。但从能力训练角度看,它是必要的。
不是所有任务都配得上最强模型
过去额度充裕时,最容易形成的坏习惯是:默认用最强模型。
这很自然。强模型效果好,容错率高,省心。尤其是长任务、复杂任务、开放式判断,用强模型确实更稳。
但如果所有环节都用最强模型,本质上就是把 AI 当成一个无限体力的高级员工。什么活都让最贵的人干,短期舒服,长期一定不经济。
我的体感是,很多便宜模型这半年进步很快。Gemini Flash、Cursor 里较轻量的模型、腾讯混元的一些预览模型,在长任务和复杂任务上确实会出问题。但如果任务边界清楚、输入输出信号明确、限制条件写得足够具体,它们其实可以完成不少工作。
比如摘要、格式化、分类、初筛、批量改写、固定模板填充、简单代码转换,这些任务不一定需要最强模型。真正应该留给强模型的是规划、复杂推理、架构判断、风险结论、关键文档定稿和最终验收。
强模型应该站在关键出口,不应该站在每一个入口。
这会变成未来 AI 使用的一门基本功:模型分层。
不是为了省钱而省钱,而是为了让每一档模型做适合自己的事。强模型负责少数高价值判断,便宜模型负责大量中间劳动。人负责定义任务、组织上下文和验收结果。
上下文也要算 ROI
额度有限以后,另一个会被迫重视的东西是上下文。
过去我们太容易把长上下文当成万能解法。能贴多少贴多少,能上传多少上传多少,能把历史对话全塞进去就全塞进去。这样做有时候确实方便,但也会制造新的浪费。
上下文不是越多越好。上下文越乱,模型越需要花力气辨别什么重要、什么无关。你给它十万 token,其中七万是噪音,它不会因此更聪明,只会把更多计算花在垃圾堆里找线索。
真正好的上下文组织,应该像一个干净的工作台。稳定背景沉淀成文档或 skill,当前任务只给必要输入,历史过程压缩成决策摘要,验收标准单独列出来,失败样本进入下次可复用的资产。
这不是单纯的 prompt 技巧,而是工作流设计。
我现在越来越觉得,所谓 Context Engineering,不只是为了提高回答质量,也是在做成本治理。你把上下文组织得越好,模型越少浪费,结果也越稳定。
资源限制会逼出真正的问题
我印象里,张小龙以前在一些内部或公开场合讲过类似意思:资源有限的时候,反而更容易激发创新。我没有找到能逐字核验的原话,所以这里只说我自己的理解。
资源充裕时,人很容易做加法。多开一个 Agent,多跑一次深度调研,多塞一段上下文,多用一个强模型。每一步看起来都合理,最后整个系统变得越来越重。
资源有限时,人会被迫做减法。到底哪个环节是瓶颈?到底哪段上下文是必要的?到底这个任务该不该用 AI?到底这个步骤能不能交给便宜模型?到底这次调用有没有减少人的关键时间?
这些问题平时也重要,只是在资源充裕时没人愿意认真问。
所以额度限制不是创新的敌人。真正的敌人是浪费被隐藏以后,大家误以为自己已经高效。
有限资源至少会让账重新变清楚。
接下来,我会先改自己的工作流
这件事对我自己的提醒很直接。
接下来我会重新看每天跑的这些 AI 工作流,哪些必须用强模型,哪些可以降级,哪些适合拆成多段,哪些上下文应该提前整理,哪些任务不值得跑完整 Agent。
我的初步原则会是这样:
- 强模型做判断、规划、复杂推理和最终收口。
- 便宜模型做摘要、格式化、初筛、批处理和结构转换。
- 长上下文先压缩,再交给强模型。
- 高频任务沉淀成 skill 或模板,不要每次重新解释。
- 每次调用都尽量有明确输出和验收标准。
这不是少用 AI,而是更认真地用 AI。
第一阶段,比的是谁更敢用。第二阶段,比的是谁更会组织任务。
AI 额度限制,不一定会让我们少用 AI。它可能会让我们第一次真正学会用 AI。