当碳基生命在削减中层的时候，硅基生命却在增加中层

前两天在群里聊到一个现象，我一开始觉得挺有意思，也有点反直觉：人类公司这些年一直在想办法拆层级，AI 系统却在一点点把层级搭起来。

公司这边，大家都在说要更扁平。Meta 在"效率之年"里压缩管理层，想让做事的人和做决定的人离得近一点。Zuckerberg 的说法很直接：组织每多一层，信息流和决策就会多一点延迟，也会多一点风险规避。Amazon 也在做类似的事。Jassy 要求各个 S-team 组织提高 IC 和 manager 的比例，理由还是那些：少一点层级，少一点官僚，让决策更靠近一线。

但 AI 这边，方向几乎是反过来的。

一开始我们会觉得，一个 Agent 似乎就够了。给它一个目标，让它自己拆任务、查资料、写代码、验证结果。后来慢慢发现，一个 Agent 把所有事情都塞进同一个上下文里，效果并不稳定。于是开始有主 Agent 和子 Agent，有 orchestrator-workers，有 evaluator-optimizer，也有 parallel agents。到 Claude Code 的 dynamic workflows，已经可以让 Claude 先规划任务，再在一个 session 里跑很多并行 subagents，最后把结果收回来验证。

这个画面乍看确实有点讽刺。人类公司刚从科层制里往外跑，转头又给 AI 搭了一套类似科层制的东西。

群里有人调侃说，那些 agent 架构图看小图还以为是哪家大公司的组织架构。还有人说得更狠：agent 不用升职加薪，也不用争预算，利益天然对齐，所以人类扁平化最想甩掉的那一层，在 AI 这里反而没那么讨厌了。

我一开始也把它当成一个有趣的反差。但后来想想，这可能不是反差，而是同一道题在两个系统里的不同答案。

这道题其实很朴素：复杂任务要怎么在有限注意力下完成？

层级先是一种注意力安排

我们平时一说层级，很容易想到组织图上的方框，想到谁向谁汇报，谁能拍板，谁在谁上面。

但如果先把权力关系放到一边，层级最底层的作用其实没那么复杂。它是一种注意力安排。

下面的人处理细节，上面的人看摘要。局部系统消化局部复杂性，上层只看接口和结果。这样一来，一个人不需要同时理解所有细节，一个系统也不需要把所有复杂性都摊在同一层。

没有这种安排，复杂性会直接把注意力淹没。

Simon 的钟表匠寓言讲的就是这个意思。先把零件拼成稳定模块，再把模块组装起来，效率会比从零件一口气装到成品高很多。因为中间成果可以保存，各个层次也可以相对独立地工作。

斯密讲分工，科斯讲企业用指挥替代市场交易来节省协调成本。它们说的当然不是同一件具体的事，但背后有一个共同点：人类面对复杂任务时，往往会把任务拆成层。每一层不用理解全部，只要处理好自己那一段。

所以层级并不只是组织的毛病。它也是人类处理复杂性的发明。

问题在于，层级从来不是免费的。

每多一层，信息就要被压缩一次、转述一次、解释一次。只要有压缩，就会有损耗。只要有转述，就会有变形。

人为什么想减层级

想象一个五万人的公司。战略目标在 CEO 那里可能很清楚，但经过五六层传递之后，到一线手里往往已经不是原来的样子了。

这不是因为中间每个人都不努力。很多时候，恰恰是因为每个人都在"理解"它、"翻译"它、"结合本部门实际"处理它。等这些加工叠在一起，原始意图就慢慢被磨掉了。

组织沟通研究里有个常被提到的数字：信息每经过一层向上传递，真正保留下来的大约只有六七成。这个数字未必需要被当成精确公式，但它描述的体验很多人都熟悉：一线看到的是具体问题，中层整理成风险和进度，高层听到的是经过包装之后的摘要。到最后，决策者拿到的经常已经不是原始事实，而是一份被层层处理过的版本。

更麻烦的是，人类层级不是中性的压缩器。

人会顾及面子，会考虑利益，会报喜不报忧，会把坏消息修得没那么难听。信息在组织里损耗，常常不是简单的"丢包"，而是有动机的改写。

所以今天很多大公司拆层级，背后真正想解决的不是"中层太多"这么简单，而是层级太多之后，注意力被分散，信息被稀释，决策越来越偏离真实现场。

Zuckerberg 说层级会增加 latency 和 risk aversion，Jassy 讲那些 pre-meeting for pre-meeting，本质上都在描述同一种病：信息还没到真正的决策点，已经在传递过程中消耗掉了原来的能量。

但这里有个反直觉的地方。

公司嘴上都在反中层，现实里中层却并没有真的消失。中层管理者占美国劳动力的比例，从 1983 年的 9.2% 升到了 2022 年的 13%。这说明一件事：组织不是因为喜欢层级才长出层级，而是因为协调需求一直都在。

今天砍掉一批，明天它可能换个名字再长回来。叫 manager，叫 lead，叫 program owner，叫 business partner，名字变了，功能还在那里。

所以人类组织不能无限拆层级。拆到最后，看似每个人都更自由，实际上所有协调、判断、沟通、优先级排序都会压回到个体身上。所谓"一人公司"很迷人，但如果什么都要一个人同时处理，人也会撞上自己的注意力极限。

扁平不是没有代价的。它只是把原来显性的组织层级，部分转移成了隐性的个人负担。

AI 为什么又在加层级

AI 系统现在往反方向走，也是因为类似的问题。

单个 Agent 看起来很强，什么都能做一点。但只要任务稍微复杂，它也会遇到注意力极限。这里的注意力，换成 AI 的语言，就是 context。

Anthropic 有个说法很直接：context 是有限资源，而且有边际递减。上下文越长，模型不一定越聪明，很多时候反而越容易失焦。一个 Agent 如果把整个项目的资料、历史、约束、代码、讨论都塞进同一个上下文里，最后很可能什么都知道一点，但关键处抓不住。

于是 subagent 出现了。

每个子 Agent 拿一个相对干净的上下文，处理一个局部任务。它不需要知道全局所有细节，只要把自己那一块查清楚、做扎实，再把结果压缩回主 Agent。主 Agent 也不需要知道每个子 Agent 看过哪些文件、走过哪些路径，只需要拿到结论、证据和可验证的输出。

这和组织层级的逻辑其实很像。

不是为了模仿公司里的官僚制，而是为了让复杂任务可以被拆开，让不同局部可以并行探索，让主系统的注意力不被细节淹没。

AI 搭层级，不是因为它喜欢层级，而是因为单层结构扛不住复杂性。

但 AI 的层级也不是加得越多越好。

Anthropic 自己的数据里，多 Agent 比单 Agent 效果高约 90%，但 token 用量是普通 chat 的 15 倍。这个交换很真实：你用更多结构换来了更强的探索能力，也付出了更高的协调成本。

我自己有次深夜跑实验，大几十个 Agent 一起发动，token 消耗像水龙头没关。那一刻体感非常强：agent 之间也不是没有传话成本。一个子 Agent 说清楚的东西，传到主 Agent 这里会被压缩一次；主 Agent 再交给另一个 Agent，又会被重新解释一次。层级多了以后，AI 也会遇到"传话游戏"。

信息不是只有在人类组织里才会变形。只要有多层传递，它就会变形。

两边其实都在往中间走

这样看，"人类组织减层级"和"AI 系统加层级"就不是两个相反的趋势了。

它们更像是从两个极端出发，往同一个中间点靠近。

人类组织过去层级太多，信息失真太严重，所以现在要少一些层，让一线和决策点靠得更近。但它不可能真的走到零层级。零层级意味着所有协调都压到每个人身上，最后还是会过载。

AI 系统一开始太像一个单体智能，什么都往一个上下文里塞，所以现在要多一些层，让任务被拆开，让上下文保持干净，让不同路径可以并行探索。但它也不能无限加层。层级太多之后，agent 之间的协调、压缩、验证都会变成新的成本。

所以真正的问题不是"要不要层级"。

真正的问题是：多少层级刚好够用？

这个问题对做 AI 系统的人很实际。不是 Agent 越多越好，也不是越扁平越好。如果任务可以清晰拆分，子任务之间依赖少，搜索空间很宽，单个上下文装不下，那多 Agent 是合理的。如果任务本身是线性的，范围不大，验证标准也明确，一个 workflow，甚至一个脚本，可能就够了。

对管理组织的人也一样。不是层级越少越先进，而是每一层都应该承担有效的信息处理。能压缩复杂性、提高判断质量、减少协调成本的层，是有价值的。只是转述、包装、制造会议和延迟的层，就应该被砍掉。

人在拆层级，AI 在搭层级，看起来方向相反，其实都在回答同一个问题：对于有限的注意力，多少层级才刚好够用？