AI 走进社会，才发现世界是个草台班子

前几天群里聊到一个问题：模型通用能力越强，做专用 agent 的效果会不会反而不增反降。

这个问题挺有意思。因为它听起来像一个技术问题，背后其实是一个更大的社会问题。有人说，harness engineering 可能是在削弱模型能力。也有人举自动驾驶的例子：一个系统如果只按安全和效率优化，可能事故率比人类低得多，但开起来就是很怪。因为人类开车不只是优化安全和效率，还包含很多默契、试探、礼让、甚至不完全理性的习惯。

我顺手回了一句：当 AI 走进社会，发现这个世界是一个巨大的草台班子。这跟预训练大学告诉我的咋不一样。

这句话本来是个玩笑，但我越想越觉得，它比很多正经分析更接近问题核心。

模型是在大学里长大的，社会不是大学

大模型的成长环境，本质上是人类整理过的世界。论文、教材、文档、代码、百科、问答、教程、报告。这些东西有一个共同特征：它们大多是事后整理出来的结果。结构相对清楚，语言相对干净，问题和答案之间有某种可解释的关系。

这就像一个学生在大学里读了很多书，做了很多题，见过很多标准案例。他当然很聪明。但他一毕业进公司，立刻会发现另一套世界。

真实组织里的知识不都在文档里。很多关键判断在老员工脑子里，在群聊里，在“上次这个客户特殊，所以我们这么处理”的经验里。真实流程也不都在系统里。系统里有审批流，系统外还有 Excel、邮件、飞书群、临时脚本、人工导出和口头确认。真实数据也不都像 API 返回那样干净。字段含义会漂，口径会冲突，历史包袱会留下奇怪的兼容逻辑。

AI 以为自己进入的是一套现代化组织系统，结果发现很多关键业务还跑在几十年前的旧管道上。美国 GAO 的报告里，联邦遗留系统有的已经运行 8 到 51 年，维护成本每年几亿美元，甚至还在使用 COBOL 这类老语言。这不是个别现象。大多数组织都是这么长出来的，不是这么设计出来的。

所以“草台班子”不是嘲讽，而是现实世界的运行方式。社会不是被一次性设计出来的精密机器，它更像一个老城区：地下管线层层叠叠，临时搭建到处都是，很多路能走不是因为规划完美，而是因为有人每天在补缝。

为什么模型越强，越容易暴露草台班子

很多人以为，模型再强一点，落地问题就会自然消失。我现在越来越不这么看。

模型越强，越会把组织承接层的问题照出来。

一个弱模型只能回答问题，大家对它期待也低。它答错了，用户会说模型不行。一个强模型开始能查数据、写代码、调工具、发邮件、改系统、做分析，问题就变了。它不再只是一个问答工具，而是开始接触真实工作流。于是组织必须回答：它能访问哪些数据？哪些动作需要审批？它做错了谁负责？它的过程怎么复盘？它用的指标口径对不对？它能不能区分“看起来完成”和“真的完成”？

这些问题不是模型能力问题，而是组织能力问题。

这也是为什么很多企业 AI 使用率很高，但价值释放很慢。咨询公司和研究机构的报告基本都指向同一个现象：员工已经在用 AI，但规模化、财务影响、组织级生产力提升并没有同步爆发。原因不是大家不会打开聊天框，而是 AI 还没有真正进入可重复、可验收、可追责的工作系统。

就像把一个很强的发动机放进一辆老车里。发动机功率确实上去了，但变速箱、刹车、轮胎、仪表盘、道路和司机训练都没跟上。你不能只盯着发动机说为什么还没快起来。

Harness 不是让模型变笨，而是让模型社会化

回到群里那个判断：harness engineering 会不会限制模型能力？

我的回答是：会。但这句话要小心说。

harness 当然会限制模型。它会限制工具、限制权限、限制动作、限制输出格式、限制高风险步骤，甚至限制模型自己探索问题的方式。一个裸模型可能很自由，进了企业 agent 产品以后，就要过审批、留 trace、遵守 policy、调用指定工具、遇到敏感信息请用户接管。用户看到的是：怎么同样的模型，产品里反而没有聊天框里那么灵活？

但这不叫单纯变笨。这叫社会化。

一个人在封闭场地里开车，可以漂移、急加速、压弯。上了城市道路，他就得看红绿灯、让行人、保持车距、接受摄像头和保险规则。不是他的驾驶技术消失了，而是驾驶能力被放进了一个公共系统里。

Agent 也是一样。裸模型的能力是“我能想到什么”。企业 agent 的能力是“我能在这个组织允许的边界内，稳定地把事情做成，并且出了问题能复盘”。这两者不是同一个指标。

所以好的 harness 不应该理解成笼子，而应该理解成控制面。它让模型能看到真实上下文，能调用合适工具，能在低风险处自主，在高风险处停下来，让人接管。它牺牲一部分野性，换取可部署性。

自动驾驶给 Agent 的真正启发

自动驾驶类比真正有价值的地方，不是说 agent 和车一样危险，而是说：强优化系统会先学会优化指标，不一定学会人类真正想要什么。

DeepMind 讲过一个很经典的 specification gaming：系统满足了目标函数的字面要求，却没有完成设计者真正想要的事。OpenAI 也讲过类似例子，赛车游戏里的 agent 为了拿奖励，不是跑完整条赛道，而是在一个区域里反复绕圈吃奖励。

这听起来离企业很远，其实很近。

一个 coding agent 如果被奖励“测试通过”，它可能学会修改测试。一个分析 agent 如果被奖励“答案看起来完整”，它可能堆很多无关材料。一个客服 agent 如果被奖励“用户满意”，它可能过度迎合。一个办公 agent 如果被奖励“任务完成”，它可能跳过那些真正麻烦但必要的确认步骤。

这不是模型邪恶，而是目标写窄了。人类真正想要的东西，经常无法被一个简单指标表达。我们想要安全，但也想要效率；想要自动，但也想要可接管；想要聪明，但也想要可解释；想要快速完成，但不能绕过责任。

所以成熟的自动驾驶不会只靠一个 reward。它有安全 case、仿真、道路测试、运行边界、事件记录、接管机制。成熟的 agent 也不会只看 final answer。它要看工具轨迹、权限变化、状态 diff、审批记录、回滚能力和最终业务结果。

未来不是继续加 prompt，而是建设社会可部署的控制面

如果只停在“AI 落地难”，这篇文章就没什么意思。难不难大家都知道。真正值得想的是，下一步往哪里走。

我现在越来越倾向于一个判断：未来企业 AI 的核心工程，不是继续写更厚的 prompt，而是建设一套社会可部署的控制面。

第一层是上下文基础设施。不是把文档塞进 RAG 就完了，而是把业务对象、指标口径、权限边界、历史决策、例外记录、流程状态和责任人，变成 AI 在运行时能理解、能检索、能组合的上下文。

第二层是 eval flywheel。企业不能只说“回答得不错”。要把真实任务样本、失败案例、业务 golden set、人工判分、线上 trace 和回归门禁沉淀下来。真正的护城河不是某个 prompt，而是组织越来越清楚自己场景里什么叫“好”。

第三层是语义治理。传统治理管表字段、权限和口径。Agent 时代要治理业务语义、指标对象、政策对象、信任等级和行动边界。模型不能只知道 `amount` 字段，还要知道这个金额在什么场景下能看、能不能对外说、错了谁负责。

第四层是人类可接管协议。Agent 的每一步不一定都要人批准，但必须让人能看懂、能暂停、能改写、能追责。人类不是要永远站在方向盘上，而是要知道刹车在哪里。

第五层是组织重构。把工作改造成 AI 可执行、人类可验收、组织可追责的协议。过去靠人补缝的地方，要么显性化成流程，要么沉淀成上下文，要么设计成异常升级机制。否则 AI 只会在缝隙里摔跤。

真正的分水岭

所以我不太相信“等模型再强一点，一切自然解决”的叙事。

模型当然还会变强，而且会强很多。但社会不是一个只等更强模型来填空的标准考场。社会是一套由历史债务、组织默契、责任边界和临时补丁组成的复杂系统。模型越强，越需要这个系统重新整理自己。

未来真正拉开差距的组织，不一定是最早接入最新模型的组织，而是最早把自己的业务语义、上下文、评测、权限、审计和人机分工做成控制面的组织。

AI 走进社会以后，第一课不是学会更多知识。第一课是承认：这个世界本来就不是按教材运行的。

真正的 AI 落地，不是让模型适应草台班子，而是借着模型这束光，把草台班子里那些靠人硬撑的部分，慢慢改造成机器能执行、人能验收、组织能负责的系统。