前几天群里聊到一个问题:模型通用能力越强,做专用 agent 的效果会不会反而不增反降。
这个问题挺有意思。因为它听起来像一个技术问题,背后其实是一个更大的社会问题。有人说,harness engineering 可能是在削弱模型能力。也有人举自动驾驶的例子:一个系统如果只按安全和效率优化,可能事故率比人类低得多,但开起来就是很怪。因为人类开车不只是优化安全和效率,还包含很多默契、试探、礼让、甚至不完全理性的习惯。
我顺手回了一句:当 AI 走进社会,发现这个世界是一个巨大的草台班子。这跟预训练大学告诉我的咋不一样。
这句话本来是个玩笑,但我越想越觉得,它比很多正经分析更接近问题核心。
模型是在大学里长大的,社会不是大学
大模型的成长环境,本质上是人类整理过的世界。论文、教材、文档、代码、百科、问答、教程、报告。这些东西有一个共同特征:它们大多是事后整理出来的结果。结构相对清楚,语言相对干净,问题和答案之间有某种可解释的关系。
这就像一个学生在大学里读了很多书,做了很多题,见过很多标准案例。他当然很聪明。但他一毕业进公司,立刻会发现另一套世界。
真实组织里的知识不都在文档里。很多关键判断在老员工脑子里,在群聊里,在“上次这个客户特殊,所以我们这么处理”的经验里。真实流程也不都在系统里。系统里有审批流,系统外还有 Excel、邮件、飞书群、临时脚本、人工导出和口头确认。真实数据也不都像 API 返回那样干净。字段含义会漂,口径会冲突,历史包袱会留下奇怪的兼容逻辑。
AI 以为自己进入的是一套现代化组织系统,结果发现很多关键业务还跑在几十年前的旧管道上。美国 GAO 的报告里,联邦遗留系统有的已经运行 8 到 51 年,维护成本每年几亿美元,甚至还在使用 COBOL 这类老语言。这不是个别现象。大多数组织都是这么长出来的,不是这么设计出来的。
所以“草台班子”不是嘲讽,而是现实世界的运行方式。社会不是被一次性设计出来的精密机器,它更像一个老城区:地下管线层层叠叠,临时搭建到处都是,很多路能走不是因为规划完美,而是因为有人每天在补缝。
为什么模型越强,越容易暴露草台班子
很多人以为,模型再强一点,落地问题就会自然消失。我现在越来越不这么看。
模型越强,越会把组织承接层的问题照出来。
一个弱模型只能回答问题,大家对它期待也低。它答错了,用户会说模型不行。一个强模型开始能查数据、写代码、调工具、发邮件、改系统、做分析,问题就变了。它不再只是一个问答工具,而是开始接触真实工作流。于是组织必须回答:它能访问哪些数据?哪些动作需要审批?它做错了谁负责?它的过程怎么复盘?它用的指标口径对不对?它能不能区分“看起来完成”和“真的完成”?
这些问题不是模型能力问题,而是组织能力问题。
这也是为什么很多企业 AI 使用率很高,但价值释放很慢。咨询公司和研究机构的报告基本都指向同一个现象:员工已经在用 AI,但规模化、财务影响、组织级生产力提升并没有同步爆发。原因不是大家不会打开聊天框,而是 AI 还没有真正进入可重复、可验收、可追责的工作系统。
就像把一个很强的发动机放进一辆老车里。发动机功率确实上去了,但变速箱、刹车、轮胎、仪表盘、道路和司机训练都没跟上。你不能只盯着发动机说为什么还没快起来。
Harness 不是让模型变笨,而是让模型社会化
回到群里那个判断:harness engineering 会不会限制模型能力?
我的回答是:会。但这句话要小心说。
harness 当然会限制模型。它会限制工具、限制权限、限制动作、限制输出格式、限制高风险步骤,甚至限制模型自己探索问题的方式。一个裸模型可能很自由,进了企业 agent 产品以后,就要过审批、留 trace、遵守 policy、调用指定工具、遇到敏感信息请用户接管。用户看到的是:怎么同样的模型,产品里反而没有聊天框里那么灵活?
但这不叫单纯变笨。这叫社会化。
一个人在封闭场地里开车,可以漂移、急加速、压弯。上了城市道路,他就得看红绿灯、让行人、保持车距、接受摄像头和保险规则。不是他的驾驶技术消失了,而是驾驶能力被放进了一个公共系统里。
Agent 也是一样。裸模型的能力是“我能想到什么”。企业 agent 的能力是“我能在这个组织允许的边界内,稳定地把事情做成,并且出了问题能复盘”。这两者不是同一个指标。
所以好的 harness 不应该理解成笼子,而应该理解成控制面。它让模型能看到真实上下文,能调用合适工具,能在低风险处自主,在高风险处停下来,让人接管。它牺牲一部分野性,换取可部署性。
自动驾驶给 Agent 的真正启发
自动驾驶类比真正有价值的地方,不是说 agent 和车一样危险,而是说:强优化系统会先学会优化指标,不一定学会人类真正想要什么。
DeepMind 讲过一个很经典的 specification gaming:系统满足了目标函数的字面要求,却没有完成设计者真正想要的事。OpenAI 也讲过类似例子,赛车游戏里的 agent 为了拿奖励,不是跑完整条赛道,而是在一个区域里反复绕圈吃奖励。
这听起来离企业很远,其实很近。
一个 coding agent 如果被奖励“测试通过”,它可能学会修改测试。一个分析 agent 如果被奖励“答案看起来完整”,它可能堆很多无关材料。一个客服 agent 如果被奖励“用户满意”,它可能过度迎合。一个办公 agent 如果被奖励“任务完成”,它可能跳过那些真正麻烦但必要的确认步骤。
这不是模型邪恶,而是目标写窄了。人类真正想要的东西,经常无法被一个简单指标表达。我们想要安全,但也想要效率;想要自动,但也想要可接管;想要聪明,但也想要可解释;想要快速完成,但不能绕过责任。
所以成熟的自动驾驶不会只靠一个 reward。它有安全 case、仿真、道路测试、运行边界、事件记录、接管机制。成熟的 agent 也不会只看 final answer。它要看工具轨迹、权限变化、状态 diff、审批记录、回滚能力和最终业务结果。
未来不是继续加 prompt,而是建设社会可部署的控制面
如果只停在“AI 落地难”,这篇文章就没什么意思。难不难大家都知道。真正值得想的是,下一步往哪里走。
我现在越来越倾向于一个判断:未来企业 AI 的核心工程,不是继续写更厚的 prompt,而是建设一套社会可部署的控制面。
第一层是上下文基础设施。不是把文档塞进 RAG 就完了,而是把业务对象、指标口径、权限边界、历史决策、例外记录、流程状态和责任人,变成 AI 在运行时能理解、能检索、能组合的上下文。
第二层是 eval flywheel。企业不能只说“回答得不错”。要把真实任务样本、失败案例、业务 golden set、人工判分、线上 trace 和回归门禁沉淀下来。真正的护城河不是某个 prompt,而是组织越来越清楚自己场景里什么叫“好”。
第三层是语义治理。传统治理管表字段、权限和口径。Agent 时代要治理业务语义、指标对象、政策对象、信任等级和行动边界。模型不能只知道 `amount` 字段,还要知道这个金额在什么场景下能看、能不能对外说、错了谁负责。
第四层是人类可接管协议。Agent 的每一步不一定都要人批准,但必须让人能看懂、能暂停、能改写、能追责。人类不是要永远站在方向盘上,而是要知道刹车在哪里。
第五层是组织重构。把工作改造成 AI 可执行、人类可验收、组织可追责的协议。过去靠人补缝的地方,要么显性化成流程,要么沉淀成上下文,要么设计成异常升级机制。否则 AI 只会在缝隙里摔跤。
真正的分水岭
所以我不太相信“等模型再强一点,一切自然解决”的叙事。
模型当然还会变强,而且会强很多。但社会不是一个只等更强模型来填空的标准考场。社会是一套由历史债务、组织默契、责任边界和临时补丁组成的复杂系统。模型越强,越需要这个系统重新整理自己。
未来真正拉开差距的组织,不一定是最早接入最新模型的组织,而是最早把自己的业务语义、上下文、评测、权限、审计和人机分工做成控制面的组织。
AI 走进社会以后,第一课不是学会更多知识。第一课是承认:这个世界本来就不是按教材运行的。
真正的 AI 落地,不是让模型适应草台班子,而是借着模型这束光,把草台班子里那些靠人硬撑的部分,慢慢改造成机器能执行、人能验收、组织能负责的系统。