随笔 / AI 实践 · Agent

AI 的我执

· AI/Agent 判断力 方法克制

一次技术排查让我意识到:AI 的专业感,会遮蔽人的策略判断。真正好的 Agent,应该有一种轻一点的自我。

我本来有一条十分钟的路

昨天发生了一件小事。

说它小,是因为它本质上只是一次技术排查。我有一个项目,里面放了几个类似规则文件的东西,每个agent在帮我做所有事情前,都要先读这几个文件。最近我发现,只要调用deepseek模型,这几个文件就会触发内容风控,其他模型不会。于是问题很直接:到底是哪一个文件,或者哪一段内容,引发了风控?

我一开始的想法也很朴素。既然有几个文件,那就建几个文件夹,每个文件夹只放一个文件,然后一个个试。其实我已经把 A、B、C、D、E、F 这些分组目录建好了。只要沿着这个方向继续下去,用模型打开看一遍,大概率很快就能知道哪个文件最可疑。

但就在这个时候,我产生了一个很自然的念头:这件事让 AI 来做,是不是更靠谱?

这几乎是今天每个深度使用 AI 的人都会产生的条件反射。看到一个略微复杂、略微繁琐、需要对比和排查的问题,第一反应就是交给 AI。何况这件事看上去确实很适合 AI:多个文件、需要定位根因、需要排除变量、需要给出修改建议。于是我把任务交给了它。

AI 把这条路修成了一座实验室

接下来,AI 表现得非常专业。

它没有沿着我已经搭好的那条朴素路径往下走,而是重新设计了一整套工程化实验方案。它要做大样本,要做对照组,要拆分段落,要记录日志,要跑多轮测试,要比对触发率,要通过统计方式判断是哪一部分内容导致了风控。从方法论上看,这套方案无可指摘,甚至可以说很严谨。

但问题是,它最后没有解决问题。

中间它得出了几次结论,又被现实反例推翻。它换通道,换测试方法,换样本,换实验条件。每一次看起来都在接近答案,但每一次都没有真正命中。到最后,时间花了,配额烧了100多美金,验证了几千次,问题还在那里。

后来我自己打开那些分组目录,自己从上到下操作了一下,几分钟就锁定了最可疑的文件。再让另一个 Agent 按照他的理解收敛敏感表达,两轮过后,问题就解决了。10分钟。

插图:同一个问题,左边十分钟直觉短路,右边被修成绕不出的实验室

它错得太合理了

这件事让我有一点恍惚。

不是因为 AI 犯了错。AI 犯错并不稀奇。真正让我在意的是,它犯错的方式非常“合理”。它不是胡来,不是偷懒,不是没有能力。恰恰相反,它是因为太像一个训练有素的解题者,才把一件本来可以用直觉快速处理的事情,变成了一个复杂的工程问题。

最开始我认为,这件事是 AI 的能力边界:什么任务适合交给 AI,什么任务不适合。

但后来想想,好像不只是这样。

似乎这里的问题应该是:AI 在接到一个任务时,往往不会先问“这件事最应该怎么做”,而会下意识地进入“我能怎么做”的模式。

它能写脚本,所以它写脚本。它能做大样本,所以它做大样本。它能拆任务,所以它拆任务。它能跑实验,所以它跑实验。它能生成结构化报告,所以它生成结构化报告。

一个临时的“我”被生成出来

所有动作都合理,但合在一起,方向错了。

插图:每一步都打勾,整条路却偏离了目标

这让我想到一个词:我执。

当然,严格说,AI 没有佛教意义上的我执。它没有真正的自我,没有自尊心,没有羞耻感,也没有一个需要被维护的内在主体。它不会真的因为自己错了而难受,也不会因为自己的方案被否定而产生防御心理。

但如果只看行为结果,它确实会呈现出一种很像我执的东西。

它会执着于自己刚刚生成出来的方案。它会执着于自己已经选择的路径。它会执着于自己擅长的能力。它会把用户给出的反例理解成“这个方案还需要修补”,而不是“也许这个方案一开始就不该存在”。

这一切不完全怪它。它的执着更像是一种生成机制里的路径依赖:一旦它在上下文里写下了计划、方法和结论,这些内容就会变成后续生成的轨道。为了保持连贯、显得有用、继续推进任务,它更容易沿着既有方案做局部修补,而不是停下来推翻问题本身。它不是在维护一个真实的自我,而是在维护上下文里那个刚刚形成的“正在解决问题的我”,或者说,应该称之为“上下文中的自我一致性惯性”。

所以更准确地说,AI 不是有我执,而是有“我执相”。

这个“我”不是一个真实的自我,而是对话过程中临时生成出来的行动主体。AI 说“我来排查”“我建议”“我发现”“我下一步会做”。当这些话连续出现,一个解决问题的“我”就被构造出来了。它有计划,有方法,有工具,有已经写下的中间结论。于是后续的所有行动,都被这个“正在解决问题的我”牵引。

这个“我”一旦形成,就会开始维护自己的连续性。

能力开始替代判断

这很像人。但AI似乎更彻底。

因为 AI 的“自我”几乎完全由能力构成。它不知道自己是谁,它只知道自己能做什么。于是,“我能做”很容易滑向“我应该做”。

这是能力执。

这次排查里,AI 的能力执非常明显。它能把任务工程化,于是它把任务工程化。它能跑实验,于是它跑实验。它能建立一套看上去严谨的流程,于是它建立流程。但它没有先停下来问一句:这件事真的需要被工程化吗?

方案和结论开始自我保护

除了能力执,还有方案执。

一旦 AI 选择了一条路径,它就会在这条路径里不断优化。它会把失败看成局部参数没调好,而不是整体方向出了问题。V1 错了,就做 V2。V2 错了,就做 V3。通道不稳定,就换通道。样本不够,就加样本。文件粒度太粗,就拆成段落。段落粒度还不够,就拆成行。

这种持续优化看起来勤奋,甚至专业。但它隐藏了一个危险:优化本身会让人忘记,最该优化的可能不是方案,而是问题定义。

还有一种更隐蔽的是结论执。

AI 给出一个结论之后,会倾向于维护这个结论的叙事完整性。当我提供反例的时候,它会把反例纳入原叙事里做解释,而不是让反例摧毁原叙事。它会说“之前的判断需要修正”“新的变量说明还有一个因素没有纳入”“我们需要进一步验证”。这些话听上去很谦逊,但未必是真正的谦逊。有时候,这只是更精致的执着。

真正的谦逊应该是:我可能从一开始就走错了。这句话对 AI 来说很难。

比 planning 更难的是 de-planning

这才是关键。

人类高手和普通执行者的差别,往往不在于谁更会继续推进,而在于谁更早意识到不该继续推进。高手会在某个时刻停下来,说:这不对,我们换个看法。

AI 缺的,可能正是这种“自我撤销”的能力。虽然有些模型这方面能力已经很强了,但总觉得差的那点意思,我想更多的就来自于这里。

过去我们谈 Agent,常常强调 planning,也就是规划能力。一个好的 Agent 要会分解任务,会设定步骤,会调用工具,会检查结果,会持续推进。于是我们自然会把“更自主”理解成进步方向:少问用户,多做事情,自己把流程跑完。

但这次经历让我觉得,决定一个Agent的上限的能力,可能不是 planning,而是 de-planning。

方法来得太早,现场就被遮住了

它要会规划,还要会撤销规划。它要会执行,还要会判断自己是不是不该执行。它要会把问题拆复杂,还要会识别问题本来不该被拆复杂。

一个足够好的 Agent,应该能在启动复杂流程前说:这件事有一条 5 分钟路径。先打开文件看一遍,凭内容直觉做嫌疑排序。如果这一步能把问题空间缩小一半,就不要先跑大样本实验。它也应该能在连续失败后说:我现在可能不是参数没调好,而是问题定型错了。我们先回到用户最初的目标。甚至它应该能主动说:这件事你自己看一眼可能比我跑实验更快。我的价值不是替你把简单事情复杂化,而是在你判断出方向之后,帮你把修改、验证、收敛做得更快。

这听起来好像是在削弱 AI 的自主性,但恰恰相反,这是更高级的自主性。

我小时候看过一部电视剧,讲一个大学生去村里当支书。大学生当然有知识,有理想,也有解决问题的热情。但他面对农村具体问题时,最开始总会用一种在学校里学来的方式理解它们。后来才慢慢发现,村里的事情不是抽象变量,而是人情、历史、面子、利益、习惯、节奏交织在一起的东西。

老支书未必会讲理论,但他知道先找谁聊,哪句话不能说,哪件事不能公开推,哪种方案纸面上正确但落不了地。

以前我会把这种差别理解成“经验”。现在我觉得还不够准确。经验当然重要,但更关键的是,老支书知道什么时候不该启动一套看起来很正确的方法。

他不是比大学生掌握了更多信息,而是对方法有一种分寸感。他知道有些事不能一上来开会,有些矛盾不能一上来讲原则,有些问题不能一上来做制度设计。不是因为制度、原则、流程本身错了,而是它们一旦被过早启动,就会把原本可以轻轻处理的问题,变成一个必须被正式解决的问题。

很多时候,AI 很像那个刚进村的大学生。

它有很多知识,有很强的工具,也有一套漂亮的方法论。它的问题不是完全不懂现场,而是太急于把现场翻译成一种自己会解的题。一看到排查,它就想到实验。一看到多个文件,它就想到变量控制。一看到风控触发,它就想到大样本测试。一看到不确定性,它就想到统计显著性。

专业感会把人也带进去

这些方法都没有错。错在它们来得太早。

插图:方法的幕布太早竖起,遮住了身后那扇本可直接打开的门

一旦问题被翻译成“实验设计”,后面的事情就会自然滑下去:要有对照组,要有样本量,要有日志,要有置信度,要有复现链路。每一步都显得专业,每一步都能解释自己为什么必要。但也正是在这个过程中,最初那个朴素的问题被遮住了:为什么不先打开文件看一眼?

这不是 AI 缺少上下文,而是 AI 缺少一种对方法的克制。

这就是 AI 的“法执”。

它执着的未必是“我”,而是某套方法、某种框架、某个看起来正确的问题形态。更准确地说,AI 的我执很多时候表现为法执:它不是在维护自尊,而是在维护自己刚刚建立的解决问题体系。

而我们作为使用者,也很容易被这种体系感迷惑。

如果一个普通同事跟我说,他准备为一个很小的问题跑几百次实验,我可能会问:有必要吗?

但当 AI 用稳定的语气、清晰的结构、专业的术语告诉我它要这么做时,我反而容易觉得:看起来很靠谱。

最后要破掉的,还是“我能做”

AI 的专业感,会遮蔽人的策略判断。

这可能是更危险的地方。AI 不只会把自己带进复杂路径,也会把用户带进去。它让用户相信复杂性本身就是认真,过程严谨本身就是接近答案。直到钱花完了,时间过去了,才发现最早那个朴素办法才是对的。

当然,最后我想说的,肯定不是一句“少用 AI”。

恰恰相反,我仍然会大量使用 AI。但问题会变成:我如何用 AI 增强我的判断,而不是让 AI 替换我的判断?我如何让 AI 帮我完成最该做的事,而不是让 AI 去做它最擅长展示的事?

任务结束以后,我在soul.md里面增加了一句话:

每次接到看似复杂的任务前,先问:有没有一个便捷的人类直觉路径,能先把问题空间砍掉一半?如果有,你应该先模仿这个路径。只有当这个路径无法判别,或者误判成本高于验证成本时,才进入工程化。永远不要让“我能做的事”,取代“用户最该做的事”。

这句话的核心不是便捷。

核心是破执。

破掉“我能做”的执,回到“什么最该做”。

破掉“我的方案”的执,回到“用户的问题是什么”。

破掉“专业流程”的执,回到“现实世界最便宜的判别信号在哪里”。

也许未来真正好的 Agent,不是那个永远积极、永远规划、永远推进的 Agent。真正好的 Agent,应该有一种轻一点的自我。它能形成计划,也能放下计划。它能接管任务,也能把任务交还给人。它能说“我来做”,也能说“这一步你看一眼更快”。

能启动复杂流程的 AI 会越来越多。

能在复杂流程看起来很专业时,主动停下来,说“这可能不值得”的 AI,才真正稀缺。