别再迷信 Agent 框架了

前几周一个做 Agent 创业的朋友来找我聊。他说他花了三个月搭了一套复杂的 Agent workflow，用了 LangChain、MCP、memory layer，能自动做竞品分析。演示的时候效果很好。但上线第一个月，正确率从 demo 的 85% 跌到了 50%。我说，是 prompt 不够好吗？他说不是，是模型在面对真实世界的边际情况时，暴露了它本来就不具备的判断力。

这个经历让我想起了一个更大的问题。过去两年，整个行业对 Agent 的投入，大概 90% 在框架层——prompt 怎么写、tool calling 怎么调、workflow 怎么编排、MCP 怎么标准化。剩下的 10% 才在模型层——怎么让模型本身更像 Agent。

比例反了。

框架能做什么，不能做什么

先承认框架的价值。没有 LangChain 的抽象层，每个开发者都要手写 tool calling 的 JSON schema。没有 MCP，每个数据源都要定制连接器。我自己的团队也在重度使用 MCP，它让 BI 平台的数据能被 AI 直接调用，这是真实的效率提升。

但框架的天花板同样真实。框架能做的，是把模型的能力包装得更可用——更好的 prompt 模板、更顺的工具调用链路、更稳定的上下文管理。框架不能做的，是让模型具备它本来就没有的能力。

这个区分很关键。用框架让模型更像 Agent，和用框架让模型的 Agent 表现更稳定，是两件完全不同的事。前者是能力问题，后者是工程问题。行业现在对第一个问题的投入严重不足。

NeurIPS 2025 的最佳论文亚军做了一件很有意义的事。他们系统性地检验了当前最强的 Agent 训练方法 RLVR（Reinforcement Learning with Verifiable Rewards），到底能不能让模型获得新能力。结论是：不能。至少目前不能。

他们测试了六种主流的 RLVR 算法，跨多个模型家族，覆盖数学、编程、视觉推理。结果令人警醒：RLVR 训练后的模型，所有推理路径基础模型里都有，只是采样时不容易抽到。RLVR 做的事是让模型更倾向于走"正确路径"，而不是学会走"新路径"。

基础模型的推理能力是 RLVR 的上限。RLVR 没有解锁新的推理能力，它只是提高了正确路径的采样概率。

翻译一下：你花了一个月教孩子做数学题，考试时他确实做得更好了，但不是因为他学会了新方法，而是因为他更熟练地运用了本来就懂的那些方法。

更关键的一个发现是：当采样次数 k 足够大时，基础模型的 pass@k 反而超过了 RLVR 训练后的模型。有时候，RLVR 训练过程中模型的推理边界还会收窄——它变得更专注，但也更窄了。

但论文里还有一个很容易被忽略的对照发现：蒸馏可以引入新能力。从更强的 teacher model 蒸馏出来的推理模式，能真正扩展模型的能力边界。这说明"从外部注入新能力"这条路是通的，只是 RLVR 目前没走通。

这不是说 RL 方向错了

DeepSeek R1 用 GRPO（一种 RLVR 变体）训练出了显著的推理能力，这是 RL 驱动能力涌现的标志性案例。

这两件事不矛盾。DeepSeek R1 的效果是真实的，但按照 NeurIPS 论文的视角，它做的事更像是"解锁"了 base model 里已经存在但没被激活的推理路径，而不是"创造"了新能力。解锁也很有价值，但它意味着天花板仍然被基础模型锁定。

论文自己给出的方向也很明确：下一步需要的是"multi-turn agent-environment interaction"——让模型在多轮交互中、在真实的环境反馈中学习。这不只是换一个训练算法，而是换一个训练范式。

Trajectory learning：下一个范式

当前的 Agent 训练逻辑是"结果导向"的：你答对了这道题，奖励 +1。但一个 Agent 执行任务的好坏，不能只靠最终结果判断。它可能在中间步骤做了极其聪明的决策，但因为第十五步的一个小失误导致失败。如果只给最终结果打分，这些中间步骤的智慧全丢了。

Trajectory learning 的核心改变，是把反馈从结果级下沉到步骤级。每一步都有 reward 信号。这个叫 process reward，区别于 outcome reward。

这个思路跟人类学习高度一致。一个人能写出好代码，不是因为他见过十万个"正确答案"（最终代码），而是因为他经历了一万次"写代码的过程"——每次尝试、每次 debug、每次重构。过程里的学习密度远高于结果。

前几个月学术界发布的 AGENTBANK 数据集——五万多条高质量的 Agent 交互轨迹——代表了这种范式转变的早期信号。它不是在收集"正确答案"，而是在收集"好的过程"。

但这还在非常早期的阶段。AGENTBANK 只是数据集规模的突破，还没到方法论的突破。多轮 Agent-环境 RL 在 NeurIPS 论文里是作为"需要探索的方向"被提出来的，不是已经走通的路。

蒸馏有效但 RLVR 无效这件事，值得多想一层

如果蒸馏能从 teacher model 引入新能力，而 RLVR 不能让模型自己长出能力，那"让 Agent 自己跟环境交互、自己收集反馈、自己优化"这条看起来最简洁的路径，是不是走偏了？

也许真正有效的路径不是"让 Agent 在实践中成长"，而是"先让更强的模型做 Agent，再把它的行为蒸馏到目标模型里"。

这个问题触及了一个更深的东西：Agent 能力到底是"习得的"还是"继承的"。如果蒸馏有效而 RLVR 无效，那 Agent 能力的来源就不是"模型在实践中成长"，而是"更强的模型把它已经知道的东西传输给较弱的模型"。这对 Agent 自主进化的叙事是一个根本性的挑战。

当然，目前这个结论来自一篇论文的对照实验，还没有被独立复现。所以"蒸馏有效"这个判断本身也需要打折。但它的方向性意义是明确的：后训练不是铁板一块，知道哪条路通、哪条路不通，比盲目相信"RL 能解决一切"重要得多。

框架的长期位置

回到开头的框架问题。如果接受"Agent 能力的终局在模型不在框架"，框架的价值需要被重新评估。

我的判断是：框架里跟"让模型变 Agent"相关的部分——prompt 编排、chain 抽象、workflow 调度——长期价值会归零。一旦模型原生具备了 Agent 思维，这些中间层就变成了多余的外壳。

但框架里跟"让 Agent 安全运行"相关的部分——沙箱、权限、审计、监控、SLA——会升值。这在历史上有一个很好的类比：操作系统。操作系统中跟"帮程序管理资源"相关的部分随着硬件能力提升被持续简化，但安全边界、进程隔离、权限管理这些"运行时治理"功能，从 Unix 时代延续至今。

Agent 框架的演进会走同一路径。

另一个被低估的价值，是框架作为训练数据工厂的角色。今天你用 LangChain 跑客服 Agent，每次对话都在产生一条 trajectory。当前这些轨迹被消费在"任务完成"上，用一次就丢弃了。但如果你把它们存下来、清洗、标注，它们就是下一代 Agent 模型的训练数据。

这是一个自我吞噬的循环：框架让模型表现像 Agent → 表现被记录为训练数据 → 数据被用来训练模型的 native Agent 能力 → 模型更强了 → 框架的价值从"让模型像 Agent"转移到"为训练收集数据"。

从这个视角看，MCP 的真正长期价值不是"连接标准"，而是"数据采集标准"。当所有 Agent 行为都通过标准协议走，采集到的 trajectory 数据也是标准化的——这对训练是巨大的基础设施红利。Anthropic 把 MCP 定位为开放协议而不是封闭生态，这招很聪明：先让整个行业按照同一个标准产生行为数据，再在后训练阶段吃掉这些数据的复利。

现在的你应该关心什么

如果你的工作跟 Agent 相关，不管是产品、工程还是管理，我建议关注三件事。

第一，不要在框架层过度投资。选最轻的框架，尽早开始。把精力投在模型选择和 prompt 精调上，而不是框架的抽象层级。框架用久了会产生虚假的安全感——你以为你的 Agent 很强，其实是框架在替你擦屁股。一旦换了模型或场景，底裤就掉了。

第二，开始积累 trajectory 数据。如果你现在有 Agent 在生产环境运行，每次交互都是一条训练数据。把这些数据存下来、做好标注，等后训练技术成熟的时候，你会比没有积累的人领先一整代模型的距离。这不是一两年的积累，这是五到十年的基础设施优势。

第三，关注蒸馏路径的进展。如果蒸馏是比 RLVR 更可靠的"引入新能力"的方法，那你的 Agent 策略应该围绕"如何让强模型的 Agent 行为被小模型继承"来设计，而不是"如何让小模型自己学会做 Agent"。

如果你只是 Agent 的使用者而不是建设者，这三件事里你只需要记住第一件：别在框架上花太多时间。框架是消耗品，模型是资产。

写完之后我在想另一个问题：如果 Agent 能力的终局真的在后训练，那今天所有以"做 Agent 框架"为核心差异化的创业公司，他们的护城河到底是什么？

不是技术，不是产品体验。可能是数据。

谁握有最多的 Agent 交互轨迹，谁就握有训练下一代 Agent 模型的原材料。这件事的残酷之处在于，今天的 Agent 框架创业公司，即使意识到这一点，也很难真正受益。因为他们产生的数据量跟 Claude Code、Cursor、GPT-based agents 的用户交互量相比，不在一个数量级上。

头部 AI 公司同时在做框架（收集数据）和训练（消耗数据）。创业公司只在做框架（收集很少的数据）。这个不对称，才是框架赛道最让人悲观的地方。