前几周一个做 Agent 创业的朋友来找我聊。他说他花了三个月搭了一套复杂的 Agent workflow,用了 LangChain、MCP、memory layer,能自动做竞品分析。演示的时候效果很好。但上线第一个月,正确率从 demo 的 85% 跌到了 50%。我说,是 prompt 不够好吗?他说不是,是模型在面对真实世界的边际情况时,暴露了它本来就不具备的判断力。
这个经历让我想起了一个更大的问题。过去两年,整个行业对 Agent 的投入,大概 90% 在框架层——prompt 怎么写、tool calling 怎么调、workflow 怎么编排、MCP 怎么标准化。剩下的 10% 才在模型层——怎么让模型本身更像 Agent。
比例反了。
框架能做什么,不能做什么
先承认框架的价值。没有 LangChain 的抽象层,每个开发者都要手写 tool calling 的 JSON schema。没有 MCP,每个数据源都要定制连接器。我自己的团队也在重度使用 MCP,它让 BI 平台的数据能被 AI 直接调用,这是真实的效率提升。
但框架的天花板同样真实。框架能做的,是把模型的能力包装得更可用——更好的 prompt 模板、更顺的工具调用链路、更稳定的上下文管理。框架不能做的,是让模型具备它本来就没有的能力。
这个区分很关键。用框架让模型更像 Agent,和用框架让模型的 Agent 表现更稳定,是两件完全不同的事。前者是能力问题,后者是工程问题。行业现在对第一个问题的投入严重不足。
NeurIPS 2025 的最佳论文亚军做了一件很有意义的事。他们系统性地检验了当前最强的 Agent 训练方法 RLVR(Reinforcement Learning with Verifiable Rewards),到底能不能让模型获得新能力。结论是:不能。至少目前不能。
他们测试了六种主流的 RLVR 算法,跨多个模型家族,覆盖数学、编程、视觉推理。结果令人警醒:RLVR 训练后的模型,所有推理路径基础模型里都有,只是采样时不容易抽到。RLVR 做的事是让模型更倾向于走"正确路径",而不是学会走"新路径"。
基础模型的推理能力是 RLVR 的上限。RLVR 没有解锁新的推理能力,它只是提高了正确路径的采样概率。
翻译一下:你花了一个月教孩子做数学题,考试时他确实做得更好了,但不是因为他学会了新方法,而是因为他更熟练地运用了本来就懂的那些方法。
更关键的一个发现是:当采样次数 k 足够大时,基础模型的 pass@k 反而超过了 RLVR 训练后的模型。有时候,RLVR 训练过程中模型的推理边界还会收窄——它变得更专注,但也更窄了。
但论文里还有一个很容易被忽略的对照发现:蒸馏可以引入新能力。从更强的 teacher model 蒸馏出来的推理模式,能真正扩展模型的能力边界。这说明"从外部注入新能力"这条路是通的,只是 RLVR 目前没走通。
这不是说 RL 方向错了
DeepSeek R1 用 GRPO(一种 RLVR 变体)训练出了显著的推理能力,这是 RL 驱动能力涌现的标志性案例。
这两件事不矛盾。DeepSeek R1 的效果是真实的,但按照 NeurIPS 论文的视角,它做的事更像是"解锁"了 base model 里已经存在但没被激活的推理路径,而不是"创造"了新能力。解锁也很有价值,但它意味着天花板仍然被基础模型锁定。
论文自己给出的方向也很明确:下一步需要的是"multi-turn agent-environment interaction"——让模型在多轮交互中、在真实的环境反馈中学习。这不只是换一个训练算法,而是换一个训练范式。
Trajectory learning:下一个范式
当前的 Agent 训练逻辑是"结果导向"的:你答对了这道题,奖励 +1。但一个 Agent 执行任务的好坏,不能只靠最终结果判断。它可能在中间步骤做了极其聪明的决策,但因为第十五步的一个小失误导致失败。如果只给最终结果打分,这些中间步骤的智慧全丢了。
Trajectory learning 的核心改变,是把反馈从结果级下沉到步骤级。每一步都有 reward 信号。这个叫 process reward,区别于 outcome reward。
这个思路跟人类学习高度一致。一个人能写出好代码,不是因为他见过十万个"正确答案"(最终代码),而是因为他经历了一万次"写代码的过程"——每次尝试、每次 debug、每次重构。过程里的学习密度远高于结果。
前几个月学术界发布的 AGENTBANK 数据集——五万多条高质量的 Agent 交互轨迹——代表了这种范式转变的早期信号。它不是在收集"正确答案",而是在收集"好的过程"。
但这还在非常早期的阶段。AGENTBANK 只是数据集规模的突破,还没到方法论的突破。多轮 Agent-环境 RL 在 NeurIPS 论文里是作为"需要探索的方向"被提出来的,不是已经走通的路。
蒸馏有效但 RLVR 无效这件事,值得多想一层
如果蒸馏能从 teacher model 引入新能力,而 RLVR 不能让模型自己长出能力,那"让 Agent 自己跟环境交互、自己收集反馈、自己优化"这条看起来最简洁的路径,是不是走偏了?
也许真正有效的路径不是"让 Agent 在实践中成长",而是"先让更强的模型做 Agent,再把它的行为蒸馏到目标模型里"。
这个问题触及了一个更深的东西:Agent 能力到底是"习得的"还是"继承的"。如果蒸馏有效而 RLVR 无效,那 Agent 能力的来源就不是"模型在实践中成长",而是"更强的模型把它已经知道的东西传输给较弱的模型"。这对 Agent 自主进化的叙事是一个根本性的挑战。
当然,目前这个结论来自一篇论文的对照实验,还没有被独立复现。所以"蒸馏有效"这个判断本身也需要打折。但它的方向性意义是明确的:后训练不是铁板一块,知道哪条路通、哪条路不通,比盲目相信"RL 能解决一切"重要得多。
框架的长期位置
回到开头的框架问题。如果接受"Agent 能力的终局在模型不在框架",框架的价值需要被重新评估。
我的判断是:框架里跟"让模型变 Agent"相关的部分——prompt 编排、chain 抽象、workflow 调度——长期价值会归零。一旦模型原生具备了 Agent 思维,这些中间层就变成了多余的外壳。
但框架里跟"让 Agent 安全运行"相关的部分——沙箱、权限、审计、监控、SLA——会升值。这在历史上有一个很好的类比:操作系统。操作系统中跟"帮程序管理资源"相关的部分随着硬件能力提升被持续简化,但安全边界、进程隔离、权限管理这些"运行时治理"功能,从 Unix 时代延续至今。
Agent 框架的演进会走同一路径。
另一个被低估的价值,是框架作为训练数据工厂的角色。今天你用 LangChain 跑客服 Agent,每次对话都在产生一条 trajectory。当前这些轨迹被消费在"任务完成"上,用一次就丢弃了。但如果你把它们存下来、清洗、标注,它们就是下一代 Agent 模型的训练数据。
这是一个自我吞噬的循环:框架让模型表现像 Agent → 表现被记录为训练数据 → 数据被用来训练模型的 native Agent 能力 → 模型更强了 → 框架的价值从"让模型像 Agent"转移到"为训练收集数据"。
从这个视角看,MCP 的真正长期价值不是"连接标准",而是"数据采集标准"。当所有 Agent 行为都通过标准协议走,采集到的 trajectory 数据也是标准化的——这对训练是巨大的基础设施红利。Anthropic 把 MCP 定位为开放协议而不是封闭生态,这招很聪明:先让整个行业按照同一个标准产生行为数据,再在后训练阶段吃掉这些数据的复利。
现在的你应该关心什么
如果你的工作跟 Agent 相关,不管是产品、工程还是管理,我建议关注三件事。
第一,不要在框架层过度投资。选最轻的框架,尽早开始。把精力投在模型选择和 prompt 精调上,而不是框架的抽象层级。框架用久了会产生虚假的安全感——你以为你的 Agent 很强,其实是框架在替你擦屁股。一旦换了模型或场景,底裤就掉了。
第二,开始积累 trajectory 数据。如果你现在有 Agent 在生产环境运行,每次交互都是一条训练数据。把这些数据存下来、做好标注,等后训练技术成熟的时候,你会比没有积累的人领先一整代模型的距离。这不是一两年的积累,这是五到十年的基础设施优势。
第三,关注蒸馏路径的进展。如果蒸馏是比 RLVR 更可靠的"引入新能力"的方法,那你的 Agent 策略应该围绕"如何让强模型的 Agent 行为被小模型继承"来设计,而不是"如何让小模型自己学会做 Agent"。
如果你只是 Agent 的使用者而不是建设者,这三件事里你只需要记住第一件:别在框架上花太多时间。框架是消耗品,模型是资产。
写完之后我在想另一个问题:如果 Agent 能力的终局真的在后训练,那今天所有以"做 Agent 框架"为核心差异化的创业公司,他们的护城河到底是什么?
不是技术,不是产品体验。可能是数据。
谁握有最多的 Agent 交互轨迹,谁就握有训练下一代 Agent 模型的原材料。这件事的残酷之处在于,今天的 Agent 框架创业公司,即使意识到这一点,也很难真正受益。因为他们产生的数据量跟 Claude Code、Cursor、GPT-based agents 的用户交互量相比,不在一个数量级上。
头部 AI 公司同时在做框架(收集数据)和训练(消耗数据)。创业公司只在做框架(收集很少的数据)。这个不对称,才是框架赛道最让人悲观的地方。