今天群里有人说,现在的 Deep Research 越来越不 “Deep” 了,大家开始更关注 Long Research。
我很有同感。
过去几个月,几乎每家 AI 公司都给了用户一个 Deep Research 按钮。点下去之后,Agent 会搜索、浏览、读材料、整理引用,最后交付一篇看起来很完整的长报告。它当然比普通搜索强,也比普通问答强。问题在于,报告越完整,越容易制造一种错觉:只要材料足够多,结构足够清楚,引用足够密,就叫深。
但真实研究不是这样。
真实研究里,深度不只是找到更多材料,而是知道哪些材料不重要;不只是综合共识,而是知道哪里值得反对共识;不只是写出报告,而是能持续维护一个判断,直到它被证据支持、修正或推翻。
Deep Research 今天最大的缺口,不是搜索不够多,而是它缺少一个研究者的目标函数。
现在的 Deep,多数是动作链的深
如果看主流产品对 Deep Research 的定义,会发现它们其实很一致。
OpenAI 对 Deep Research 的描述,是一个能在互联网上执行多步研究的 agent。Perplexity 强调几十次搜索、几百个来源、几分钟生成报告。Google 的 Gemini Deep Research 会先生成研究计划,让用户修订或批准。开源项目则把它拆成更工程化的 workflow:模型、搜索工具、MCP、报告结构都可以替换。
这些能力都很重要。它们把“搜索一下”升级成了“执行一条研究动作链”。过去人要自己拆 query、开网页、扫内容、复制引用、整理结构,现在 Agent 能在后台完成一大段工作。
但这里的 deep,本质上还是动作链变深:搜索次数更多,来源数量更多,浏览路径更长,报告更完整,引用更可追溯。
它解决的是“一个勤奋研究助理能不能快速把材料铺开”。它还没有解决“一个研究者为什么认为这件事值得这样看”。
所以我不觉得 Deep Research 没用。恰恰相反,它非常有用。它最适合把人从 0 带到 0.6。你不知道一个领域,它帮你摸地图、列关键词、找核心材料、整理争议点。它让你不用在门口耗掉几个小时。
真正的问题是,很多人会把 0.6 误认为 0.9。
长报告最容易制造深度幻觉
我看到过一个很准确的说法:Deep Research 很像一个勤奋的研究生助理。材料多,引用足,结构清楚,但不一定有新洞见。
Craig Van Slyke 那篇 Deep Research isn’t really deep research 也说了类似意思:AI can get you started, but it can’t take you all the way。Aaron Tay 对学术 Deep Research 的定位更克制:它适合 orientation,不适合替代 literature review。
这两个判断都很重要,因为它们没有否定 Deep Research,而是在给它摆正位置。
Deep Research 的高价值场景,是快速 orient。它帮你进入一个领域,知道基本地图,知道该读谁,知道哪里有争议。但真正的深度经常发生在你已经知道主流观点之后。那时问题会变成:哪个共识只是因为数据好拿?哪个反例没有被纳入主流叙事?哪个变量是业内人知道但公开资料不写的?如果我不同意这个结论,我应该去哪里找证据?
这些问题不靠“再多读十篇”自动解决。
长报告有标题、有摘要、有分节、有引用、有结论,看起来像研究。但如果没有自己的问题意识,它只是把互联网平均值排版得更好。
深度和非共识的关系,在这里露出来了
说深度和非共识有关,容易被误解成强行唱反调。
不是这个意思。
非共识不是为了不同而不同。真正有价值的非共识,是在共识边界上找到一个尚未被充分定价、充分解释、充分验证的判断。它必须先知道主流共识是什么,再指出共识忽略了什么,最后还要拿出足够证据,让人愿意重新评估。
这和普通观点输出不一样。普通观点可以很响,非共识研究必须能被检验。
这也是为什么我觉得现在很多 Deep Research 的“浅”,不是因为它懒,而是因为它太安全。公开搜索加大模型综合,天然会回到互联网平均值。最安全的路径是找高权重来源、抽取相似观点、生成平衡报告。这种报告一般不会差,但很难尖锐。
它会正确,但不一定有穿透力。
如果一个 Agent 的输入主要是公开搜索结果,优化目标主要是“综合可靠共识”,输出形式主要是“平衡报告”,它天然会远离非共识。因为非共识常常出现在低频信号、私有上下文、跨域类比、反直觉案例、历史经验和个人判断里。
搜索能扩大材料面,但不能自动告诉你哪里值得下注。
Long Research 的关键不是更久,而是可持续
所以 Long Research 被关注,我不认为只是大家想让 Agent 跑得更久。
真正有价值的 long,不是让 Agent 连续输出十万字,而是让研究过程能够跨会话延续。
Anthropic 在 long-running agents 文章里说过一个很朴素的问题:复杂任务会跨越多个 context windows,而每个新 session 都像没有记忆的新工程师。Google ADK 也在讲 durable state machine。Temporal 则把 agent 任务直接看成分布式系统。
这套东西放到研究里,就是另一个形态了。
研究不应该只是一次聊天生成一篇报告。它应该有假设树:我现在相信什么,为什么。应该有证据账本:哪些证据支持,哪些证据反对。应该有来源状态:哪些材料已读,哪些可靠,哪些过期。应该有反证列表:哪些反方还没查。应该有进度文件:这次到哪里,下次从哪里继续。还应该有评测闭环:这篇报告哪些 claim 被来源支撑,哪些只是推断。
这样看,Long Research 不是 Deep Research 的加长版,而是另一种系统架构。
Deep Research 是一次性报告生成。Long Research 是可持续的研究状态机。
个人上下文是研究目标函数
这里就回到我今天最强的感受:如果要让研究更有观点性,关键不是强行追求非共识,而是让 Agent 更理解研究者本人。
我说的理解,不是“记住我喜欢中文”“记住我讨厌废话”这种浅层偏好。真正有用的个人上下文,是研究目标函数。
它应该告诉 Agent:这个人为什么关心这个问题;他过去在哪些问题上形成过稳定判断;他通常怎么区分技术先进性和业务价值;他不喜欢哪类平均值答案;他在哪些领域有真实项目和长期语境。
比如我让 Agent 研究 Deep Research,它如果只知道外部资料,很可能写成“Deep Research 产品对比”。但如果它知道我长期关心 Skills、Context Infra、Agent 控制面、个人知识系统,知道我为什么在意 README、Minor Report 或 AI Task 这类结构,它就会把问题往另一层拆:Deep Research 为什么只能生成共识型综合?个人上下文如何成为非共识研究的引擎?Long Research 是不是下一代 Context Infra?
这不是风格差异,是问题定义差异。
OpenAI 的 context personalization 示例把个性化落到 structured state 和 memory injection。Databricks 讲 memory scaling 时也说得很直接:记忆能让 Agent 随着使用增长而改善,但 more memory 不自动等于 better agent。
这句话很关键。个人上下文不是把用户历史全部塞进去,而是把高信号判断结构化出来。
但个人上下文也会变成高级迎合
这里必须补一刀。
个人上下文不是无条件的好东西。它会让 Agent 更懂你,也可能让 Agent 更会迎合你。
如果我告诉 Agent:“我认为 Deep Research 不够 deep,因为它缺少非共识。”一个弱研究 Agent 会去找所有支持我观点的材料,然后写一篇漂亮文章证明我对。
这不是深度研究,这是高级迎合。
所以观点注入必须和反证协议绑定。更好的做法不是只注入“我的观点”,而是同时注入:我愿意被什么证据推翻,必须搜索哪些反方,哪些结论只能标注为推断,哪些材料不能因为符合我的观点就提高权重。
真正的个性化研究,不是让 Agent 更像我,而是让 Agent 更知道怎么挑战我。
最后
我现在会把研究深度拆成四层。
第一层是搜索深度:能不能找到更多、更隐蔽、更相关的资料。
第二层是综合深度:能不能把资料组织成结构清楚、来源可查、逻辑自洽的报告。
第三层是观点深度:能不能围绕一个判断构造证据、反证、边界和推论。
第四层是上下文深度:能不能理解这个判断为什么对这个用户、这个组织、这个任务重要,并在长期研究中持续校准。
今天主流 Deep Research 大多在第一层和第二层做得越来越好。大家感觉它不 Deep,是因为第三层和第四层还没有被系统化。
Long Research 真正有价值的方向,不是把第一层和第二层拉长,而是把第三层和第四层工程化。
它需要的不是一个更长的按钮,而是一套研究控制面:假设、证据、记忆、反证、用户上下文、评测闭环。
这件事做好以后,Deep Research 才会从“互联网平均值的高速整理器”,变成真正能陪人长期思考的研究合作者。