Deep Research 不够 Deep，不是因为它不够长

今天群里有人说，现在的 Deep Research 越来越不 “Deep” 了，大家开始更关注 Long Research。

我很有同感。

过去几个月，几乎每家 AI 公司都给了用户一个 Deep Research 按钮。点下去之后，Agent 会搜索、浏览、读材料、整理引用，最后交付一篇看起来很完整的长报告。它当然比普通搜索强，也比普通问答强。问题在于，报告越完整，越容易制造一种错觉：只要材料足够多，结构足够清楚，引用足够密，就叫深。

但真实研究不是这样。

真实研究里，深度不只是找到更多材料，而是知道哪些材料不重要；不只是综合共识，而是知道哪里值得反对共识；不只是写出报告，而是能持续维护一个判断，直到它被证据支持、修正或推翻。

Deep Research 今天最大的缺口，不是搜索不够多，而是它缺少一个研究者的目标函数。

现在的 Deep，多数是动作链的深

如果看主流产品对 Deep Research 的定义，会发现它们其实很一致。

OpenAI 对 Deep Research 的描述，是一个能在互联网上执行多步研究的 agent。Perplexity 强调几十次搜索、几百个来源、几分钟生成报告。Google 的 Gemini Deep Research 会先生成研究计划，让用户修订或批准。开源项目则把它拆成更工程化的 workflow：模型、搜索工具、MCP、报告结构都可以替换。

这些能力都很重要。它们把“搜索一下”升级成了“执行一条研究动作链”。过去人要自己拆 query、开网页、扫内容、复制引用、整理结构，现在 Agent 能在后台完成一大段工作。

但这里的 deep，本质上还是动作链变深：搜索次数更多，来源数量更多，浏览路径更长，报告更完整，引用更可追溯。

它解决的是“一个勤奋研究助理能不能快速把材料铺开”。它还没有解决“一个研究者为什么认为这件事值得这样看”。

所以我不觉得 Deep Research 没用。恰恰相反，它非常有用。它最适合把人从 0 带到 0.6。你不知道一个领域，它帮你摸地图、列关键词、找核心材料、整理争议点。它让你不用在门口耗掉几个小时。

真正的问题是，很多人会把 0.6 误认为 0.9。

长报告最容易制造深度幻觉

我看到过一个很准确的说法：Deep Research 很像一个勤奋的研究生助理。材料多，引用足，结构清楚，但不一定有新洞见。

Craig Van Slyke 那篇 Deep Research isn’t really deep research 也说了类似意思：AI can get you started, but it can’t take you all the way。Aaron Tay 对学术 Deep Research 的定位更克制：它适合 orientation，不适合替代 literature review。

这两个判断都很重要，因为它们没有否定 Deep Research，而是在给它摆正位置。

Deep Research 的高价值场景，是快速 orient。它帮你进入一个领域，知道基本地图，知道该读谁，知道哪里有争议。但真正的深度经常发生在你已经知道主流观点之后。那时问题会变成：哪个共识只是因为数据好拿？哪个反例没有被纳入主流叙事？哪个变量是业内人知道但公开资料不写的？如果我不同意这个结论，我应该去哪里找证据？

这些问题不靠“再多读十篇”自动解决。

长报告有标题、有摘要、有分节、有引用、有结论，看起来像研究。但如果没有自己的问题意识，它只是把互联网平均值排版得更好。

深度和非共识的关系，在这里露出来了

说深度和非共识有关，容易被误解成强行唱反调。

不是这个意思。

非共识不是为了不同而不同。真正有价值的非共识，是在共识边界上找到一个尚未被充分定价、充分解释、充分验证的判断。它必须先知道主流共识是什么，再指出共识忽略了什么，最后还要拿出足够证据，让人愿意重新评估。

这和普通观点输出不一样。普通观点可以很响，非共识研究必须能被检验。

这也是为什么我觉得现在很多 Deep Research 的“浅”，不是因为它懒，而是因为它太安全。公开搜索加大模型综合，天然会回到互联网平均值。最安全的路径是找高权重来源、抽取相似观点、生成平衡报告。这种报告一般不会差，但很难尖锐。

它会正确，但不一定有穿透力。

如果一个 Agent 的输入主要是公开搜索结果，优化目标主要是“综合可靠共识”，输出形式主要是“平衡报告”，它天然会远离非共识。因为非共识常常出现在低频信号、私有上下文、跨域类比、反直觉案例、历史经验和个人判断里。

搜索能扩大材料面，但不能自动告诉你哪里值得下注。

Long Research 的关键不是更久，而是可持续

所以 Long Research 被关注，我不认为只是大家想让 Agent 跑得更久。

真正有价值的 long，不是让 Agent 连续输出十万字，而是让研究过程能够跨会话延续。

Anthropic 在 long-running agents 文章里说过一个很朴素的问题：复杂任务会跨越多个 context windows，而每个新 session 都像没有记忆的新工程师。Google ADK 也在讲 durable state machine。Temporal 则把 agent 任务直接看成分布式系统。

这套东西放到研究里，就是另一个形态了。

研究不应该只是一次聊天生成一篇报告。它应该有假设树：我现在相信什么，为什么。应该有证据账本：哪些证据支持，哪些证据反对。应该有来源状态：哪些材料已读，哪些可靠，哪些过期。应该有反证列表：哪些反方还没查。应该有进度文件：这次到哪里，下次从哪里继续。还应该有评测闭环：这篇报告哪些 claim 被来源支撑，哪些只是推断。

这样看，Long Research 不是 Deep Research 的加长版，而是另一种系统架构。

Deep Research 是一次性报告生成。Long Research 是可持续的研究状态机。

个人上下文是研究目标函数

这里就回到我今天最强的感受：如果要让研究更有观点性，关键不是强行追求非共识，而是让 Agent 更理解研究者本人。

我说的理解，不是“记住我喜欢中文”“记住我讨厌废话”这种浅层偏好。真正有用的个人上下文，是研究目标函数。

它应该告诉 Agent：这个人为什么关心这个问题；他过去在哪些问题上形成过稳定判断；他通常怎么区分技术先进性和业务价值；他不喜欢哪类平均值答案；他在哪些领域有真实项目和长期语境。

比如我让 Agent 研究 Deep Research，它如果只知道外部资料，很可能写成“Deep Research 产品对比”。但如果它知道我长期关心 Skills、Context Infra、Agent 控制面、个人知识系统，知道我为什么在意 README、Minor Report 或 AI Task 这类结构，它就会把问题往另一层拆：Deep Research 为什么只能生成共识型综合？个人上下文如何成为非共识研究的引擎？Long Research 是不是下一代 Context Infra？

这不是风格差异，是问题定义差异。

OpenAI 的 context personalization 示例把个性化落到 structured state 和 memory injection。Databricks 讲 memory scaling 时也说得很直接：记忆能让 Agent 随着使用增长而改善，但 more memory 不自动等于 better agent。

这句话很关键。个人上下文不是把用户历史全部塞进去，而是把高信号判断结构化出来。

但个人上下文也会变成高级迎合

这里必须补一刀。

个人上下文不是无条件的好东西。它会让 Agent 更懂你，也可能让 Agent 更会迎合你。

如果我告诉 Agent：“我认为 Deep Research 不够 deep，因为它缺少非共识。”一个弱研究 Agent 会去找所有支持我观点的材料，然后写一篇漂亮文章证明我对。

这不是深度研究，这是高级迎合。

所以观点注入必须和反证协议绑定。更好的做法不是只注入“我的观点”，而是同时注入：我愿意被什么证据推翻，必须搜索哪些反方，哪些结论只能标注为推断，哪些材料不能因为符合我的观点就提高权重。

真正的个性化研究，不是让 Agent 更像我，而是让 Agent 更知道怎么挑战我。

最后

我现在会把研究深度拆成四层。

第一层是搜索深度：能不能找到更多、更隐蔽、更相关的资料。

第二层是综合深度：能不能把资料组织成结构清楚、来源可查、逻辑自洽的报告。

第三层是观点深度：能不能围绕一个判断构造证据、反证、边界和推论。

第四层是上下文深度：能不能理解这个判断为什么对这个用户、这个组织、这个任务重要，并在长期研究中持续校准。

今天主流 Deep Research 大多在第一层和第二层做得越来越好。大家感觉它不 Deep，是因为第三层和第四层还没有被系统化。

Long Research 真正有价值的方向，不是把第一层和第二层拉长，而是把第三层和第四层工程化。

它需要的不是一个更长的按钮，而是一套研究控制面：假设、证据、记忆、反证、用户上下文、评测闭环。

这件事做好以后，Deep Research 才会从“互联网平均值的高速整理器”，变成真正能陪人长期思考的研究合作者。