今天看到一个视频,里面有个观点我很认同。她说,越来越多人开始意识到上下文的价值,所以会刻意收集很多上下文,方便 AI 工作时了解自己。但她没有把所有东西都混在一起,而是分层记录:自己的感受和加工过的信息放一层,录音这类纯记录放一层,收藏的文章和论文放一层,AI 处理过的成品或半成品再放一层。
这个说法一下子击中了我最近的一个感受。
我现在确实越来越依赖上下文系统。工作区里有规则,有技能,有公理,有项目历史,有每日复盘,有大量被 AI 处理过的中间产物。它们让 AI 更懂我,也让我和 AI 协作的摩擦越来越低。但与此同时,我也越来越警惕一件事:上下文如果只做横向分类是不够的。
横向分类回答的是:这段信息属于哪个领域。比如 AI、管理、家庭、项目、写作、投资、复盘。
但还有一个更重要的纵向分类:这段信息到底有多属于我?
横向分类解决“资料放哪”,纵向分类解决“谁有发言权”。
这件事在 AI 时代会变得特别重要。因为以前你的知识库主要是给自己看的,混一点问题不大。你知道哪篇文章只是收藏,哪句话只是觉得有意思,哪条结论是自己真正相信的。但 AI 不知道。你把所有东西都放进同一个篮子里,它会把这些东西当成同等权重的语料来理解你。
结果很可能不是 AI 更像你,而是你被 AI 拉回互联网平均值。
收藏不等于拥有
这其实是知识管理里一个很老的问题。很多人以为收藏就是学习,摘录就是理解,转发就是拥有。后来 Zettelkasten、Second Brain 这些方法论反复强调一件事:收藏只是入口,真正的知识必须被你重新加工过。
以前这句话更多是在提醒人不要做收藏癖。到了 AI 时代,我觉得它变成了一个更严肃的问题:如果你没有标明一条信息的归属,AI 就会替你决定它的归属。
比如你收藏了一篇文章,里面有一个观点写得很好。你当时只是觉得“有道理”,还没有想清楚自己是否同意,也没有把它放到自己的经验里验证。过了几个月,你让 AI “根据我的知识库写一篇我的观点”。AI 检索到了这篇文章,就很自然地把那个观点揉进了你的文章里。
表面上看,它引用了你的知识库。实际上,它借用了别人的大脑,并且给你署了名。
这不是 AI 故意乱来,而是因为你的系统没有告诉它:这只是我看过的,不是我相信的;这只是我收藏的,不是我消化的;这只是别人说得漂亮,不代表它有资格替我发言。
所以我越来越觉得,个人知识库里最危险的东西,不是假信息,而是没有标明归属的真信息。
什么才算“我的”
这里容易走到另一个极端:是不是只有完全原创的想法才算我的?我觉得也不是。
人的观点本来就不是从真空里长出来的。我们读书、看文章、听别人说话、看视频、做项目、和人争论,最后形成自己的判断。外部输入当然重要。问题不在于观点是不是有外部来源,而在于它有没有经过你的处理。
我现在会把上下文大概分成几层。
最底层是原始外部资料:文章、论文、视频、别人说的话。这些东西有价值,但它们只能当证据,不能直接当立场。
再往上是摘录和摘要:我觉得它可能有用,所以先记下来。它比原文更接近我,但仍然不是我。
再往上是我的转述:我用自己的话说过一遍,说明我至少理解了它。
更高一层是我的判断:我赞成什么,反对什么,保留什么,在哪个场景成立,在哪个场景不成立。
最高权重的,是我的经历和长期规则。亲身做过的项目,踩过的坑,管理现场里反复验证过的判断,日复一日复盘后沉淀出来的公理。这些东西不一定更宏大,但最能代表我。
换句话说,一个观点可以从别人那里来,但必须经过转述、碰撞、取舍和验证,才真正变成你的。
AI 应该优先放大的,是后面几层,而不是前面几层。
AI 平均化,从上下文混装开始
我之前写过一篇《AI 味不是机器味,是平均值的味道》。那时候更多是在讲写作表达:AI 为什么会写得越来越像一个训练得很好的优等生。
现在我觉得还可以再往前追一层。很多时候,AI 味不是从生成那一刻才开始的,而是从上下文混装那一刻就开始了。
如果一个知识库里同时放着你的亲身经历、别人的金句、网页收藏、AI 摘要、会议纪要、临时想法,而且这些东西没有权重差异,模型会怎么处理?它只能做一件事:求一个语义上的平均值。
它会把你的个人经历说得更像行业共识,把你的犹豫说得更像成熟判断,把别人的漂亮话说得更像你的观点。最后出来的东西可能都对,但不像你。
这和大模型训练很像。训练模型不是一股脑把所有数据倒进去就完了。要去重,要过滤,要标来源,要调数据配比,要给不同数据不同权重。高质量语料和低质量语料不能一样,人类原创和模型生成内容不能一样,主干知识和长尾样本也不能一样。
个人知识库也是一样。它不是硬盘,更像训练集。每条内容都有权重。
亲历项目应该是高权重样本,随手收藏的文章应该是低权重样本,AI 生成的内容要打水印或者隔离。否则你训练出来的不是“更懂我的 AI”,而是“更会综合我看过的一切的 AI”。这两者差别很大。
人的独特性在分布尾部
我很喜欢 model collapse 里的一个隐喻:模型反复吃自己生成的数据,最先消失的是分布尾部。也就是那些少见的、不典型的、低概率但很重要的东西。
人的表达也是这样。真正像你的部分,往往不在那些正确的大道理里,而在分布尾部。
比如一个项目里你为什么放弃了看起来更先进的方案。一次管理沟通里你为什么没有继续推进。某个看似琐碎的家庭场景,为什么让你重新理解一个抽象概念。某次失败后,你到底改了哪条规则。别人可能也知道类似道理,但只有你有那段具体经历。
这些东西不一定体面,也不一定完整,甚至有时候很土。但它们是你的尾部样本。
如果上下文系统没有给这些尾部样本更高权重,AI 默认会回到更安全、更顺滑、更常见的表达。它不是不想写出你,而是不知道你把这些不平滑的东西看得更重要。
所以我现在越来越相信,个人风格不是形容词,是加权函数。
你说自己“务实、理性、有判断”,这还不够。真正决定 AI 能不能写出你、帮你思考、替你推进事情的,是它在冲突时知道谁权重大。是收藏的文章权重大,还是你复盘里的反思权重大?是行业通用说法权重大,还是你某次亲身踩坑后的结论权重大?是 AI 上一轮生成的顺滑段落权重大,还是你手动删掉它的编辑动作权重大?
这些才是上下文主权。
我现在更想这样管理上下文
如果把这件事落到个人系统里,我觉得以后至少要有几条规则。
第一,原始记录和个人判断要分开。录音、聊天、网页、论文、视频都可以收,但它们应该保留“外部资料”的身份。它们能提供证据,不能直接代表我。
第二,AI 处理过的内容要单独放。AI 摘要、AI 初稿、AI 生成的中间分析都有用,但它们是加工品,不是原材料,更不是最终判断。它们如果混进长期记忆,很容易反过来污染后续输出。
第三,每条重要信息最好有一个“我怎么看”。哪怕只是一句话也行:我同意哪里,不同意哪里,适用边界是什么,和我的哪个经历有关。没有这句话,它就只是资料,不是知识。
第四,把人工删改当成高价值信号。AI 写了一段,我删掉了什么、保留了什么、重排了什么,这些动作比我说“写得更像我一点”重要得多。因为 taste 不是抽象偏好,taste 是选择痕迹。
第五,长期规则要从行为里长出来。公理系统最有价值的地方,不是写了多少漂亮原则,而是它来自长期复盘后的行为模式归纳。不是我说过什么,而是我一直在做什么。
这套系统听起来像知识管理,但我觉得它更像给自己的 AI 建一个免疫系统。不是所有进入身体的东西都会变成自己。身体要识别、吸收、排异,知识系统也一样。
最后
过去我们讲个人知识管理,核心问题是怎么不忘。AI 时代这个问题变了:不是怎么记住更多,而是怎么避免被自己记住的东西稀释。
上下文越多,越需要治理。资料越丰富,越需要权重。AI 越能理解你,越要告诉它什么才算你。
否则所谓“我的知识库”,最后会变成一个很会说话的互联网平均值。它知道你读过什么,知道你收藏过什么,知道你让 AI 生成过什么,但它不知道你真正相信什么。
AI 时代,真正稀缺的不是上下文长度,而是上下文主权。