让所有人都变聪明的工具，可能让人类集体变蠢

有个朋友在群里说了一句话，让我停下来想了很久：当模型和执行代理已经消化了人类已知知识，下一步大概率是 AI 之间互相进化。但这会不会带来"近亲繁殖"的风险？一旦错了，可能出现大范围连锁污染。

这不是空想。2024 年 7 月，牛津大学的 Shumailov 等人在 Nature 正刊上证明了一件事：AI 模型训练在自身生成的数据上，会发生不可逆的退化。他们给这个现象起了个名字，叫 Model Collapse。数学上，这不是可能性，而是必然性。

"Over time, models start losing information about the true distribution, which first starts with tails disappearing, and learned behaviours converge over the generations to a point estimate with very small variance."

翻译成人话：模型先丢掉稀有但重要的知识（长尾），然后所有输出趋向"安全的平均值"，最后变成一团正确但无趣的白噪声。

有人给这个过程起了一个更形象的名字：Habsburg AI。

哈布斯堡的诅咒

Jathan Sadowski 在 2023 年造了这个词。哈布斯堡王朝是欧洲历史上最强大的皇室之一，为了保持血统纯正，数百年来坚持近亲通婚。结果是末代国王查理二世：近交系数 0.25（等同于亲兄妹后代），不育、智力低下、下颌畸形。王朝因此终结。

生物学的原理很简单：近亲繁殖让隐性有害基因有更高概率被"双份激活"。基因多样性是种群的保险：它确保当环境变化时，总有一些个体携带应对新挑战的遗传方案。一旦基因池收窄，这个保险就消失了。

AI 正在走同一条路。当模型 A 的输出成为模型 B 的训练数据，B 的输出再喂给 C，每一代都在丢失原始分布中的"稀有等位基因"。互联网上 AI 内容已超过 50%，Graphite 的数据显示 2024 年 11 月起 AI 生成文章数量首次超过人类。也就是说，下一代模型的训练语料里，有一大半是上一代模型"排泄"出来的。

这像极了猎豹的命运。猎豹在末次冰期经历了两次遗传瓶颈，精子异常率至今高达 71%，整个物种脆弱到一场传染病就可能全军覆没。它们跑得飞快，但遗传上已经是一个"几乎相同的个体"的群体。AI 模型也在变得更"流畅"更"快"，但内在的知识多样性正在坍缩。

文明从来在碰撞中产生

人类进化史上有一条反复验证的规律：隔离导致退化，碰撞带来创新。

最极端的案例是塔斯马尼亚岛。一万年前海平面上升切断了它与澳大利亚大陆的联系，此后不足 5000 人的岛上社会，在 8000 年间逐步丧失了骨制工具、渔网、防寒衣物、回旋镖。哈佛大学的 Joseph Henrich 用数学模型证明：文化传承本质上有损，每一代学习者无法完美复制前辈技能。群体越大，出现"偶然改进"的概率越高，可以对冲这种损耗。但当群体太小、又与外界隔绝，技术水平就会呈净下降趋势。

反面的例子同样有力。丝绸之路不只是贸易通道，它是知识的超级公路。阿拉伯数字其实起源于印度，经伊斯兰黄金时代的数学家系统化后传入欧洲，催生了文艺复兴的计算革命。伊斯兰帝国之所以能在 8 到 14 世纪成为全球知识中心，核心原因是它打通了中国、印度、波斯、希腊、埃及的知识流通。Frans Johansson 把这叫做"美第奇效应"：当不同学科、文化和产业在同一个物理空间碰撞时，突破性创新就会涌现。

Henrich 的理论可以浓缩成一句话：创新不是个人天才的产物，而是"集体大脑"在足够大的社会网络中运作的涌现属性。

现在再看 AI 正在做什么：它在缩小这个集体大脑的有效尺寸。

从分发层到生产层：问题已经下沉

互联网时代我们已经体验过"回音室效应"：算法推荐让你只看到你想看的内容。但那是分发层面的问题，信息本身还是多样的，只是分发机制在做筛选。

AI 时代的危险在于，问题从分发层下沉到了生产层。不是"你只能看到你想看的"，而是"所有人只能想到同样的东西"。

2026 年发表在 Nature 正刊上的实证研究分析了 4130 万篇论文，发现了一个悖论：使用 AI 工具的科学家个人产出提升 3 倍、引用提升 4.8 倍、晋升加快 1.37 年。但同时，AI 采纳使得学术界研究的主题总量缩减了 4.63%，科学家之间的互动降低了 22%。

个体变强了，集体变窄了。

Cornell 大学的实验更直观：让印度和美国的参与者使用 AI 写作后，两国人的文字"变得更相似"，都趋向"西方规范"。甚至被问到最喜欢的食物时，用 AI 辅助的人更可能回答"pizza"。

"AI is a technology of averages: large language models are trained to spot patterns across vast tracts of data; the answers they produce tend toward consensus."
— Kyle Chayka, The New Yorker

剑桥大学的 Traberg 等人在 2026 年把这个循环描述得很清晰：研究 AI 的实践本身正在变得统一，不仅是研究什么在收敛，连问题怎么被框定、怎么被调查、怎么被评估，全在趋同。他们引用了一个精准的类比：

"Just as biodiversity protects ecosystems from collapse, intellectual heterogeneity protects science from paradigm shocks."

三条链条的正反馈环

把上面说的整合起来，我看到三条因果链在互相喂养：

链条 A：AI 工具同质化 → 研究方法和主题趋同 → 科学变成"单一种植"。

链条 B：AI 训练数据来自 AI 输出 → Model Collapse → 知识退化，尾部消失。

链条 C：AI 生成内容占据互联网主体 → 人类原创被挤出 → 认知多样性萎缩。

A 减少了 B 的多样性输入，B 加速了 C 的退化速度，C 进一步缩窄了 A 的研究视野。这是一个正反馈退化环。

最让我不安的是第三条链。StackOverflow 的问题量已经下降了 78%。不是因为人们不再有问题，而是问技术问题的习惯正在从"社区互答"迁移到"问 AI"。但 AI 的回答是基于它训练时吞掉的那些社区问答。一旦社区萎缩，AI 的知识来源也在萎缩。这像一棵树在啃食自己的根。

解药存在，但需要刻意的制度设计

好消息是，生物学早就给出了解法：引入外来基因。瑞典有一个被农业活动隔离的蝰蛇种群，出现了高比例的死产和畸形。研究者引入了其他种群的个体后，种群迅速恢复。

对应到 AI：NeurIPS 2024 的论文证明，只要训练时把合成数据"叠加"到真实人类数据上（而不是替换），Model Collapse 就可以被避免。甚至只保留 10% 的真实人类数据，就能显著延缓退化。

但这需要刻意的制度设计，不会自发发生。几个方向值得关注：

数字种子库：有人已经在系统性存档 AI 爆发前的人类创作内容，类比冷战后科学家保存"核爆前钢铁"（未被核辐射污染的钢材在精密仪器中不可替代）。
数据血统管理：标注每条训练数据是人类产生还是 AI 产生，建立来源溯源。哈佛法学院已经在讨论"未被 AI 污染的人类数据权利"。
方法论多元主义：在学术资助中刻意保护非 AI 路径的研究。不是所有问题都应该用同一把锤子。
跨模型杂交：有实验证明，用模型 A 的输出训练模型 B（不同架构），比 A 训练自己退化更慢。类似于远缘杂交的杂种优势。

我的判断

Model Collapse 不是终将到来的末日预言，它是已经在发生的渐进过程。互联网内容中 AI 的占比每月都在上升，每一天都有新的模型在训练时不自觉地吞入上一代模型的输出物。

但我不认为这是不可逆的宿命。它更像一个公共卫生问题：如果放任不管，退化会持续加速；如果有意识地管理数据来源的多样性，保持人类原创输入的"基因流"，系统可以维持健康。

真正让我警惕的，是一个更深层的问题。AI 正在把知识生产从"碰撞模式"推向"收敛模式"。在碰撞模式下，不同背景、不同训练、不同文化的人互相激发，产出超越各自视野的新东西。在收敛模式下，所有人用同一个工具、看同一批数据、得到同一个"最可能的答案"。

人类文明最伟大的突破，几乎都来自碰撞：希腊哲学遇到阿拉伯数学产生了科学方法，东方丝绸遇到西方玻璃催生了光学实验，生物学观察遇到工程学思维发明了尼龙搭扣。

如果 AI 让所有人都在同一个知识空间里用同一种方式思考，那么即使每个人都变得更"高效"了，人类作为整体的创新能力也可能在下降。就像塔斯马尼亚岛上的居民：他们并不比祖先更笨，但因为群体太小、太隔绝，无法维持复杂技术所需的知识传承临界量。

AI 时代的反直觉真相是：让所有人都变聪明的工具，可能让人类集体变蠢。

解法不是拒绝 AI，而是刻意维护多样性。用不同的模型、保留人类原创、鼓励跨界碰撞、保护那些"低效但独特"的知识路径。在进化论里，那些看起来没用的基因变异，往往是物种在下一次环境剧变中存活下来的关键。

知识世界也一样。