有个朋友在群里说了一句话,让我停下来想了很久:当模型和执行代理已经消化了人类已知知识,下一步大概率是 AI 之间互相进化。但这会不会带来"近亲繁殖"的风险?一旦错了,可能出现大范围连锁污染。
这不是空想。2024 年 7 月,牛津大学的 Shumailov 等人在 Nature 正刊上证明了一件事:AI 模型训练在自身生成的数据上,会发生不可逆的退化。他们给这个现象起了个名字,叫 Model Collapse。数学上,这不是可能性,而是必然性。
"Over time, models start losing information about the true distribution, which first starts with tails disappearing, and learned behaviours converge over the generations to a point estimate with very small variance."
翻译成人话:模型先丢掉稀有但重要的知识(长尾),然后所有输出趋向"安全的平均值",最后变成一团正确但无趣的白噪声。
有人给这个过程起了一个更形象的名字:Habsburg AI。
哈布斯堡的诅咒
Jathan Sadowski 在 2023 年造了这个词。哈布斯堡王朝是欧洲历史上最强大的皇室之一,为了保持血统纯正,数百年来坚持近亲通婚。结果是末代国王查理二世:近交系数 0.25(等同于亲兄妹后代),不育、智力低下、下颌畸形。王朝因此终结。
生物学的原理很简单:近亲繁殖让隐性有害基因有更高概率被"双份激活"。基因多样性是种群的保险:它确保当环境变化时,总有一些个体携带应对新挑战的遗传方案。一旦基因池收窄,这个保险就消失了。
AI 正在走同一条路。当模型 A 的输出成为模型 B 的训练数据,B 的输出再喂给 C,每一代都在丢失原始分布中的"稀有等位基因"。互联网上 AI 内容已超过 50%,Graphite 的数据显示 2024 年 11 月起 AI 生成文章数量首次超过人类。也就是说,下一代模型的训练语料里,有一大半是上一代模型"排泄"出来的。
这像极了猎豹的命运。猎豹在末次冰期经历了两次遗传瓶颈,精子异常率至今高达 71%,整个物种脆弱到一场传染病就可能全军覆没。它们跑得飞快,但遗传上已经是一个"几乎相同的个体"的群体。AI 模型也在变得更"流畅"更"快",但内在的知识多样性正在坍缩。
文明从来在碰撞中产生
人类进化史上有一条反复验证的规律:隔离导致退化,碰撞带来创新。
最极端的案例是塔斯马尼亚岛。一万年前海平面上升切断了它与澳大利亚大陆的联系,此后不足 5000 人的岛上社会,在 8000 年间逐步丧失了骨制工具、渔网、防寒衣物、回旋镖。哈佛大学的 Joseph Henrich 用数学模型证明:文化传承本质上有损,每一代学习者无法完美复制前辈技能。群体越大,出现"偶然改进"的概率越高,可以对冲这种损耗。但当群体太小、又与外界隔绝,技术水平就会呈净下降趋势。
反面的例子同样有力。丝绸之路不只是贸易通道,它是知识的超级公路。阿拉伯数字其实起源于印度,经伊斯兰黄金时代的数学家系统化后传入欧洲,催生了文艺复兴的计算革命。伊斯兰帝国之所以能在 8 到 14 世纪成为全球知识中心,核心原因是它打通了中国、印度、波斯、希腊、埃及的知识流通。Frans Johansson 把这叫做"美第奇效应":当不同学科、文化和产业在同一个物理空间碰撞时,突破性创新就会涌现。
Henrich 的理论可以浓缩成一句话:创新不是个人天才的产物,而是"集体大脑"在足够大的社会网络中运作的涌现属性。
现在再看 AI 正在做什么:它在缩小这个集体大脑的有效尺寸。
从分发层到生产层:问题已经下沉
互联网时代我们已经体验过"回音室效应":算法推荐让你只看到你想看的内容。但那是分发层面的问题,信息本身还是多样的,只是分发机制在做筛选。
AI 时代的危险在于,问题从分发层下沉到了生产层。不是"你只能看到你想看的",而是"所有人只能想到同样的东西"。
2026 年发表在 Nature 正刊上的实证研究分析了 4130 万篇论文,发现了一个悖论:使用 AI 工具的科学家个人产出提升 3 倍、引用提升 4.8 倍、晋升加快 1.37 年。但同时,AI 采纳使得学术界研究的主题总量缩减了 4.63%,科学家之间的互动降低了 22%。
个体变强了,集体变窄了。
Cornell 大学的实验更直观:让印度和美国的参与者使用 AI 写作后,两国人的文字"变得更相似",都趋向"西方规范"。甚至被问到最喜欢的食物时,用 AI 辅助的人更可能回答"pizza"。
"AI is a technology of averages: large language models are trained to spot patterns across vast tracts of data; the answers they produce tend toward consensus."
— Kyle Chayka, The New Yorker
剑桥大学的 Traberg 等人在 2026 年把这个循环描述得很清晰:研究 AI 的实践本身正在变得统一,不仅是研究什么在收敛,连问题怎么被框定、怎么被调查、怎么被评估,全在趋同。他们引用了一个精准的类比:
"Just as biodiversity protects ecosystems from collapse, intellectual heterogeneity protects science from paradigm shocks."
三条链条的正反馈环
把上面说的整合起来,我看到三条因果链在互相喂养:
链条 A:AI 工具同质化 → 研究方法和主题趋同 → 科学变成"单一种植"。
链条 B:AI 训练数据来自 AI 输出 → Model Collapse → 知识退化,尾部消失。
链条 C:AI 生成内容占据互联网主体 → 人类原创被挤出 → 认知多样性萎缩。
A 减少了 B 的多样性输入,B 加速了 C 的退化速度,C 进一步缩窄了 A 的研究视野。这是一个正反馈退化环。
最让我不安的是第三条链。StackOverflow 的问题量已经下降了 78%。不是因为人们不再有问题,而是问技术问题的习惯正在从"社区互答"迁移到"问 AI"。但 AI 的回答是基于它训练时吞掉的那些社区问答。一旦社区萎缩,AI 的知识来源也在萎缩。这像一棵树在啃食自己的根。
解药存在,但需要刻意的制度设计
好消息是,生物学早就给出了解法:引入外来基因。瑞典有一个被农业活动隔离的蝰蛇种群,出现了高比例的死产和畸形。研究者引入了其他种群的个体后,种群迅速恢复。
对应到 AI:NeurIPS 2024 的论文证明,只要训练时把合成数据"叠加"到真实人类数据上(而不是替换),Model Collapse 就可以被避免。甚至只保留 10% 的真实人类数据,就能显著延缓退化。
但这需要刻意的制度设计,不会自发发生。几个方向值得关注:
- 数字种子库:有人已经在系统性存档 AI 爆发前的人类创作内容,类比冷战后科学家保存"核爆前钢铁"(未被核辐射污染的钢材在精密仪器中不可替代)。
- 数据血统管理:标注每条训练数据是人类产生还是 AI 产生,建立来源溯源。哈佛法学院已经在讨论"未被 AI 污染的人类数据权利"。
- 方法论多元主义:在学术资助中刻意保护非 AI 路径的研究。不是所有问题都应该用同一把锤子。
- 跨模型杂交:有实验证明,用模型 A 的输出训练模型 B(不同架构),比 A 训练自己退化更慢。类似于远缘杂交的杂种优势。
我的判断
Model Collapse 不是终将到来的末日预言,它是已经在发生的渐进过程。互联网内容中 AI 的占比每月都在上升,每一天都有新的模型在训练时不自觉地吞入上一代模型的输出物。
但我不认为这是不可逆的宿命。它更像一个公共卫生问题:如果放任不管,退化会持续加速;如果有意识地管理数据来源的多样性,保持人类原创输入的"基因流",系统可以维持健康。
真正让我警惕的,是一个更深层的问题。AI 正在把知识生产从"碰撞模式"推向"收敛模式"。在碰撞模式下,不同背景、不同训练、不同文化的人互相激发,产出超越各自视野的新东西。在收敛模式下,所有人用同一个工具、看同一批数据、得到同一个"最可能的答案"。
人类文明最伟大的突破,几乎都来自碰撞:希腊哲学遇到阿拉伯数学产生了科学方法,东方丝绸遇到西方玻璃催生了光学实验,生物学观察遇到工程学思维发明了尼龙搭扣。
如果 AI 让所有人都在同一个知识空间里用同一种方式思考,那么即使每个人都变得更"高效"了,人类作为整体的创新能力也可能在下降。就像塔斯马尼亚岛上的居民:他们并不比祖先更笨,但因为群体太小、太隔绝,无法维持复杂技术所需的知识传承临界量。
AI 时代的反直觉真相是:让所有人都变聪明的工具,可能让人类集体变蠢。
解法不是拒绝 AI,而是刻意维护多样性。用不同的模型、保留人类原创、鼓励跨界碰撞、保护那些"低效但独特"的知识路径。在进化论里,那些看起来没用的基因变异,往往是物种在下一次环境剧变中存活下来的关键。
知识世界也一样。