美东时间 6 月 12 日下午 5 点 21 分,Anthropic CEO Dario Amodei 收到商务部长 Howard Lutnick 签署的出口管制信函。三个小时后,Fable 5 和 Mythos 5 从全球所有用户的界面上消失了。
北京时间 6 月 13 日下午 5 点 21 分,智谱 CEO 唐杰在 X 上按下发送键:GLM-5.2 正式发布。
同一个时间戳,两种命运。一个被政府的手从市场上抹去,另一个在同一时刻宣布"前沿智能不应被少数规则随时收回"。
这出戏的戏剧性不需要我多说,圈内已经刷屏好几天了。但真正让我停下来想的东西,不在戏剧本身,而在一个更硬的问题上。
Opus 4.8 是五月底发布的,GPT-5.5 稍早一些但也有限。训练一个大参数模型,美国大厂正常也需要两三个月。中国在算力上是受限的,即便有一些国产算力卡进入序列,但缺乏完善的英伟达生态,迭代速度理论上不应该这么快。
那 GLM-5.2 怎么可能在这么短的时间内,在 coding benchmark 上追到接近 Opus 4.8 和 GPT-5.5 的水平?
我把能找到的资料翻了一遍,结论是:不是智谱有什么美国人不知道的秘密技术,而是它把四件已知的武器组合成了一个足够高效的追赶路径。我管这个叫捷径堆栈。
第一件武器:架构复用
GLM-5.2 建立在 DeepSeek Sparse Attention 之上。这不是什么保密信息,发布合作伙伴 FriendliAI 和 DeepInfra 都公开描述过它的架构细节。
这意味着什么?智谱不需要从零设计注意力机制。它直接站在 DeepSeek 的肩膀上,把别人验证过的架构创新拿过来用。中国实验室之间的这种架构共享正在形成一种复利效应:DeepSeek 做架构创新,智谱做工程化和产品化,Kimi 和 Qwen 各有侧重。这不是一家公司在追赶,是一个生态在追赶。
美国那边也有架构共享,但更多是通过论文和开源代码。中国这边更直接:同生态、同语言、同市场,技术流动的摩擦更小。
第二件武器:MoE 的效率杠杆
GLM-5.2 是一个 744B 参数的 MoE 模型,但每个 token 只激活 40B 参数。
这就像一个 744 人的公司,每次只需要 40 人同时上班。训练时需要处理的计算量远低于同等性能的 dense 模型,推理成本也大幅下降。这就是为什么 GLM-5.2 的 API 价格只有 GPT-5.5 的六分之一。便宜不是因为它在亏钱赚吆喝,是因为架构本身就更高效。
MoE 不是中国发明的,但中国实验室在 MoE 的工程化上确实走得快。DeepSeek 的 MoE 架构、GLM 的 MoE 架构、Kimi 的 MoE 架构,都是在短短一年内迭代出来的。美国那边 GPT-5.5 和 Opus 4.8 大概率也是 MoE,但美国的 MoE 工程经验更分散在几家公司内部,没有形成生态级的共享。
第三件武器:垂域聚焦
这一点最容易被 benchmark 标题掩盖。
GLM-5.2 在 SWE-bench Pro 上拿了 62.1 分,超过 GPT-5.5 的 58.6。在 Terminal-Bench 2.1 上从 62 跳到 81。在 Code Arena Frontend 上排名第二,仅次于已经被封杀的 Fable 5。这些数字很亮。
但在 Text Arena 上,GLM-5.2 排名只有第 25。
它不是一个全能的 frontier 模型。它是一个 coding 专精模型。把有限的算力和数据集中砸在 coding 和 agent 任务上,而不是试图在所有维度上都追平美国 frontier 模型。这是用集中度换深度。
追赶一个维度比追赶所有维度容易一个量级。如果智谱试图做一个全能模型去和 Opus 4.8 全面竞争,四个月可能连跑通训练流程都来不及。但只追 coding,四个月三次大版本迭代就变得可以理解了。
第四件武器:蒸馏数据
这是最敏感的一件,也是最核心的一件。
Anthropic 今年 2 月公开指控 DeepSeek、Moonshot AI 和 MiniMax 通过 2.4 万个假账号生成了 1600 万次 Claude 交互,进行"工业级蒸馏"。OpenAI 之前也指控过 DeepSeek "搭便车"。Google 注意到了针对自家模型的蒸馏攻击在增加。
指控没有直接点名智谱。但牛津大学的 Zilan Qian 在 5 月份发表的研究记录了一个繁荣的 API 代理转售生态:在淘宝、GitHub 和 Telegram 上,有大量代理服务公开转售 Claude 模型的访问权限,价格低至官方的十分之一。获取前沿模型的高质量输出数据,在中国不是一个技术难题,而是一个购物问题。
蒸馏的法律边界本身就很模糊。Anthropic 自己也大量使用了第三方数据来训练模型。批评者指出,把蒸馏上升到国家安全层面,背后有出口管制政治博弈的影子。
但无论法律和道德怎么定性,工程上的事实是:只要有渠道获取前沿模型的高质量输出,把这些输出作为训练数据来提升自己的模型,就是一条极其高效的追赶路径。不需要从零理解为什么 Opus 4.8 在某个任务上表现好,只需要让 GLM-5.2 学会产出类似的输出就够了。
Benchmark 领先和实战落后可以同时成立
这里有一个需要戳破的幻觉。
Z.ai 在 GLM-5.2 发布时没有公布任何官方 benchmark 分数。后来流传出来的 SWE-bench Pro 分数,有一部分可能是从 GLM-5.1 继承的。但 LMSYS 的 Terminal-Bench 分数和 Code Arena 的排名是独立第三方测试的,不是 Z.ai 自己说的。
怎么调和?答案是:benchmark 领先和实际使用落后可以同时为真。
一个模型可以在 SWE-bench Pro 上得 62.1 分,同时在真实复杂工程任务上还差六个月。因为 benchmark 测的是标准化场景下的表现,而真实工程是长尾的、模糊的、需要判断力的。Hacker News 上一个用户的评价可能更接近实态:GLM-5.2 大约等于今年 1 月的 Opus 水平,落后 frontier labs 大概半年。
六个月的差距意味着什么?在以前,这个差距是两三年。现在变成六个月。差距的绝对值在缩小,缩小的速度也在加快。但"缩小"不等于"消失"。
差距不是标量,是向量
所以回到那个问题:中美大模型差距是在缩小还是拉大?
我的判断是:这个问题本身就问错了。
差距不是一个数字,是一个向量。在 coding 和 agent 维度上,差距已经缩小到接近持平。在通用推理维度上,差距还有六个月。在基础设施维度上,差距可能在拉大,因为美国从控制芯片升级到了直接封锁模型。但在生态韧性维度上,中国反而获得了结构性优势:GLM-5.2 是 MIT 开源,可以本地部署,没有任何政府指令能把它从你的服务器上拿走。
Fable 5 事件恰好把这个向量的每个分量都暴露了出来。
Fable 5 被封后,GLM-5.2 立刻填位,说明中国模型在 coding 维度上已经有了替补能力。但没有人说"Fable 5 没了用 GLM-5.2 就行",因为大家都知道通用能力还差一截。美国从控制芯片升级到直接封锁模型,管制在加码。而 GLM-5.2 的开源协议突然具有了战略价值:你可以下载权重,本地部署,没有任何人能把它从你的服务器上拿走。
一个系统最大的风险有时不是对手太强,而是自己把自己绑住了。
Amazon 是 Anthropic 最大投资方,投了大约 130 亿美元。然后 Amazon 的研究团队 jailbreak 了 Fable 5,CEO Andy Jassy 向财政部报告,Fable 5 就下线了。你的最大金主帮你把你的旗舰产品搞下线了。这不是安全事件,这是商业博弈穿了一件国家安全的外衣。
Anthropic 之前拒绝了 Pentagon 要求 Claude 用于自主武器和大规模监控的要求,被列为"供应链风险"。Fable 5 的 jailbreak 只是借口,深层动机很可能是政治报复。但无论动机如何,结果已经产生:全球开发者突然意识到,闭源模型可以在一夜之间被政府指令抹掉。
真正的问题不是缩小还是拉大,是捷径有没有天花板
把四件武器叠在一起看,GLM-5.2 的快速追赶就不神秘了。架构复用省了设计时间,MoE 架构省了算力,垂域聚焦省了维度,蒸馏数据省了从零学习的成本。四件省法叠在一起,四个月追到 coding benchmark 接近持平,完全说得通。
但这条捷径有没有天花板?
我认为有。天花板不在管道被切断,而在管道另一端的水位降到了和你齐平。
蒸馏的前提是美国前沿模型持续领先,中国实验室可以持续从它们的输出中学习。如果有一天美国前沿模型不再大幅领先,你无法从一个和你差不多的模型身上蒸馏出比你更强的东西。蒸馏的边际收益会归零。
Fable 5 事件可能正在加速这一天的到来。不是因为中国变强了,而是因为美国在用自己的手限制自己最强模型的发布。如果这种管制持续加码,最终受害的可能是美国自己的前沿优势。Anthropic 在声明里说得很直白:如果这个标准在整个行业适用,将实质上叫停所有前沿模型提供商的新模型部署。
但反过来看,如果美国前沿模型继续领先,蒸馏管道在可预见的未来仍然是通的。因为出口管制针对的是特定模型的访问权限,不是禁止美国公司继续开发新模型。Fable 5 被封了,Opus 4.8 还在,GPT-5.5 还在。只要这些模型还在运行,它们的输出就可以通过各种渠道被获取。真正能切断蒸馏管道的不是封单个模型,而是封所有美国前沿模型的 API 访问,这在实操上几乎不可能。
所以捷径的天花板不在政策层面,而在技术层面:当中国模型和美国模型的差距缩小到蒸馏无法产生增量收益时,真正的原创能力竞争才会开始。到那个时候,谁能在没有捷径的情况下继续前进,才是真正考验差距走向的时刻。
对你意味着什么
如果你是 AI 应用的开发者或决策者,这个事件有三个直接含义。
多 provider 不再是最佳实践,而是生存底线。 Fable 5 事件把单一 API 依赖从技术债变成了生存风险。你的架构里如果只有一个模型 provider,你不是在优化成本,你是在赌这个 provider 不会被政府指令关停。
开源模型从"便宜替代"变成了"战略备份"。 以前选开源模型主要是为了省钱。现在选开源模型是为了确保核心能力不会被外部力量一夜清零。GLM-5.2 的 MIT 协议意味着你可以本地部署,这件事的价值不再只是成本,而是连续性保障。
Benchmark 不等于实战。 GLM-5.2 在 SWE-bench Pro 上超过 GPT-5.5,但在真实复杂工程任务上可能还差半年。选模型时不要看榜单排名,要看你自己的实际场景表现。一个在 benchmark 上领先但在你的 use case 上掉链子的模型,不如一个 benchmark 平平但在你的场景里稳定可靠的模型。
最后
5:21 那个时间戳,可能不只标记了一个模型的死亡和一个模型的诞生。它标记了一个拐点:当管制开始束缚创新者的手脚,追赶者就不需要跑得更快,只需要等前者慢下来。
但这也意味着,中国 AI 实验室即将面临一个它们还没有真正回答过的问题:当捷径走完之后,你还能不能靠自己继续走?
这个问题,比"差距缩小还是拉大"重要得多。