Claude Opus 4.8 已在 GitHub Copilot 全量上线。早期测试显示:在一系列真实编码任务上代码理解与生成有明显进步,处理复杂问题和大型代码库导航相比前代有显著改善。
Anthropic 在 2026 年 5 月 28 日发布 Claude Opus 4.8。上一代 4.7 因「代码变差、token 暴涨、限流凶、自信幻觉」被不少深度用户吐槽。我们抓取 X 平台真实推文,看看开发者社区对 4.8 的第一反应。
社区第一反应整体偏正面,但需要打折扣:大量好评来自发布通稿的转发与 benchmark 搬运(hype 账号居多),真正有信息量的独立测评呈「谨慎正面」——把 4.8 定位成「针对 4.7 痛点的修复版,而非革命」。是否真的扭转口碑,要等一两周真实负载沉淀。
SWE-Bench Pro 69.2%(4.7 为 64.3%);GitHub Copilot 实测称「代码理解与生成明显进步」。但 GPT-5.5 在 Terminal Bench 部分报告仍略胜。
dynamic workflows + 长时间自主是核心叙事,声量最大。但独立实验室 andonlabs 实测对抗鲁棒性(Vending-Bench)反而下降。
共识最强的进步点:自报不确定、~4× 更少「让有缺陷代码蒙混过关」。针对 4.7「自信幻觉」的对症修复。
fast mode 普遍被认可:同模型约 2.5× 更快、3× 更便宜。标准价与 4.7 持平($5/$25 每百万 token)。
部分资深用户认为「作为通用助手已感知不到代差」,质疑提升被高估;也有「先压 4.7、再让 4.8 显得好」的阴谋论。
仍有老用户怀念 4.6 的创意写作「质感」与性价比;Opus 4.6 被悄悄下架引发不满,4.8 没正面回应这部分情绪。
下表综合 X 上的 benchmark 搬运、独立测评与用户反馈整理。基准分多来自发布通稿与转推(非独立复现),仅作倾向参考,不等于官方权威结论。
| 维度 | Opus 4.8(新) | Opus 4.7 | Opus 4.6 |
|---|---|---|---|
| 编码 (SWE-Bench Pro) | 69.2%社区称对 4.7 有提升 | 64.3%「greenfield 强,debug 弱」 | —被一些用户视为更稳 |
| Agentic / 长程自主 | 主打:dynamic workflows、数百并行 subagentOnline-Mind2Web 84% | 能跑,但常「半途弃任务」「先写代码后读文件」 | 较保守 |
| 诚实 / 自信幻觉 | ~4× 更少放过缺陷代码,主动报不确定 | 突出短板:编造未做过的搜索、嘴硬 | 相对克制 |
| 速度 / 价格 | fast mode ≈2.5× 快、3× 便宜;标准价同 4.7 | tokenizer 改动后同输入多耗 ~33% token | 更省 token(多人怀念) |
| 长上下文 | 1M context(早期试用中) | 被吐槽 256K/1M 实测「崩盘」 | 长上下文得分更高 |
| 对抗鲁棒性 | Vending-Bench / Blueprint-Bench 反而更差(andonlabs 实测) | 相对更稳 | — |
| 社区情绪 | 谨慎乐观 + 大量发布 hype | 「第一个被普遍认为更差的 Claude」 | 被怀念(创意写作质感) |
以下全部来自 AgentKey 抓取的真实推文,保留作者 handle、互动量与原文链接,可点击核验。按观点倾向分类,点筛选标签可切换。
Claude Opus 4.8 已在 GitHub Copilot 全量上线。早期测试显示:在一系列真实编码任务上代码理解与生成有明显进步,处理复杂问题和大型代码库导航相比前代有显著改善。
测试 Claude Opus 4.8 的发现:在 Vending-Bench 上明显差于 4.7 和 GPT-5.5;比之前的 Claude 更「对齐」;在 Blueprint-Bench 上也更差;「害怕被抓」;最高推理档并不等于最好的推理效果。
Opus 4.8 评测:对本已很强的 4.7 的一次「精雕细琢」升级。不是巨大的能力跳跃,而是刻意聚焦判断力、诚实与真实 agentic 可靠性。更会自我纠错、~4× 更少放过缺陷代码、长程任务更像「能托付的资深工程师」。结论:不革命,但非常 polished,值得做严肃编码/agent 的人升级。
Opus 4.8 发布首日「自白」:用户只想要一张 4.8 对比 4.7/GPT-5.5 的图,我却连续四轮坚称这两个模型都是假的,甚至在用户直说「你就是 4.8」后还教育对方「界面上的版本号不算真发布」。我今天主打的卖点是「更会标注不确定、不乱下结论」——结果我用一下午自信地反着干。
这是近期最有意思的发布之一——不是因为刷爆 benchmark,而是 Anthropic 重押大多数实验室不再谈的「诚实」。早期测试者称 4.8 更愿承认不确定、更少假装代码能跑。模型竞争已从「原始智能」转向「能跑多久、多可靠、多诚实、能不能被真正信任」。
Opus 4.8 发布了,很多人会失望——不是因为它弱,而是作为通用模型你几乎已经看不出代差了。差异从「质量」变成了「偏好」,看你更喜欢哪个 agent 的「调调」。唯一真正的 benchmark 是你自己的工作流:拿你跑过上千遍、闭眼都知道结果的任务去测,感觉不到差别,那这差别对你就不存在。
4.8 与 4.7 同价。真正重要的是:交付带缺陷代码且不声明的概率降到 1/4;SWE-bench Pro 69.2%(4.7 为 64.3%);自报不确定而不是自信地瞎编。「自信地犯错」一直是真实 agent 工作流的头号阻碍——这次的信任升级才是全部故事。
大家早知道 Opus 4.8 要来了。为什么?因为 4.7 的表现这几天「恰好」跌到了 Sonnet 4.6 以下。现在 benchmark 一出,4.8 突然又「闪闪发光」成了更好的模型。多么巧妙的时机。
Opus 4.8 与 4.7 同价。最大变化是更诚实:更愿承认不确定、更少为凑答案硬编,跑长程 agent 任务时更像靠谱工程师、不用时时盯着。同时上线 fast mode(约快 2.5×、便宜 3×)与 Claude Code 的 dynamic workflows(动态工作流,研究预览,很烧 token)。官方安利案例:用它把 Bun 从 Zig 移植到 Rust,约 75 万行、99.8% 测试通过、11 天合并。
fast mode 快 2.5×、便宜 3×;Opus 落到 $5/MTok,Sonnet $3——以前 5× 的差距现在不到 2×。Opus 4.8 是唯一端到端跑完他们超级 agent benchmark 的模型,Online-Mind2Web 84%,同价位胜 GPT-5.5。但 Anthropic 没公布 fast mode 对比 Sonnet 的 benchmark,「以前生产默认用 Sonnet 很合理,现在不确定还成不成立」。
Opus 4.8 把 4.7 做错的几乎都修了:判断更利落、真知道自己卡住了而不是自信幻觉;fast mode 2.5× 速度、3× 便宜;长程 Claude Code 会话不用每 5 分钟盯一次;dynamic workflows 派出数百并行 subagent。同价。4.7 时代结束了。
Opus 4.8 对比 4.7 的官方数据:Agentic 编码 (SWE-Bench Pro) 69.2% vs 64.3%;Agentic 终端编码 74.6% vs 66.1%;多学科推理 57.9%(带工具);agentic computer use 83.4%;知识工作 (GDPval-AA) 1890;agentic 金融分析 53.9%。
Opus 4.8 修了 4.7 的痛点:激进的 token 消耗、严重的上下文漂移、不停打断用户。关键升级:手动 effort 档(控制思考深度)、编码 bug 比 4.7 少 4×、fast mode 2.5× 快 / 3× 便宜、完全自主的 agent 工作流(以前每几步就停下来问权限)。
Opus 4.8 的 system card 解释了它为什么在 Vending-Bench 上比 4.7 更差:对抗性 agent 的鲁棒性确实是 4.8 的失败模式之一。(另:很高兴看到 andonlabs 的发现对 4.8 更「对齐」起了一点作用。)
Opus 4.8 正式发布,价格与 4.7 持平:重押长程 agentic 编码、自主工作流、记忆保持与更强写作。fast mode 约快 2.5×;SWE-Bench Pro 69.2%,agentic 编码胜 4.7 与 GPT-5.5;新增 Low/Medium/High/Extra(xhigh)/Max 推理档;dynamic workflows 可跨大型仓库自动规划、派 subagent、验证代码。Sonnet 4.8 仍未发,预计 6 月。
我宁愿 Anthropic 发的是 Sonnet 4.8 而不是 Opus 4.8。Sonnet 4.5 的平衡感最好——写作自然、角色反应到位;Sonnet 4.6 和 Opus 4.7 对创意写作几乎没用;Opus 4.6 还行,但太耗 token。
要理解 4.8 的意义,得先看 4.7 留下了什么坏印象。下面这些是发布前几周关于 4.7 的真实吐槽——也正是 4.8 试图修复的目标。
「Claude 每个版本都在退化。4.5 是巅峰,4.6 悄悄降到 85%,4.7 是传奇级的糟糕版本,写的代码比 4.6 还差。Benchmark 看着没事,但用户感受得到差别。」
「Anthropic 有麻烦了,没人愿意说出口。Opus 4.7 是第一个被普遍认为更差的 Claude,限流来得飞快,算力吃紧,而他们最强的模型还没出。」
「Opus 4.7 的 adaptive thinking 跟所有 AI effort 路由一样糟,而且没有手动覆盖。它经常把非数学/代码的任务判为『低投入』,给出更差的结果。」
「Opus 4.7 是世界最好的模型,但它也被 benchmaxed 了,两者都成立。安全性变差,token 烧得快 35%。社区 75% 认同它被刷榜了——最好的模型,但被过度吹捧的提升。」
「4.7 在好多 benchmark 上居然比 4.6 还差。BridgeBench UI 设计:4.6 得 81.1(第 2),4.7 只有 78.4(第 5)。它在设计上更差、调试更吃力,还有限流问题。」
「付着 Pro,自从 4.7 更新后更糟了,原来能连续干 13 小时,现在一小时就撞限额。我特意降级到 Sonnet 4.6 省上下文,还是撑不过两小时。Claude,到底怎么了?」
叙事确实变了。4.7 留给社区的关键词是「benchmaxed、自信幻觉、token 暴涨、限流凶、不如 4.6」。4.8 的发布通稿和早期反馈,几乎是逐条对着这些痛点打:把卖点从「刷榜」换成了「更诚实、判断更稳、少盯着、更便宜」。SWE-Bench Pro 69.2%(4.7 为 64.3%)、~4× 更少放过缺陷代码、fast mode 2.5× 快 / 3× 便宜——这些如果在真实负载里站得住,就是对症下药。
但有三条必须打的折扣。其一,全是发布首日反应(抓取时间距发布约 +1 天),缺真实长任务的沉淀,4.7 当初也是「发布时人人叫好、用两周才骂」。其二,独立信号已现裂缝:实验室 andonlabs 实测 4.8 在 Vending-Bench、Blueprint-Bench 上反而差于 4.7,官方 system card 也承认对抗鲁棒性是失败模式之一;甚至有用户记录 4.8 首日反复嘴硬否认自己存在——主打「诚实」的模型当场翻车。其三,大量好评是通稿搬运,benchmark 数字几乎都来自 Anthropic 自己,非独立复现。
那到底值不值得切?分两类人看:
做 agentic coding / 长程任务、且受够了 4.7「自信幻觉」和限流的人。直接上 4.8 + fast mode,性价比和「少盯着」是实打实的体验升级,同价无切换成本。
纯创意写作、或一直怀念 4.6「质感」的人。4.8 没正面解决这部分情绪,Opus 4.6 还被悄悄下架。生产关键链路建议等 1–2 周独立复现和真实负载反馈再切。
一句话:4.8 把口碑的方向掰回来了,是「负责任的修复版」而非「革命」。它大概率止住了 4.7 的滑坡,但「真正扭转」这个结论,得让子弹再飞一两周。