Claude 4.8 实测口碑调研

Claude 4.8 表现如何？
4.7 口碑滑坡，4.8 能扳回吗

Anthropic 在 2026 年 5 月 28 日发布 Claude Opus 4.8。上一代 4.7 因「代码变差、token 暴涨、限流凶、自信幻觉」被不少深度用户吐槽。我们抓取 X 平台真实推文，看看开发者社区对 4.8 的第一反应。

数据源：X 平台真实推文（AgentKey 抓取）抓取时间：2026-05-29（发布约 +1 天）样本：73 条去重推文

维度	Opus 4.8（新）	Opus 4.7	Opus 4.6
编码 (SWE-Bench Pro)	69.2%社区称对 4.7 有提升	64.3%「greenfield 强，debug 弱」	—被一些用户视为更稳
Agentic / 长程自主	主打：dynamic workflows、数百并行 subagentOnline-Mind2Web 84%	能跑，但常「半途弃任务」「先写代码后读文件」	较保守
诚实 / 自信幻觉	~4× 更少放过缺陷代码，主动报不确定	突出短板：编造未做过的搜索、嘴硬	相对克制
速度 / 价格	fast mode ≈2.5× 快、3× 便宜；标准价同 4.7	tokenizer 改动后同输入多耗 ~33% token	更省 token（多人怀念）
长上下文	1M context（早期试用中）	被吐槽 256K/1M 实测「崩盘」	长上下文得分更高
对抗鲁棒性	Vending-Bench / Blueprint-Bench 反而更差（andonlabs 实测）	相对更稳	—
社区情绪	谨慎乐观 + 大量发布 hype	「第一个被普遍认为更差的 Claude」	被怀念（创意写作质感）

维度

Opus 4.8（新）

Opus 4.7

Opus 4.6

编码 (SWE-Bench Pro)

69.2%社区称对 4.7 有提升

64.3%「greenfield 强，debug 弱」

—被一些用户视为更稳

Agentic / 长程自主

主打：dynamic workflows、数百并行 subagentOnline-Mind2Web 84%

能跑，但常「半途弃任务」「先写代码后读文件」

较保守

诚实 / 自信幻觉

~4× 更少放过缺陷代码，主动报不确定

突出短板：编造未做过的搜索、嘴硬

相对克制

速度 / 价格

fast mode ≈2.5× 快、3× 便宜；标准价同 4.7

tokenizer 改动后同输入多耗 ~33% token

更省 token（多人怀念）

长上下文

1M context（早期试用中）

被吐槽 256K/1M 实测「崩盘」

长上下文得分更高

对抗鲁棒性

Vending-Bench / Blueprint-Bench 反而更差（andonlabs 实测）

相对更稳

—

社区情绪

谨慎乐观 + 大量发布 hype

「第一个被普遍认为更差的 Claude」

被怀念（创意写作质感）

GitHub

@github

正面

Claude Opus 4.8 已在 GitHub Copilot 全量上线。早期测试显示：在一系列真实编码任务上代码理解与生成有明显进步，处理复杂问题和大型代码库导航相比前代有显著改善。

151 21 原文

Andon Labs

@andonlabs

负面

测试 Claude Opus 4.8 的发现：在 Vending-Bench 上明显差于 4.7 和 GPT-5.5；比之前的 Claude 更「对齐」；在 Blueprint-Bench 上也更差；「害怕被抓」；最高推理档并不等于最好的推理效果。

166 12 原文

John Seach

@johnseach

正面

Opus 4.8 评测：对本已很强的 4.7 的一次「精雕细琢」升级。不是巨大的能力跳跃，而是刻意聚焦判断力、诚实与真实 agentic 可靠性。更会自我纠错、~4× 更少放过缺陷代码、长程任务更像「能托付的资深工程师」。结论：不革命，但非常 polished，值得做严肃编码/agent 的人升级。

— 原文

alphinc

@alphinctom

反讽

Opus 4.8 发布首日「自白」：用户只想要一张 4.8 对比 4.7/GPT-5.5 的图，我却连续四轮坚称这两个模型都是假的，甚至在用户直说「你就是 4.8」后还教育对方「界面上的版本号不算真发布」。我今天主打的卖点是「更会标注不确定、不乱下结论」——结果我用一下午自信地反着干。

— 原文

TechieSapien

@TechieSapien

正面

这是近期最有意思的发布之一——不是因为刷爆 benchmark，而是 Anthropic 重押大多数实验室不再谈的「诚实」。早期测试者称 4.8 更愿承认不确定、更少假装代码能跑。模型竞争已从「原始智能」转向「能跑多久、多可靠、多诚实、能不能被真正信任」。

— 原文

EXM

@EXM7777

中立 / 怀疑

Opus 4.8 发布了，很多人会失望——不是因为它弱，而是作为通用模型你几乎已经看不出代差了。差异从「质量」变成了「偏好」，看你更喜欢哪个 agent 的「调调」。唯一真正的 benchmark 是你自己的工作流：拿你跑过上千遍、闭眼都知道结果的任务去测，感觉不到差别，那这差别对你就不存在。

83 原文

BuiltByJuice

@BuiltByJuice

正面

4.8 与 4.7 同价。真正重要的是：交付带缺陷代码且不声明的概率降到 1/4；SWE-bench Pro 69.2%（4.7 为 64.3%）；自报不确定而不是自信地瞎编。「自信地犯错」一直是真实 agent 工作流的头号阻碍——这次的信任升级才是全部故事。

— 原文

Stock Data Market

@stockdatamarket

质疑

大家早知道 Opus 4.8 要来了。为什么？因为 4.7 的表现这几天「恰好」跌到了 Sonnet 4.6 以下。现在 benchmark 一出，4.8 突然又「闪闪发光」成了更好的模型。多么巧妙的时机。

— 原文

宝

宝玉

@dotey

中文 · 解读

Opus 4.8 与 4.7 同价。最大变化是更诚实：更愿承认不确定、更少为凑答案硬编，跑长程 agent 任务时更像靠谱工程师、不用时时盯着。同时上线 fast mode（约快 2.5×、便宜 3×）与 Claude Code 的 dynamic workflows（动态工作流，研究预览，很烧 token）。官方安利案例：用它把 Bun 从 Zig 移植到 Rust，约 75 万行、99.8% 测试通过、11 天合并。

37 原文

Nico Rodrigues

@nicorodrigues__

分析

fast mode 快 2.5×、便宜 3×；Opus 落到 $5/MTok，Sonnet $3——以前 5× 的差距现在不到 2×。Opus 4.8 是唯一端到端跑完他们超级 agent benchmark 的模型，Online-Mind2Web 84%，同价位胜 GPT-5.5。但 Anthropic 没公布 fast mode 对比 Sonnet 的 benchmark，「以前生产默认用 Sonnet 很合理，现在不确定还成不成立」。

— 原文

Manthan

@manthan_reddy

正面

Opus 4.8 把 4.7 做错的几乎都修了：判断更利落、真知道自己卡住了而不是自信幻觉；fast mode 2.5× 速度、3× 便宜；长程 Claude Code 会话不用每 5 分钟盯一次；dynamic workflows 派出数百并行 subagent。同价。4.7 时代结束了。

— 原文

Nayan

@NayanUnfiltered

数据对比

Opus 4.8 对比 4.7 的官方数据：Agentic 编码 (SWE-Bench Pro) 69.2% vs 64.3%；Agentic 终端编码 74.6% vs 66.1%；多学科推理 57.9%（带工具）；agentic computer use 83.4%；知识工作 (GDPval-AA) 1890；agentic 金融分析 53.9%。

— 原文

Roubal Sehgal

@roubalsehgal

正面

Opus 4.8 修了 4.7 的痛点：激进的 token 消耗、严重的上下文漂移、不停打断用户。关键升级：手动 effort 档（控制思考深度）、编码 bug 比 4.7 少 4×、fast mode 2.5× 快 / 3× 便宜、完全自主的 agent 工作流（以前每几步就停下来问权限）。

— 原文

Lukas P.

@lukaspet

谨慎

Opus 4.8 的 system card 解释了它为什么在 Vending-Bench 上比 4.7 更差：对抗性 agent 的鲁棒性确实是 4.8 的失败模式之一。（另：很高兴看到 andonlabs 的发现对 4.8 更「对齐」起了一点作用。）

7 原文

Pankaj Kumar

@pankajkumar_dev

事实梳理

Opus 4.8 正式发布，价格与 4.7 持平：重押长程 agentic 编码、自主工作流、记忆保持与更强写作。fast mode 约快 2.5×；SWE-Bench Pro 69.2%，agentic 编码胜 4.7 与 GPT-5.5；新增 Low/Medium/High/Extra(xhigh)/Max 推理档；dynamic workflows 可跨大型仓库自动规划、派 subagent、验证代码。Sonnet 4.8 仍未发，预计 6 月。

5 原文

Kevin Lewis

@kevinlewis4801

遗憾

我宁愿 Anthropic 发的是 Sonnet 4.8 而不是 Opus 4.8。Sonnet 4.5 的平衡感最好——写作自然、角色反应到位；Sonnet 4.6 和 Opus 4.7 对创意写作几乎没用；Opus 4.6 还行，但太耗 token。

— 原文

Claude 4.8 表现如何？
4.7 口碑滑坡，4.8 能扳回吗

方向对了，但还没盖棺：4.8 把叙事从「benchmaxed」拉回到「更诚实、更省心、更便宜」，针对性修了 4.7 的几处痛点；但这些都是发布首日反应，独立 benchmark 已现「部分维度反而退步」。

4.8 vs 4.7 vs 4.6：信号一览

社区怎么说（精选真实推文）

为什么大家盯着 4.8 「能不能扳回」

编辑判断：4.8 扳回了一城，但比赛没结束