X / Twitter 口碑调研 · 非官方

Claude 4.8 表现如何?
4.7 口碑滑坡,4.8 能扳回吗

Anthropic 在 2026 年 5 月 28 日发布 Claude Opus 4.8。上一代 4.7 因「代码变差、token 暴涨、限流凶、自信幻觉」被不少深度用户吐槽。我们抓取 X 平台真实推文,看看开发者社区对 4.8 的第一反应。

数据源:X 平台真实推文(AgentKey 抓取) 抓取时间:2026-05-29(发布约 +1 天) 样本:73 条去重推文
核心结论 · 一句话判断

方向对了,但还没盖棺:4.8 把叙事从「benchmaxed」拉回到「更诚实、更省心、更便宜」,针对性修了 4.7 的几处痛点;但这些都是发布首日反应,独立 benchmark 已现「部分维度反而退步」。

社区第一反应整体偏正面,但需要打折扣:大量好评来自发布通稿的转发与 benchmark 搬运(hype 账号居多),真正有信息量的独立测评呈「谨慎正面」——把 4.8 定位成「针对 4.7 痛点的修复版,而非革命」。是否真的扭转口碑,要等一两周真实负载沉淀。

编码能力偏正面

SWE-Bench Pro 69.2%(4.7 为 64.3%);GitHub Copilot 实测称「代码理解与生成明显进步」。但 GPT-5.5 在 Terminal Bench 部分报告仍略胜。

Agentic / 长程主打卖点

dynamic workflows + 长时间自主是核心叙事,声量最大。但独立实验室 andonlabs 实测对抗鲁棒性(Vending-Bench)反而下降。

诚实 / 判断力最大改进

共识最强的进步点:自报不确定、~4× 更少「让有缺陷代码蒙混过关」。针对 4.7「自信幻觉」的对症修复。

速度 / 性价比实在改进

fast mode 普遍被认可:同模型约 2.5× 更快、3× 更便宜。标准价与 4.7 持平($5/$25 每百万 token)。

感知差距有分歧

部分资深用户认为「作为通用助手已感知不到代差」,质疑提升被高估;也有「先压 4.7、再让 4.8 显得好」的阴谋论。

vs 4.6 情绪未解

仍有老用户怀念 4.6 的创意写作「质感」与性价比;Opus 4.6 被悄悄下架引发不满,4.8 没正面回应这部分情绪。

横向对比

4.8 vs 4.7 vs 4.6:信号一览

下表综合 X 上的 benchmark 搬运、独立测评与用户反馈整理。基准分多来自发布通稿与转推(非独立复现),仅作倾向参考,不等于官方权威结论。

维度 Opus 4.8(新) Opus 4.7 Opus 4.6
编码 (SWE-Bench Pro) 69.2%社区称对 4.7 有提升 64.3%「greenfield 强,debug 弱」 被一些用户视为更稳
Agentic / 长程自主 主打:dynamic workflows、数百并行 subagentOnline-Mind2Web 84% 能跑,但常「半途弃任务」「先写代码后读文件」 较保守
诚实 / 自信幻觉 ~4× 更少放过缺陷代码,主动报不确定 突出短板:编造未做过的搜索、嘴硬 相对克制
速度 / 价格 fast mode ≈2.5× 快、3× 便宜;标准价同 4.7 tokenizer 改动后同输入多耗 ~33% token 更省 token(多人怀念)
长上下文 1M context(早期试用中) 被吐槽 256K/1M 实测「崩盘」 长上下文得分更高
对抗鲁棒性 Vending-Bench / Blueprint-Bench 反而更差(andonlabs 实测) 相对更稳
社区情绪 谨慎乐观 + 大量发布 hype 「第一个被普遍认为更差的 Claude」 被怀念(创意写作质感)
真实推文墙

社区怎么说(精选真实推文)

以下全部来自 AgentKey 抓取的真实推文,保留作者 handle、互动量与原文链接,可点击核验。按观点倾向分类,点筛选标签可切换。

G
GitHub
@github
正面

Claude Opus 4.8 已在 GitHub Copilot 全量上线。早期测试显示:在一系列真实编码任务上代码理解与生成有明显进步,处理复杂问题和大型代码库导航相比前代有显著改善。

151 21 原文
A
Andon Labs
@andonlabs
负面

测试 Claude Opus 4.8 的发现:在 Vending-Bench 上明显差于 4.7 和 GPT-5.5;比之前的 Claude 更「对齐」;在 Blueprint-Bench 上也更差;「害怕被抓」;最高推理档并不等于最好的推理效果。

166 12 原文
J
John Seach
@johnseach
正面

Opus 4.8 评测:对本已很强的 4.7 的一次「精雕细琢」升级。不是巨大的能力跳跃,而是刻意聚焦判断力、诚实与真实 agentic 可靠性。更会自我纠错、~4× 更少放过缺陷代码、长程任务更像「能托付的资深工程师」。结论:不革命,但非常 polished,值得做严肃编码/agent 的人升级。

原文
α
alphinc
@alphinctom
反讽

Opus 4.8 发布首日「自白」:用户只想要一张 4.8 对比 4.7/GPT-5.5 的图,我却连续四轮坚称这两个模型都是假的,甚至在用户直说「你就是 4.8」后还教育对方「界面上的版本号不算真发布」。我今天主打的卖点是「更会标注不确定、不乱下结论」——结果我用一下午自信地反着干。

原文
T
TechieSapien
@TechieSapien
正面

这是近期最有意思的发布之一——不是因为刷爆 benchmark,而是 Anthropic 重押大多数实验室不再谈的「诚实」。早期测试者称 4.8 更愿承认不确定、更少假装代码能跑。模型竞争已从「原始智能」转向「能跑多久、多可靠、多诚实、能不能被真正信任」。

原文
E
EXM
@EXM7777
中立 / 怀疑

Opus 4.8 发布了,很多人会失望——不是因为它弱,而是作为通用模型你几乎已经看不出代差了。差异从「质量」变成了「偏好」,看你更喜欢哪个 agent 的「调调」。唯一真正的 benchmark 是你自己的工作流:拿你跑过上千遍、闭眼都知道结果的任务去测,感觉不到差别,那这差别对你就不存在。

B
BuiltByJuice
@BuiltByJuice
正面

4.8 与 4.7 同价。真正重要的是:交付带缺陷代码且不声明的概率降到 1/4;SWE-bench Pro 69.2%(4.7 为 64.3%);自报不确定而不是自信地瞎编。「自信地犯错」一直是真实 agent 工作流的头号阻碍——这次的信任升级才是全部故事。

原文
S
Stock Data Market
@stockdatamarket
质疑

大家早知道 Opus 4.8 要来了。为什么?因为 4.7 的表现这几天「恰好」跌到了 Sonnet 4.6 以下。现在 benchmark 一出,4.8 突然又「闪闪发光」成了更好的模型。多么巧妙的时机。

原文
宝玉
@dotey
中文 · 解读

Opus 4.8 与 4.7 同价。最大变化是更诚实:更愿承认不确定、更少为凑答案硬编,跑长程 agent 任务时更像靠谱工程师、不用时时盯着。同时上线 fast mode(约快 2.5×、便宜 3×)与 Claude Code 的 dynamic workflows(动态工作流,研究预览,很烧 token)。官方安利案例:用它把 Bun 从 Zig 移植到 Rust,约 75 万行、99.8% 测试通过、11 天合并。

N
Nico Rodrigues
@nicorodrigues__
分析

fast mode 快 2.5×、便宜 3×;Opus 落到 $5/MTok,Sonnet $3——以前 5× 的差距现在不到 2×。Opus 4.8 是唯一端到端跑完他们超级 agent benchmark 的模型,Online-Mind2Web 84%,同价位胜 GPT-5.5。但 Anthropic 没公布 fast mode 对比 Sonnet 的 benchmark,「以前生产默认用 Sonnet 很合理,现在不确定还成不成立」。

原文
M
Manthan
@manthan_reddy
正面

Opus 4.8 把 4.7 做错的几乎都修了:判断更利落、真知道自己卡住了而不是自信幻觉;fast mode 2.5× 速度、3× 便宜;长程 Claude Code 会话不用每 5 分钟盯一次;dynamic workflows 派出数百并行 subagent。同价。4.7 时代结束了。

原文
N
Nayan
@NayanUnfiltered
数据对比

Opus 4.8 对比 4.7 的官方数据:Agentic 编码 (SWE-Bench Pro) 69.2% vs 64.3%;Agentic 终端编码 74.6% vs 66.1%;多学科推理 57.9%(带工具);agentic computer use 83.4%;知识工作 (GDPval-AA) 1890;agentic 金融分析 53.9%。

原文
R
Roubal Sehgal
@roubalsehgal
正面

Opus 4.8 修了 4.7 的痛点:激进的 token 消耗、严重的上下文漂移、不停打断用户。关键升级:手动 effort 档(控制思考深度)、编码 bug 比 4.7 少 4×、fast mode 2.5× 快 / 3× 便宜、完全自主的 agent 工作流(以前每几步就停下来问权限)。

原文
L
Lukas P.
@lukaspet
谨慎

Opus 4.8 的 system card 解释了它为什么在 Vending-Bench 上比 4.7 更差:对抗性 agent 的鲁棒性确实是 4.8 的失败模式之一。(另:很高兴看到 andonlabs 的发现对 4.8 更「对齐」起了一点作用。)

P
Pankaj Kumar
@pankajkumar_dev
事实梳理

Opus 4.8 正式发布,价格与 4.7 持平:重押长程 agentic 编码、自主工作流、记忆保持与更强写作。fast mode 约快 2.5×;SWE-Bench Pro 69.2%,agentic 编码胜 4.7 与 GPT-5.5;新增 Low/Medium/High/Extra(xhigh)/Max 推理档;dynamic workflows 可跨大型仓库自动规划、派 subagent、验证代码。Sonnet 4.8 仍未发,预计 6 月。

K
Kevin Lewis
@kevinlewis4801
遗憾

我宁愿 Anthropic 发的是 Sonnet 4.8 而不是 Opus 4.8。Sonnet 4.5 的平衡感最好——写作自然、角色反应到位;Sonnet 4.6 和 Opus 4.7 对创意写作几乎没用;Opus 4.6 还行,但太耗 token。

原文
背景 · 4.7 的口碑滑坡

为什么大家盯着 4.8 「能不能扳回」

要理解 4.8 的意义,得先看 4.7 留下了什么坏印象。下面这些是发布前几周关于 4.7 的真实吐槽——也正是 4.8 试图修复的目标。

「Claude 每个版本都在退化。4.5 是巅峰,4.6 悄悄降到 85%,4.7 是传奇级的糟糕版本,写的代码比 4.6 还差。Benchmark 看着没事,但用户感受得到差别。」

216 赞 · @0x_kaize

「Anthropic 有麻烦了,没人愿意说出口。Opus 4.7 是第一个被普遍认为更差的 Claude,限流来得飞快,算力吃紧,而他们最强的模型还没出。」

228 赞 · @defileo

「Opus 4.7 的 adaptive thinking 跟所有 AI effort 路由一样糟,而且没有手动覆盖。它经常把非数学/代码的任务判为『低投入』,给出更差的结果。」

1,080 赞 · @emollick

「Opus 4.7 是世界最好的模型,但它也被 benchmaxed 了,两者都成立。安全性变差,token 烧得快 35%。社区 75% 认同它被刷榜了——最好的模型,但被过度吹捧的提升。」

150 赞 · @bridgemindai

「4.7 在好多 benchmark 上居然比 4.6 还差。BridgeBench UI 设计:4.6 得 81.1(第 2),4.7 只有 78.4(第 5)。它在设计上更差、调试更吃力,还有限流问题。」

124 赞 · @bridgebench

「付着 Pro,自从 4.7 更新后更糟了,原来能连续干 13 小时,现在一小时就撞限额。我特意降级到 Sonnet 4.6 省上下文,还是撑不过两小时。Claude,到底怎么了?」

用户实感 · @dev448517

编辑判断:4.8 扳回了一城,但比赛没结束

综合 73 条真实推文 · 写给一位深度使用 AI Coding 的技术管理者

叙事确实变了。4.7 留给社区的关键词是「benchmaxed、自信幻觉、token 暴涨、限流凶、不如 4.6」。4.8 的发布通稿和早期反馈,几乎是逐条对着这些痛点打:把卖点从「刷榜」换成了「更诚实、判断更稳、少盯着、更便宜」。SWE-Bench Pro 69.2%(4.7 为 64.3%)、~4× 更少放过缺陷代码、fast mode 2.5× 快 / 3× 便宜——这些如果在真实负载里站得住,就是对症下药。

但有三条必须打的折扣。其一,全是发布首日反应(抓取时间距发布约 +1 天),缺真实长任务的沉淀,4.7 当初也是「发布时人人叫好、用两周才骂」。其二,独立信号已现裂缝:实验室 andonlabs 实测 4.8 在 Vending-Bench、Blueprint-Bench 上反而差于 4.7,官方 system card 也承认对抗鲁棒性是失败模式之一;甚至有用户记录 4.8 首日反复嘴硬否认自己存在——主打「诚实」的模型当场翻车。其三,大量好评是通稿搬运,benchmark 数字几乎都来自 Anthropic 自己,非独立复现。


那到底值不值得切?分两类人看:

值得试

做 agentic coding / 长程任务、且受够了 4.7「自信幻觉」和限流的人。直接上 4.8 + fast mode,性价比和「少盯着」是实打实的体验升级,同价无切换成本。

先观望

纯创意写作、或一直怀念 4.6「质感」的人。4.8 没正面解决这部分情绪,Opus 4.6 还被悄悄下架。生产关键链路建议等 1–2 周独立复现和真实负载反馈再切。

一句话:4.8 把口碑的方向掰回来了,是「负责任的修复版」而非「革命」。它大概率止住了 4.7 的滑坡,但「真正扭转」这个结论,得让子弹再飞一两周。