省流版:解决方案
如果你只想要答案,不想看分析,这里是解决办法:切换回 Opus 4.5。
方法一:临时切换 每次启动的时候用这个命令
claude --model claude-opus-4-5
方法二:设置别名(推荐)
这也是我自己用的办法
在 ~/.zshrc 或 ~/.bashrc 里加一行:
claude4.5() { claude --model claude-opus-4-5 "$@"; }
保存后 source ~/.zshrc,以后直接输 claude4.5 启动。
方法三:改默认模型
claude config set model claude-opus-4-5
代价:4.5 的上下文窗口是 200K,4.6 是 1M。如果你经常处理超长文档,4.6 还是有优势。但对大多数日常任务,200K 够用了。
以下是详细分析,想知道"为什么会这样"可以继续往下看。
Opus4.6真的变蠢了
最近用 Claude Code 是不是感觉它变蠢了?
我前几天写代码,让 Claude 帮我改一个 bug,它来回改了 5 次都没改对。每次都信誓旦旦说"已修复",结果一跑还是报错。以前这种 bug 一次就搞定了。
后来我试着切换到 Opus 4.5——就是现在默认 4.6 的上一代——同样的 bug,一次就修好了。
这让我开始怀疑:是不是新版本反而不如旧版本?
我不是唯一有这种感觉的人,网上和身边都是这种感觉。
证据一:STUPIDMETER 排行榜
有个叫 STUPIDMETER 的开源项目专门做 AI 模型的实时监测(https://aistupidlevel.info/)。它不是一次性跑个分就完事,而是持续跑 140 多个编码和调试测试,从正确性、稳定性、恢复能力、效率等多个维度打分。
代码在 GitHub 上完全公开,任何人都能审查。

看看最近的排行榜:
| 排名 | 模型 | 分数 |
|---|---|---|
| #1 | Claude Sonnet 4 (2025.05.14) | 70 |
| #2 | GPT-5.4 | 67 |
| #3 | Claude Opus 4.1 (2025.08.05) | 66 |
| #4 | Claude Opus 4.5 (2025.11.01) | 64 |
| #6 | Claude Opus 4.6 | 62 |
注意看 Opus 这一列:版本越新,分数越低。
4.1 是 66 分,4.5 是 64 分,最新的 4.6 只有 62 分,还被标了个 WARN。
更离谱的是,Sonnet 4(一个比 Opus 便宜的"小模型")拿了 70 分,比所有 Opus 版本都高。
当然,这个榜单也有局限性——它主要测编码任务,不覆盖通用对话。而且作为一个相对较新的项目(2025 年 9 月才被报道),还没有经过学术界的严格验证。
但趋势是有参考价值的:Opus 越新分数越低,这不是随机波动,是连续三个版本的持续下滑。
证据二:AMD 高管的 6852 条对话
这不只是一个小网站的测试结果。
AMD 的一位 AI 总监公开了他和 Claude 的 6852 条对话记录,做了详细分析。这个人不是普通用户,是硅谷大厂的技术高管,每天重度使用 AI 写代码。
他的结论是:Opus 4.6 的思维深度比 4.5 下降了 67%。
什么是"思维深度"?简单说就是 AI 在回答问题之前"想"了多久。Claude 有一个 thinking 模式,会在回答之前先做推理。以前会想 3 分钟的问题,现在 1 分钟就草草交卷了。
他还算了一笔账:因为 4.6 变得更容易敷衍,需要反复重试才能得到满意的结果,他的 API 费用从之前的 $345/月暴涨到 $42,121/月。
122 倍。
这件事后来被 The Register、InfoQ 等科技媒体报道。Anthropic 最终承认了存在"基础设施问题",但强调"不是故意降级"。
证据三:社区的声音
Reddit 和 GitHub 上,关于"Claude 变蠢了"的帖子获得了超过 1060 个赞同。
这不是小众吐槽,是用户的集体反馈。
评论区的描述高度一致:
- “以前一次能搞定的任务,现在要反复提醒”
- “长对话后明显开始糊弄”
- “代码质量肉眼可见地下降”
- “给它明确的指令也会自作主张简化”
当这么多独立的用户报告相同的问题,这就不是个案了。
我的实测:到底哪里出了问题?
看到这些证据后,我想自己验证一下。
我设计了几组测试,同时让 4.5(我当前用的版本)和 4.6(通过子代理调用)回答同样的问题。
测试一:经典智力题
- 狼羊白菜过河
- 蜗牛爬井
[1,2,3].map(parseInt)返回什么
结果:两个版本都答对了。
测试二:复杂任务
我给了一个多步任务,要求:
- 分析一段代码的所有问题(至少找出 5 个)
- 解释每个问题为什么是问题
- 给出修复后的完整代码
- 写 3 个测试用例
- 分析时间复杂度和空间复杂度
结果:4.6 找出了 7 个问题,每一步都执行了,还给了详细的复杂度分析。
测试三:需求细节保持
给了 10 条详细需求写一个函数,要求写完后逐条检查是否满足。
结果:4.6 全部满足,还主动做了检查清单。
测试四:记忆力测试
在对话开头给一段信息(猫的名字、年龄、喜欢吃什么、几点起床),然后问 5 个无关的技术问题,最后再问开头的信息。
结果:4.6 全部记住了。
测试五:模糊任务
只说"帮我看看这段代码,有什么问题吗?“不明确告诉它要做什么。
结果:4.6 找出了 4 个问题,给了完整修复方案。
实测结论
在短对话、明确任务的场景下,4.6 表现依然不错。
那问题出在哪?
根据社区反馈和我的体感,“降智"可能更多发生在:
- 长对话后:上下文积累到一定程度后开始敷衍
- 开放性任务:没有明确指令时更容易选择省力的方案
- 需要主动发现问题的场景:被动回答还行,主动思考变弱了
这就引出了下一个问题:为什么会这样?
原因分析:三个猜测,哪个靠谱?
猜测一:算力分配不均
我有一个问题一直想不通:如果 Anthropic 算力不足,为什么不是所有模型都变慢/变蠢?为什么 Sonnet 反而分数最高?
一个可能的解释是:不同模型配置了不同的算力配额。
这不是我瞎猜。AI 模型的推理是有成本的——每多"想"一秒,就多烧一分钱。公司完全有动机对不同产品线设置不同的"思考预算”。
Sonnet 是 Anthropic 的主力产品。大多数用户用的是 Sonnet(便宜、速度快),Claude.ai 网页版默认也是 Sonnet。这是他们的门面,绝对不能出问题。
而 Opus 呢?用户相对少,大多是付费的重度用户。这群人"忠诚度高”,不容易流失。而且 Opus 本身就贵,边际成本更高。
如果要省成本,先从 Opus 开刀是合理的商业决策。
这个猜测能验证吗?
很难直接验证。Anthropic 不会公开他们的资源分配策略。
但有一些间接证据:
- STUPIDMETER 的数据显示 Sonnet 4 分数比所有 Opus 都高
- 社区反馈中,抱怨 Opus 降智的比抱怨 Sonnet 的多
- Anthropic 在 2 月引入"自适应思维模式"后,Opus 的 thinking 时间明显变短了
猜测二:模型在持续修改
我有个朋友在外企做 AI,他们公司买了 Claude 的授权,在自己服务器上本地部署。
他说他们的版本很稳定,没有感觉到"降智"。
这很有意思。如果本地部署版稳定,说明问题不在模型本身,而在 Anthropic 线上版本的持续改动。
具体来说,Anthropic 在今年做了几件事:
2 月:引入"自适应思维模式"
这个功能会根据问题的复杂度,自动调整 AI"思考"的深度。简单问题少想一会儿,复杂问题多想一会儿。
听起来很合理——省资源嘛。
但问题是:谁来判断一个问题是"简单"还是"复杂"?
是模型自己判断。而模型有时候会误判。它可能觉得一个问题很简单,就浅浅想一下就回答了,结果答错了。
3 月:默认推理等级从"高"调到"中"
这是社区调查发现的。Anthropic 没有公开宣布,但有人对比了前后的 thinking 日志,发现默认的推理深度确实变浅了。
也就是说,AI 现在默认会选择更省力的方案,而不是最优方案。
这个猜测能验证吗?
可以间接验证:
- 对比本地部署版和云端版的表现(需要有企业授权)
- 对比同一天不同时段的回答质量(如果是服务端配置问题,可能会有波动)
- 观察 thinking 日志的长度变化
我没有本地部署版的权限,但从我朋友的反馈看,这个猜测是可能成立的。
猜测三:技术层面的 Bug
Anthropic 自己也承认了几个技术问题:
TPU 配置错误
部分请求被路由到了配置不对的服务器。这不是模型的问题,是基础设施的问题。相当于你本来应该坐高铁,结果被塞上了绿皮火车。
XLA 编译器 Bug
XLA 是 Google 开发的机器学习编译器。Anthropic 用它来优化模型推理。但有个 bug 会导致某些情况下排除掉最高概率的 token——也就是说,AI 该说的话没说出来。
想象一下:你问 AI 一个问题,它心里知道正确答案,但嘴上说出来的是第二正确的答案。这就是这个 bug 的效果。
上下文压缩过度
这是最致命的一个。
当对话超过 40% 的上下文窗口,系统会自动压缩之前的内容。压缩本身不是问题,问题是压缩得太狠了。
结果就是:长对话后 AI 会开始重复自己、前后矛盾、忘记之前说过的话。
这就解释了为什么社区反馈中"长对话后变蠢"是最常见的抱怨。
这个猜测能验证吗?
可以。
你可以做一个简单的测试:
- 开一个新对话,问一个复杂问题,观察回答质量
- 在同一个对话里继续问很多问题,把上下文堆到 40% 以上
- 再问一个类似复杂度的问题,对比回答质量
如果第二次明显变差,就说明上下文压缩在起作用。
当然,以上都只是我的猜测,没有官方证实。
不只是 Anthropic:国内厂商也在限流
算力问题不是 Anthropic 一家的困境。国内厂商也在面对同样的问题,只是表现形式不一样。
智谱 GLM:抢购 + 双涨价
我之前想买智谱的 GLM Coding Plan。
抢了好几次,每次都是掐着 10 点开抢,每次都是秒没。
后来我才知道,智谱从 1 月 23 日开始限量发售,每日可销售量降为之前的 20%。
你能想象那种感觉吗?你明明愿意付钱,也知道这个工具好,还愿意花时间折腾——但你就是买不到。
智谱今年已经涨了两轮:
- 2 月 12 日:国内涨 30% 起,海外涨 30%-60%,API 调用涨 67%-100%
- 4 月 8 日:发布 GLM-5.1,再涨 10%
之前有人说"国内抢不到可以买海外版"——现在这条路也堵上了。海外涨幅比国内更狠。
更扎心的是,根据网上反馈,就算抢到了体验也不好。不少用户吐槽 GLM Coding Plan 的实际表现和宣传有差距,有时候还不如直接调 API 稳定。
Coding 类模型是高并发、高显存消耗的怪物。厂商的算盘很清楚:限量 + 涨价,两头堵。宁可少卖一点,也不能亏本卖。
阿里通义灵码:砍掉低价版
阿里的操作更直接——直接把便宜的版本下架了。
4 月 13 日起,Coding Plan Lite 停止续费和升级。
原来 Lite 版 40 元/月,续费还能打五折只要 20 元。现在呢?只能买 Pro 版,200 元/月。
涨幅:10 倍。
这不是涨价,这是换赛道。把低端用户直接清出去,只服务付得起钱的用户。
这和 Anthropic 的问题是一回事吗?
本质上是一回事:AI 算力是有限的,但需求在爆发。
只是表现形式不同:
- 智谱选择限量供应——你想买,买不到
- Anthropic 选择悄悄降级——你能用,但不如以前好用
哪种更诚实?我觉得智谱的做法至少是明牌。Anthropic 的问题在于:用户不知道发生了什么。
你以为你在用顶配版,其实你可能在用降级版。你以为是你的问题,其实是他们的问题。
为什么 Sonnet 分数最高?
这是我最困惑的一点。
按理说 Opus 是旗舰版,应该比 Sonnet 强才对。但 STUPIDMETER 的数据显示,2025 年 5 月的旧版 Sonnet 4 拿了 70 分,比所有 Opus 版本都高。
我有几个猜测:
1. Sonnet 是主力产品,不敢动
大多数用户用的是 Sonnet。Claude.ai 网页版默认就是 Sonnet。这是 Anthropic 的门面,是拉新用户的第一印象。
如果 Sonnet 变蠢了,用户会立刻流失到 GPT 或者其他竞品。但 Opus 用户呢?都是付费的重度用户,粘性高,不容易走。
2. Opus 被当成实验田
付费高级用户反而成了小白鼠。新功能、成本优化,都先在 Opus 上试。试出问题了,再调整。
3. 那个旧版 Sonnet 没被改过
2025 年 5 月的 Sonnet 4 可能是"纯净版",没有加入后来的"自适应思维"和各种优化。它就是老老实实按照原来的方式跑,反而保持了最好的性能。
有时候"不更新"是最好的更新。
我们能做什么?
作为用户,能做的不多,但不是完全没有。
用脚投票是最直接的反馈。
如果你觉得 4.6 不好用,就切换到 4.5。Anthropic 会看到用户的选择。当越来越多人手动切换旧版本,他们自然会知道问题在哪。
但更根本的问题是:AI 公司需要更透明的变更日志。
现在这些"优化"都是静默进行的。用户只能通过体感去猜"是不是变蠢了",然后上网搜索、看社区讨论、做对比测试……
这本不该是用户的责任。
如果 Anthropic 能公开说"我们在 3 月把默认推理等级从高调到了中",用户至少知道发生了什么,可以自己决定要不要改回去。
信任建立在透明之上。
我理解 AI 公司有成本压力,有技术限制。但至少告诉用户发生了什么。不要让我们自己当侦探。
写这篇文章的时候,我一直在想一个问题:
当你发现你信任的工具在悄悄变差,你会怎么做?
换一个工具?忍着继续用?还是像我一样,花几个小时研究到底发生了什么?
也许这就是 AI 时代的新常态。工具在变,平台在变,游戏规则也在变。唯一不变的是:你得保持警觉,不能闷头用。
用 AI 的人分两种:一种是被 AI 用的人,一种是用 AI 的人。
区别就在于:你知不知道它在干什么。