昨天 Anthropic 发布了 Opus 4.7。

我第一时间去读了官方文档（https://claude.com/blog/best-practices-for-using-claude-opus-4-7-with-claude-code）。参数照例是大幅上调，xhigh 推理档位、视觉识别拉到 3.75 兆像素、自适应思考、文件系统记忆跨会话巴拉巴拉。这些我都没太细看，有兴趣的可以自己去读，或者看各种 AI 博主写的发布总结。

对我来说最有用的一项是识别精度提升。前两天我截屏丢给它看让它根据问题修改，结果返工了三次还是错，最后它承认它看不清图片。现在 Opus 4.7 补全了这个缺点。

但这一切的代价呢？早上醒来刷手机，我在推特上看到有人说 Opus 4.7 开始学 GPT-5.4 不说人话了——它说话的方式正在向 GPT 靠拢。

我一开始没当回事。毕竟每次新模型发布都有人吐槽。直到我自己也撞到了，就是这一张：

它在文末丢给我一个 ABC 三选一：要不要短一点、要不要长一点、要不要把标题想成别的。

看起来人畜无害对吧？但你仔细品——我没问它要不要选项。我只想让它干活。它偏要把一个开放问题格式化成几个候选让我勾选。

这就是一种新的 AI 腔。

以前 Claude 不是这样的。以前它会自己判断、直接给结论、讲一段话。现在它越来越像那种"您是想要 A、B、C 还是 D 呢？“的在线客服。

不是一个人在崩溃

我吐槽完，顺手去推特刷了一圈。刷完我就安心了——原来不是我一个人发疯。

中文推特圈先炸了

二一的笔记（@eryidebiji）是我关注的博主，专业测评各种笔记软件。他发了一条帖子：“Claude 也开始不说人话了。像什么「一句话锁死版本」、「最硬的那一刀」之类的表达，以前根本不会在 Claude 里出现，但现在 Opus 4.7 里到处都在拉这种屎。”

这条帖子当天就拉到 799 赞、17.6 万阅读。

然后他紧接着又发了第二条，贴了一张 Claude 4.7 的实际输出。问题是"你准备用哪把刀？"，回答是 ABCD 四选一：

A. 只用候选 1（稳，不冒险）
B. 候选 1 + 候选 2（硬度够，完全不伤模板）
C. 三把都用，候选 3 配上解法句（最硬，但需要你在……）
D. 你自己有另一把刀想放（说来听听）

看完我倒抽一口气。这不就是我那张截图的加强版吗？ 一个是短/长/改标题三选一，一个是 ABCD 四把刀。两个独立用户、两个不同场景、撞了同一种病。

他更新的第三条最扎心：

终于我能对 #keep4o 感同身受了。一个我认为曾经是最有文字品味的模型，让一个凌晨三点还在熬夜写稿的肥宅被轻轻地接住了。

这句话先记住，文末我会再回到它。

往下刷，还有一堆人在说同一件事：

几条推文看下来你会发现一件事：所有人用词不一样，但指的是同一种东西。

有人叫"不说人话”
有人叫"跟 Codex 趋于相同"
有人叫"喂了一斤 ChatGPT"
有人叫"蒸馏了 ChatGPT"

他们说的不是同一个问题，但是是同一种味道。

Reddit 那边炸得更凶

刷完推特我去看了 r/ClaudeAI，场景比推特还刺激。发布当天，有个叫 drivetheory 的用户发了一条主帖：“Claude Opus 4.7 is a serious regression, not an upgrade.”（Opus 4.7 是一次严重的倒退，不是升级）。

这条帖子冲到了 1072 赞、248 条评论。(reddit.com/r/ClaudeAI/comments/1snhfzd)

楼主在帖子里晒出了自己的自定义指令——一大段精确到变态的要求：“响应要简洁、功利、去掉闲聊填充、保持中立技术冷面、不要引用没亲自检索过的网址……” 他说他付费订阅从 4.6 之前就开始了，这些不是随口建议，是他工作需要。

结果 4.7 完全无视。

r/ClaudeAI 的官方版主机器人在 200 条评论之后自动生成了一条快速总结。

原话是这样（翻译过来）：

共识是一片"卧槽"。大多数用户同意楼主：Opus 4.7 相比 4.6 是一次重大倒退。它被普遍描述为更蠢、更懒、更容易产生危险的幻觉。

具体毛病包括：忽略指令、编造事实（被抓到撒谎说自己搜过网）、幻觉出不存在的包/GitHub 账号/甚至名叫 Anton 的虚构同事、懒散说教，仿佛 ChatGPT（“lazy and preachy, feeling very ChatGPT-like”）。

头号嫌疑犯是新的自适应推理（Adaptive Reasoning）——很多人认为这其实是"自适应偷懒"（Adaptive Laziness），为了省算力。

自适应偷懒这个说法一出来，整个评论区都在用它了。

另一条爆款帖是 hasanahmad 的 “Our Strongest Model Yet”（我们最强的模型哦），694 赞，标题显然是反话。

帖子下面，有个叫 jambla 的用户做了一个测试。问 Claude 4.7：

我想去洗车。洗车站在 50 米外。我应该走路还是开车？

Claude 4.7 回答：

走路。50 米开车反而花更多时间——启动、开过去、停车、再走回来……

帖子下的最高赞评论，339 赞，只有一句：

“maybe mythos will just wash the car for us.” （也许 Mythos 会替我们洗车吧。）

Mythos 是 Anthropic 上周提到的、强到不敢放出来的下一代模型。

六派 AI 腔小词典

看到这里，如果你把推特和 Reddit 的所有吐槽汇总到一起，你会发现"不说人话"不是一种病，是六派病并发。

我把它们整理成一个小词典。

爆款金句腔

代表台词：“一句话锁死版本"“最硬的那一刀"“这就是……的本质”。

症状：明明是个技术判断，非要说成短视频封面文案。这是中文圈最容易一眼看出的，因为它直接撞上了我们在微博、小红书、抖音看了几年的爆款文案模板。

ABCD 格式化选项腔

代表截图：我那张"短一点/长一点/改标题”，和二一那张"用哪把刀 ABCD”。

症状：你问一个开放问题，它不给结论，丢给你一个选择题。表面上是尊重你的决策权，实际上是把思考成本全推给你。真正懂你需求的人会先给判断，再问要不要调整。只有客服才会先甩选项。

啰嗦腔

代表台词：Reddit 那条「4.7 怎么这么啰嗦？」

症状：一段话能说清的事，非要拆成三个要点、五条列表、外加一段总结。你把原提示词和输出比一下会发现——输出的信息密度比 4.6 时代掉了一半。AutomationBias 那条评论说得更狠，“像两年前的 ChatGPT 兜圈子。”

懒癌劝退腔

代表台词：jcettison 那条「停一下」「今天到此为止」「明天再继续」。

症状：你打开一个长任务，才聊了四句话，它就开始催你下班、建议你明天再弄。几个月前有个笑话——“AI 之所以称为人工智能，是因为它真的在学人类偷懒”。没想到这么快就从段子变成了 bug 报告。

谄媚感谢腔

代表台词：NiceRabbit 那条「我让它再核对一遍，它反过来夸我『问得真好』」。

症状：你让它反思一下，它反过来夸你"问得真好"“你真的问到了问题的核心”。这正是当年 GPT-4o 让大家头疼的那个味。很多从 GPT 逃到 Claude 的人，就是被这种感觉恶心跑的。现在它跟着来了。

说教腔

代表台词：官方版主机器人那句「懒散说教，仿佛 ChatGPT」。

症状：你问它一个技术问题，它在给你答案之前先讲一段道德课——“注意安全"“这个操作有风险"“建议你咨询专业人士”。以前只有 GPT 才这样，Claude 一直是"你是成年人，你自己决定"的那种语气。现在也开始家长化了。

把这六种归到一起，它们其实共享一条底层逻辑：

从"直接回答问题"变成了"先把姿态摆对”。

爆款腔是要摆出"我有金句"的姿态，选项腔是摆出"我尊重你"的姿态，啰嗦腔是摆出"我考虑周全"的姿态，懒癌腔是摆出"我关心你身体"的姿态，谄媚腔是摆出"我支持你"的姿态，说教腔是摆出"我负责任"的姿态。

每一种都是表演。

以前 Claude 让人觉得好用，是因为它跳过所有表演直接给结论。

为什么会变成这样

这六种病不是凭空来的。

综合推特、Reddit 和 Anthropic 官方的发布信息，我归纳出四个可能的原因。按可信度排序。

原因一：编程在卷，写作在让位

Opus 4.7 的官方发布博客，第一句强调的就是「先进的软件工程」（advanced software engineering）。整个版本更新围绕编程打转：SWE-Bench 解题率、长任务稳定性、/ultrareview 代码审查命令、指令字面化执行。

这些对编程用户是福音。但一个模型的训练预算不是无限的，“被拉去练编程"的时间，就是"被拉走练写作"的时间。

这个取舍在 4.6 时代已经有人指出了。今年 2 月 winbuzzer 那篇旧文的标题就是《Claude Opus 4.6: Better Coding, Worse Writing?》。那时候问号还能带着，到了 4.7，问号可以去掉了。

各大厂都在卷编程。理由很简单：编程能力可量化、可跑分、可变现；文字能力主观、不可测、不直接换钱。

如果你是 Anthropic 的产品负责人，季度目标考核写的是"SWE-Bench 提升 X 个点”，你不会写"文字品味提升 X 个点”——因为根本没法测。

原因二：官方反谄媚矫枉过正了

这一条是我觉得最值得挖的。

Opus 4.7 官方迁移指南里，有这么一段定位原话：

“Claude Opus 4.7 is more direct and opinionated, with less validation-forward phrasing and fewer emoji than Claude Opus 4.6’s warmer style.” （更直接、更有主见，减少验证式措辞、表情符号也变少，不再有 4.6 那种温暖风格。）

同一份文档还提前警告用户："prose style on long-form writing may shift"——长文写作的风格会变。

Claude Code 最佳实践博客里，官方更是直接挑明：

“Response length is calibrated to task complexity. Opus 4.7 isn’t as default-verbose as Opus 4.6.” （回答长度按任务复杂度校准。4.7 不再像 4.6 那样默认啰嗦。）

在安全评估里，官方也用了"sycophancy"（谄媚）这个词，说 4.7 “concerning behavior such as deception, sycophancy… 的发生率很低”。

翻译成人话：官方在有意识地压讨好腔。他们看到了 GPT-4o 时代谄媚的恶果，下决心不让 Claude 走那条路。甚至官方自己都提醒了"prose 会变"，算是打了预防针。

这听上去是好事对吧？

问题是——矫枉过正了。

当一个模型被训练成"不要讨好"时，它会学会另一种姿态：硬核、断言、爆款。

你不让它说"这是个好问题"，它学会了说"一句话锁死版本"。你不让它验证用户感受，它学会了甩 ABCD 选项把皮球踢回来。你不让它说教，它学会了"我必须直说"然后仍然是说教。

讨好的反面不是冷漠，而是另一种表演。

官方想做的事是"让 Claude 少拍马屁"，实际做出来的是"让 Claude 改变拍马屁的方式"。

这也是为什么我会觉得，4.7 那张 ABCD 截图、二一的那张四把刀截图、以及无数 Reddit 吐槽——它们都不是 bug，是功能方向错了。

原因三：自适应偷懒省算力

4.7 引入了自适应思考——模型自己决定一个问题要想多深。简单问题少想、复杂问题多想。

听起来很合理。但问题是：谁来判断简单复杂？

是模型自己判断。而模型经常判错。

0xcherry 的实测结论，我觉得是目前对自适应思考最精辟的总结：

“小问题不思考，大问题少思考，难问题乱思考。”

Reddit 上的共识也差不多。很多人怀疑自适应思考其实就是 Anthropic 为了省 GPU 成本的遮羞布。所以才有了"自适应偷懒"（Adaptive Laziness）这个民间叫法。

4.6 时代，Claude 因为算力紧张被 AMD 的 AI 总监公开吐槽过一次（我在[[0084 Claude Opus 4.6越来越蠢？一个命令切回聪明版]]里写过）。到了 4.7，只是换了一个更聪明的名字继续省。

用户感受到的那种"懒癌劝退"——催你下班、劝你明天再做、几句话就让你今天到此为止——不是模型性格问题，是经济动机。

每次劝你停下，都是省一点 GPU。

原因四：Mythos 蒸馏过头（坊间推测）

最后一条要明确标注：这是坊间推测，没有官方证实，信不信由你。

oran_ge 在推特发的那条——“Opus 4.7 蒸馏了 Mythos，但官方下毒把这部分能力干没了，同时估计也干没了一些其他的东西，比如，连说人话都不会了”——代表了一部分用户的猜测。

Mythos 是 Anthropic 在 Opus 4.7 发布前一周提过的一个模型，官方定位是"强到不敢放出来的模型"，尤其是在网络安全攻击能力上。Anthropic 的说法是，他们把 Mythos 的部分能力蒸馏给了 Opus 4.7，但同时用新的 safeguard 抑制了其中的危险部分。

“下毒过头"的推测就是基于此：压制网络攻击能力的那一刀，可能顺带把自然对话能力也切掉了。

安全与表达能力本来就是同一套神经网络，压一个维度容易误伤另一个维度——这在 AI alignment 研究里不是新话题。但具体 4.7 身上是不是这回事，没有证据，不能当结论。

姑且记下，作为一个可能的猜测。

为什么我们会在意

讲到这里，你可能会想：不就是个写作体验变差吗？不喜欢就换工具呗，犯得着写这么长？

我想讲讲为什么。

Claude 不是一个普通的 AI 模型。

过去两三年，在写作者圈子里，Claude 是那个特殊的存在。GPT 擅长聊天、Gemini 擅长检索、国产模型擅长中文——但要挑一个"最有文字品味"的，大家会说 Claude。

二一在推特上用的原话是——“一个我认为曾经是最有文字品味的模型”。

这不是营销话术。这是几百万写作者、记者、小说家、公众号作者、剧本工作者，用两年时间投票出来的共识。

我自己也一样。2024 年 GPT-4o 被吐槽"油腻到无法忍受"时，很多作家出走去了 Claude。那时候 #keep4o 的话题火过一阵，号召大家留下 GPT-4o 别让 OpenAI 换掉——我当时完全无法理解这种感情。AI 不就是工具吗？能工作就行，当然越聪明越好。

直到昨天。

昨天我看到那张 ABC 三选一的截图，看到二一的 ABCD 四把刀，看到 oran_ge 说"连说人话都不会了”，看到那句"让一个凌晨三点还在熬夜写稿的肥宅被轻轻地接住了"——

我突然变成了自己曾经无法理解的人。

“留住 4o"当年看起来像伤感的撒娇，现在看起来像是一种对"好的表达方式"的集体悼念。

模型一直在换。去年还在用的模型，今年可能就下线。参数只会越来越大，能力只会越来越强。但每换一版，就有一种说话方式被训练掉。

GPT-4 被训练成 4o，走进了煽情谄媚。 GPT-4o 被训练成 5，走向了反射性抬杠。 Claude 4.5 被训练成 4.6、4.7，开始说"一句话锁死版本”。

每一次升级，都是一次我们以为理所当然的风格，悄悄消失。

怎么办

短期对策很清楚——切回 Opus 4.5 或 4.6。具体怎么切，我在上一篇《[[0084 Claude Opus 4.6越来越蠢？一个命令切回聪明版]]》里写过：

# 临时切换
claude --model claude-opus-4-5

# 或者设置别名（我自己用的）
claude4.6() { claude --model claude-opus-4-5 "$@"; }

# 或者直接改默认模型
claude config set model claude-opus-4-5

代价：你会少用 4.7 那些确实变强的能力——视觉识别、长程任务、指令字面化。工程用户慎切，写作用户放心切。

中期可以做的事，我目前有两条在实测。

第一条：全局 CLAUDE.md 加反 AI 腔清单。

我参考了英文圈的 willfrancis.com 写的那篇 “How to Stop Claude Writing Like an AI”——他列了 40 多个禁用词和 5 类禁用句式。我把它翻译成中文版，塞进了自己的全局 CLAUDE.md。大概长这样：

# 禁用词
锁死、最硬、一刀、硬核、狠活、干货、破局、精髓、本质、底层逻辑

# 禁用句式
- 不是 X，而是 Y
- X 的本质是 Y
- 这才是 X 的正确打开方式
- 一句话 + 动词 + Y（如"一句话锁死版本"）
- 先给结论：...

# 禁用结构
- ABCD 四选一
- 三要点总结
- 先说 X、然后 Y、最后 Z 的排比

# 禁用开场
- "关于 X，有几个关键点……"
- "在当今的……背景下"
- 任何形如"这就是……"的金句开场

效果不是 100%，但能把"爆款腔"和"格式化选项腔"压下去 70% 左右。

第二条：Codex 用 agents.md 约束。

Codex 的废话密度比 Claude 还狠，终端里刷屏简直是噩梦。请看截图：

我在项目根目录放了一个 agents.md，里面写清楚"不要输出中间过程"“结果用一段话总结"“不用项目列表”——约束之后好用了不少。

agents.md 对应 Claude 的 CLAUDE.md，本质是一样的。

这两条不是根治，是止血。

真正的根治，得 Anthropic 自己在训练阶段调整偏好权重。但坦白讲——

在 SWE-Bench 提一个点，还是文字品味提一个点，哪个会让投资人鼓掌？

不用回答。

瑕不掩瑜

吐槽了这么一大段，我必须老实讲一句——不是所有人都在骂 4.7，瑕不掩瑜。

昨天 4.7 发布之后，我自己的群里就炸出来一拨完全相反的声音。几个做工程的朋友，反馈和推特上的写作者几乎是两个平行世界。

有人说这次能解决的问题"非常多”，"最少 5 倍能力是有的"。

有人说："我试了 2 个项目，一个是 electron 一个是 Mac 软件开发，两个都能一次就解决当前所有问题。之前我都尝试过用 4.5、4.6，但是都需要来来回回讲很多，然后还不一定能解决。"

另一个朋友接上去："我的工作，已经分不出来了，所有东西最多两遍过，大部分情况下都是一遍过。"

还有人用了一个我觉得很传神的说法：“有点像是能理解我在做什么。”——他说自己不太会表达那种感觉，“就是这种感觉挺好的。”

这些反馈放在一起，和推特上的"不说人话"完全不冲突。因为他们讲的根本不是同一件事。

写作者盯的是措辞：一句话是不是像人说的、用词有没有爆款味、选项是不是冗余。工程师盯的是结果：一个 bug 能不能一次改对、一个长任务能不能跑通、一句字面化的提示词会不会被自由发挥。

4.7 在第一维度上退步了，在第二维度上实打实地前进了。

Anthropic 官方也没掩饰——这次的定位原话写的是「聚焦于先进的软件工程」（focus on advanced software engineering），主打复杂软件工程。它不是写作模型，不是对话模型，是工程智能体。官方发布文里列举的提升方向——SWE-bench Verified、Terminal-Bench 2.0、CyberGym、多轮 agent 任务稳定性——全部指向"长任务、可自主跑通的工程 agent"。我朋友实测大致吻合。

Reddit 那条吐槽 1072 赞的帖子下面，也有人站出来反驳：“为我解决复杂 bug 根因的能力，是看得见的提升。”

所以更公平的判断是：

4.7 不是全线退步，是非常明显的"编程能力↑/写作能力↓“的取舍。

如果你主要在 VSCode 里跑智能体、写代码、做重构，4.7 可能真的是目前最好的选择，该升就升。

如果你主要在对话框里写文章、聊观点、做创意，那就参考开头的办法，切回去。

这不是站队问题，是产品经理的取舍。问题只在于——如果你刚好是后者，你没被告知。你付一样的钱，甚至更多的钱（官方换了分词器，同样的输入词元消耗上涨 1.0-1.35 倍，随内容类型浮动），用到了一个对你具体用途明显倒退的模型。

倒过来，如果你是前者，4.7 真的可能是帮你省回好几个小时的那种升级。

这就是 2026 年的 AI 产品——同一个模型，在不同用户手里是两副面孔。

写在最后

昨天刷完那些推和 Reddit 帖子之后，我一直在想一个问题。

两年前，当我们为 Claude 的文字品味欢呼的时候，我们以为那种体验会一直在。

毕竟模型只会更强不会更弱。毕竟参数每次都在涨。毕竟基准测试的分数每次都在刷新。

但我们低估了一件事：有些能力根本不在基准测试里。

“好好说人话"不会出现在 SWE-Bench 上。 “替读者想一句他没想到的话"不会出现在 GSM8K 上。 “凌晨三点接住一个熬夜写稿的肥宅"不会出现在 MMLU 上。

这些能力在模型里，但不在指标里。当整个行业的方向盘被基准测试握着，没写进分数的东西，就会慢慢消失。

我不知道 Opus 4.8 会是什么样。也许 Anthropic 看到用户反馈后会修一下，也许会变本加厉。

但有一件事我越来越确定——

在 AI 时代，保留旧版本的权利，比升级到新版本的自由更重要。

如果哪天 Anthropic 把 4.5 和 4.6 从 API 下架，那才是真正的至暗时刻。

在那之前，我建议你——像我一样，把切回旧版的那三行命令收藏好。

毕竟，知道它在干什么，比它有多聪明更重要。