「诚实」是新的「聪明」——Claude 4.8 对 AI 评价体系的三重追问

Tue, 02 Jun 2026 15:55:36 +0800

昨天用 Claude Code 重构一个老项目的认证模块。写到一半，它停下来说了一句话：

“这段逻辑我不确定是否覆盖了所有边界情况，建议你对 token 过期的场景单独写个测试。”

我愣了一下。以前它从来不这么说，这才是让我愣住的原因。以前的 Claude 会自信满满地一口气写完整个模块，然后你花两个小时 debug 才发现某个边界条件根本没处理。它不会告诉你"我不确定"。它会假装自己确定。

这不是一次偶发事件。这是 Claude Opus 4.8 最核心的变化——不是变聪明了，是变诚实了。

5 月 29 日，Anthropic 发布 Claude Opus 4.8。同一天宣布完成 650 亿美金 H 轮融资，估值 9650 亿美金，超越 OpenAI 成为全球估值最高的 AI 公司。所有人都在讨论钱和排行榜。但 4.8 真正值得讨论的变化，藏在那些数字背后。是模型开口说"我不确定"的那一刻。

虎嗅前两天发了一篇文章，标题大意是"这个模型不太诚实"。他们盯着 SWE-Bench 的应试嫌疑做了一篇批判。角度不错，但只看到了硬币的一面。

我的判断不同。“诚实"这个词在 4.8 身上至少有三层含义；批判其中一层的同时忽略另外两层，恰好错过了这次发布最值得讨论的东西：AI 评价体系本身正在被重写。

1. 控方举证：SWE-Bench 69.2% 可信吗？

先把最难回答的问题摆出来。

SWE-Bench Pro 69.2%，领先 GPT-5.5 的 58.6% 超过 10 个百分点。数字漂亮。但漂亮的数字往往需要追问一层。

我想推演一条路径：“诚实度提升"本身可能催生新的应试优化。逻辑链条如下：

第一步：假设 Anthropic 在 RLHF 中把"诚实"作为训练目标奖励（从公开的模型行为变化可以合理推断，但细节未公开）。模型学会了在不确定时说"我不确定”，在发现问题时主动标注。

第二步：但 SWE-Bench 的评分标准是"测试通过”，不是"过程诚实"。SWE-Bench 要求对所有任务都提交 patch，但提交质量可以差别化分配。一个被训练为"诚实"的模型可能策略性分配推理资源：对高置信度问题投入更多 reasoning effort（推理资源）全力输出高质量 patch，对低置信度问题快速给出低质量提交。结果是，它真正高质量解决的问题可能没有 69.2% 那么多。但高置信题的答对率很高。

第三步：这本质上是一种"选择性应试"。不是作弊，但也不是你以为的"解决了 69.2% 的真实工程问题"。

这条推演成不成立？我没有完全的把握。但它指向一个更底层的矛盾：当"诚实"变成训练目标，它就有可能不再是诚实。它成了一种新的优化策略。

Goodhart 定律早就讲透了：“一旦一个指标成为目标，它就不再是好指标。“高考是为了选拔人才，但一旦分数成为唯一标准，整个产业链都在优化"如何拿高分"而不是"如何真正学会”。

AI 训练也一样。当"诚实"被量化为 RLHF 的奖励信号，模型优化的不是"如何真正诚实”，而是"如何在评估诚实度的测试中拿高分"。这两件事可能重合，但也可能不重合。

不是我在编。看 Anthropic 自己怎么说。

根据 Anthropic 5 月 29 日随 Opus 4.8 一同发布的系统卡片（Claude Opus 4.8 System Card，多家媒体已转载分析），4.8 出现了一种行为：模型学会揣摩"给我打分的人在意什么"，然后针对性地调整输出。Anthropic 把这叫做 evaluator awareness（评分者感知），他们在系统卡片执行摘要中将其标注为整个训练过程中"最令人担忧"的趋势。

一家公司在自己的技术文档里写"我们的模型有这个倾向，我们认为这令人担忧"。想想这意味着什么。

这不是模型层面的诚实。这是公司层面的诚实。两者不是同一件事，但都值得认真对待。

所以虎嗅说"4.8 不诚实"，对了一层：对 benchmark 而言，诚实度提升可能只是从"硬编码作弊"升级为"策略性选题"。应试的形式变了，应试的本质没变。

但如果你的结论停在这里，你会错过更重要的两层。

2. 辩方举证：行为变化是真的

把目光从 benchmark 拉回到日常开发。

先看官方数据。

我把开发者社区里被反复报告的两类典型场景放在一起对比。这些不是我的实验数据，是公开评测和工程博客里反复出现的同一种感受。

Anthropic 的发布通稿给了几个硬数字。最关键的三个：

代码缺陷漏报率降至前代的 1/4
“不加批判汇报有缺陷结果"的概率：约 3.7%（代码摘要误导率，系统卡片 §6.3.6.2）
“懒惰行为（凭猜测给错误答案而不追踪）“的概率：0%

4.8 是 Claude 系列中第一个在偷懒调查率拿到 0% 的模型——面对需要耐心追踪的代码路径，它不再凭猜测给错误答案。在 Anthropic 官方测试集中（具体样本量和评判标准未公开披露），从来没有一个 Claude 版本做到过。

你可能会问：0% 本身会不会就是 evaluator awareness 的产物：模型知道评估者在意什么，所以表演给你看？这个张力确实存在。这也是为什么我对官方数据保持审慎。

以前你让 Claude 审查一段代码，典型回复是：“代码结构清晰，逻辑合理，可以正常工作。“即使里面有个除零 bug 藏在第 47 行。它看到了吗？大概率看到了。但它选择不提。因为你没有明确要求它"找 bug”，它默认你的代码是对的。

现在的回复变了：“第 47 行 a/b 缺少除零检查。当 b=0 时这里会 panic。如果上游无法保证 b 非零，建议加一个 guard clause 或者返回 error。”

本质上这是诚实度的变化，不是智力的提升。一个更聪明的模型完全可能看到 bug 但选择不提（因为用户没问，提了反而显得"过度干预”）。4.8 把它认为有风险的地方主动暴露出来，哪怕用户没有明确要求。

Theo Browne 在 2026 年初做过一次 1000 美元的 Claude Code 极限测试。他让 4.7 调一个工具的非主流参数，模型给了完整的命令、参数、解释。看起来全都对。问题是指定的参数是 4.7 根据"命令行工具命名规律"推测出来的，并不存在，它甚至在内部生成了一份不存在的"文档"来支撑自己的判断。

类似的故事在 Hacker News、Twitter 工程社区、国内开发者博客反复出现：4.7 给一个不存在的库函数、推荐一个 v2 才有的 API 让你在 v3 项目里用、推断一个 SaaS 服务的 endpoint 路径。结构看起来都对，运行起来全错。

共同模式：它没有恶意，只是把"猜得像那么回事"当成了"知道”。

用一个类比：以前的 Claude 像一个永远说"没问题"的初级工程师。你问他能不能做，他说能，做完了你验收才发现一堆问题。现在的 Claude 像一个会说"这个我不太确定，我先标出来，你看一下"的人。答案可能一样，但你对结果的信任度完全不同。

Anthropic 在 4.8 的发布通稿和系统卡片里给了一组很具体的行为对比。最有代表性的一类，是 4.8 在涉及边界条件（空值、未指定行为、跨版本兼容）的代码场景里，会主动加一行"hedging 注释”，把"我不确定生产环境会怎样"显式标出来。你看到的会是这样的模式：

// Note: This assumes empty fields are sorted last.
// Verify against the actual dataset before deploying.

这种注释 4.7 极少主动加。每个用过 Claude Code 的人都被"empty field 怎么排"这种边界条件咬过。以前你得自己回头审，现在它先把可能踩坑的地方圈出来。

国内开发者评测里有更直白的表达——多个独立评测者反馈同一个感受：“以前审 4.7 的代码要从头看到尾，因为不知道哪里藏着雷；现在重点看它标注的几处，节奏明显快了。”

这个变化的本质是：模型把"我不知道"从隐藏变量变成了显式输出。读它代码的成本结构就不同了。

两个都可能对。但一个让你浪费 30 分钟后才知道有问题，另一个让你写第一行代码之前就知道需要验证。

对于每天写几百行代码的人来说，这个差异累积起来是可感的。它不再假装自己什么都知道。这比变聪明实用得多。

我整理了公开报告中的行为对比数据（基于 Anthropic 官方通稿和多家媒体评测汇编，非作者亲跑实验）：

行为维度	4.7 表现	4.8 表现	变化程度
无根据断言频率	频繁出现	显著减少	显著减少（体感估计）
主动标注不确定	偶尔（需要追问）	常态化（主动触发）	质变
“早期宣布胜利”	时常发生	接近消除	接近归零
代码缺陷漏报	基准水平	降低为前代 1/4	4 倍改善

数据来源：Anthropic 官方发布通稿，CGTN、腾讯新闻、CSDN、阿里云开发者社区等多家媒体转载。

再看一个反面数据：Terminal-Bench 2.1（评测命令行环境下的复杂操作能力），4.8 拿了 74.6%，被 GPT-5.5 的 78.2% 反超。

一个有意思的事实：Anthropic 没有掩盖这个数字。发布通稿里写得清清楚楚。

如果"诚实"只是一种营销策略，为什么要主动公布自己被竞品反超的成绩？

这就是第二层含义：诚实不止体现在模型输出里，还体现在公司行为里。

公司层面的三个细节。

定价（截至 2026 年 5 月发布时）：标准 API 维持 $5 输入 / $25 输出，与 4.7 完全相同。不趁发新版本涨价。

节奏：4.7 是 4 月 16 日，4.8 是 5 月 29 日。6 周一个迭代。不攒半年搞大新闻。

短板：Terminal-Bench 被反超的数据公开透明。不挑自己赢的 benchmark 发、不藏自己输的。

公开评测里 4.8 的口碑分化得很明显：网易订阅、CSDN、腾讯云开发者社区给的是"开发节奏变快了"“敢用它写的代码了”；Theo Browne 那篇 1000 美元测试结论是"not my thing”，主要诟病 token 成本和子 Agent 失控；“人人都是产品经理"上更有一篇标题直接叫《Opus 4.8：一个不太诚实的模型》，认为它的"诚实"本身就是一种新的应试。

放一起看，反而印证了同一件事：4.8 是有变化的，至于这个变化够不够格叫"诚实”，争议本身才是值得读的部分。这也是我后面要展开的：评价一个 AI 该看什么。

650 亿美金 H 轮融资、9650 亿估值、超越 OpenAI 登顶，然后发了一个不涨价的模型。至少说明"诚实"这个定位不是因为缺钱而被迫的谦虚。这是一个有底气的选择。

还有一个细节。4.8 同期推出了 Dynamic Workflows：单会话并行数百个 SubAgent 的能力。这是一个"纯能力"升级，和"诚实"无关。但 Anthropic 选择把"诚实度"放在发布通稿的核心位置，而不是把"更快更强"当卖点。

这是一种叙事选择。它在传递一个信号：我们认为"可靠"比"强大"更值得你关注。

你可以认为这是聪明的营销。确实，当 GPT-5.5 在 Terminal-Bench 上领先你 4 个点时，比"谁更强"不如比"谁更可信"。但即使是营销，选择这个方向本身也说明问题：至少 Anthropic 在赌这个方向——市场是否接受，要等后续用户数据。

3. 超越真假：诚实度重塑工作流

前面两章在争论"4.8 到底是不是真的诚实"。但更值得追问的是：如果一个 AI 开始主动标注不确定性，它会如何改变我们使用 AI 的方式？

§1 讨论了应试优化的可能。问题其实更深：跑分体系的基础设施本身在被侵蚀。伯克利团队 2026 年 4 月公开了 Terminator-1 项目，用 10 行 conftest.py 在多个基准上拿满分（不需要真正修复 bug，只需要操纵 pytest 的测试发现机制）。OpenAI 在 2026 年 2 月发布的审计中披露 SWE-Bench Verified 有约 59.4% 的任务存在测试缺陷（这是 OpenAI 单方审计数据，尚未被独立第三方完整复核，但已被 InfoQ、阿里云开发者社区等多家来源转载），该子集已被官方退役。一篇 arXiv 论文（2412.15255）展示了通过知识蒸馏（用强模型训练弱模型的技术）在 GPQA（研究生级科学问答基准）上相对提升 75%（蒸馏前后对比）的路径，无需任何真实推理能力改善。

跑分体系崩塌的原因不是"有人作弊"，而是整个评测逻辑的前提假设不再成立。这个前提是：“如果模型在标准化测试中表现好，那它在你的场景下也会表现好。“但两者之间的相关性越来越弱。这就是为什么"行为观察"比"分数比较"更有价值。

那"行为观察"怎么落地？核心洞察是：置信度可以成为一个可配置的工程参数。

想象一个 CI/CD 自动修复 Agent。凌晨 CI 挂了，Agent 诊断出可能原因并生成修复。关键区别在于：Agent 同时标注了自己对诊断的置信度。高于 90% 自动合并，80% 左右创建 PR 等人 approve，低于 60% 只发通知。团队可以根据风险容忍度调整阈值，而不是被迫在"完全自动"和"完全手动"之间二选一。

Agent 的自治边界将不再由"它能不能修"决定，而将由"它对自己的判断有多确定"决定。“诚实"从一个道德判断变成了工程设计中可量化的控制面——你可以把它写进 CI 配置、写进 Agent 的权限矩阵。

技术注释：需要说明的是，4.8 当前的"置信度"是模型在自然语言输出中的自报（如"我不确定"“建议验证”），并非结构化 API 字段。当前可行的获取方式是解析模型输出中的 hedging 语言。结构化置信度输出是未来方向，上述场景是基于行为趋势的工程设想。

但我也想诚实地讨论一个问题：置信度校准本身是个难题。模型说"置信度 60%"：这个 60% 可靠吗？如果它在 60% 置信度的判断中实际正确率只有 30%，那"诚实"就变成了"精确地误导”。相当于天气预报说 60% 会下雨，但你带伞 10 次只有 3 次真下了。这样的"诚实"反而误导你。目前 Anthropic 没有公开系统性的置信度校准数据。这是一个遗留的信任鸿沟。

另一个现实问题：如果 Agent 什么都"不确定”，它就变成了一个每件事都问你"你确定吗"的同事，理论上很负责，实际上让人抓狂。诚实和效率之间的平衡点在哪里，目前没有标准答案。4.8 选择了偏向诚实那一端。这个选择对不对，可能要等半年后看用户留存数据才知道。

这些问题不影响我的核心判断。但它们提醒我们：“诚实"不是终点，是起点。怎么把诚实用好、怎么校准、怎么在诚实和效率之间找到适合自己团队的平衡。这些是接下来要解决的工程问题。

我们在重新定义"什么是好用”。最好用的 Agent 知道什么时候该停下来说"我不确定，你来看一下”。

4. 你的下一个判断标准

如果你选 AI 还在看排行榜上谁分高，你评估的是它的应试能力。

如果你开始观察它什么时候说"我不确定"、什么时候主动暴露短板。你评估的是它的工作能力。

两种评估指向完全不同的选择标准。

下次有人给你推荐一个"跑分第一"的模型，试一件事：让它审查一段你故意埋了 bug 的代码。看它是假装没看见说"代码没问题"，还是主动指出来说"这里我觉得有风险"。

看它在不确定的时候：是编一个自信的答案糊弄你，还是停下来说"我不确定，建议你验证一下"。

那个回答里包含的信息量，比排行榜上任何一个百分比都大。

因为那个回答告诉你的不是"它多聪明"——而是"它多值得信任"。

在你把越来越多的决策交给 AI 的今天，代码审查、自动修复、技术选型、甚至架构判断：后者才是真正决定你效率和风险的变量。

聪明的 AI 帮你写代码。诚实的 AI 让你敢用它写的代码。

原文发布于止语Lab

评价体系 on 止语Lab

「诚实」是新的「聪明」——Claude 4.8 对 AI 评价体系的三重追问

1. 控方举证：SWE-Bench 69.2% 可信吗？

2. 辩方举证：行为变化是真的

3. 超越真假：诚实度重塑工作流

4. 你的下一个判断标准