<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>评价体系 on 止语Lab</title>
        <link>https://www.wujiachen.com.cn/tags/%E8%AF%84%E4%BB%B7%E4%BD%93%E7%B3%BB/</link>
        <description>Recent content in 评价体系 on 止语Lab</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Tue, 02 Jun 2026 15:59:39 +0800</lastBuildDate><atom:link href="https://www.wujiachen.com.cn/tags/%E8%AF%84%E4%BB%B7%E4%BD%93%E7%B3%BB/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>「诚实」是新的「聪明」——Claude 4.8 对 AI 评价体系的三重追问</title>
            <link>https://www.wujiachen.com.cn/posts/claude-opus-48-release/</link>
            <pubDate>Tue, 02 Jun 2026 15:55:36 +0800</pubDate>
            <guid>https://www.wujiachen.com.cn/posts/claude-opus-48-release/</guid>
            <description>&lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/cover.png&#34; alt=&#34;Featured image of post 「诚实」是新的「聪明」——Claude 4.8 对 AI 评价体系的三重追问&#34; /&gt;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/cover.png&#34; alt=&#34;封面——诚实/聪明天平&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;昨天用 Claude Code 重构一个老项目的认证模块。写到一半，它停下来说了一句话：&lt;/p&gt;&#xA;&lt;p&gt;&amp;ldquo;这段逻辑我不确定是否覆盖了所有边界情况，建议你对 token 过期的场景单独写个测试。&amp;rdquo;&lt;/p&gt;&#xA;&lt;p&gt;我愣了一下。以前它从来不这么说，这才是让我愣住的原因。以前的 Claude 会自信满满地一口气写完整个模块，然后你花两个小时 debug 才发现某个边界条件根本没处理。它不会告诉你&amp;quot;我不确定&amp;quot;。它会假装自己确定。&lt;/p&gt;&#xA;&lt;p&gt;这不是一次偶发事件。这是 Claude Opus 4.8 最核心的变化——不是变聪明了，是变诚实了。&lt;/p&gt;&#xA;&lt;p&gt;5 月 29 日，Anthropic 发布 Claude Opus 4.8。同一天宣布完成 650 亿美金 H 轮融资，估值 9650 亿美金，超越 OpenAI 成为全球估值最高的 AI 公司。所有人都在讨论钱和排行榜。但 4.8 真正值得讨论的变化，藏在那些数字背后。是模型开口说&amp;quot;我不确定&amp;quot;的那一刻。&lt;/p&gt;&#xA;&lt;p&gt;虎嗅前两天发了一篇文章，标题大意是&amp;quot;这个模型不太诚实&amp;quot;。他们盯着 SWE-Bench 的应试嫌疑做了一篇批判。角度不错，但只看到了硬币的一面。&lt;/p&gt;&#xA;&lt;p&gt;我的判断不同。&amp;ldquo;诚实&amp;quot;这个词在 4.8 身上至少有三层含义；批判其中一层的同时忽略另外两层，恰好错过了这次发布最值得讨论的东西：AI 评价体系本身正在被重写。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;1-控方举证swe-bench-692-可信吗&#34;&gt;&lt;a href=&#34;#1-%e6%8e%a7%e6%96%b9%e4%b8%be%e8%af%81swe-bench-692-%e5%8f%af%e4%bf%a1%e5%90%97&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;1. 控方举证：SWE-Bench 69.2% 可信吗？&#xA;&lt;/h2&gt;&lt;p&gt;先把最难回答的问题摆出来。&lt;/p&gt;&#xA;&lt;p&gt;SWE-Bench Pro 69.2%，领先 GPT-5.5 的 58.6% 超过 10 个百分点。数字漂亮。但漂亮的数字往往需要追问一层。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch1-swe-bench-question.png&#34; alt=&#34;SWE-Bench 数据质疑&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;我想推演一条路径：&amp;ldquo;诚实度提升&amp;quot;本身可能催生新的应试优化。逻辑链条如下：&lt;/p&gt;&#xA;&lt;p&gt;第一步：假设 Anthropic 在 RLHF 中把&amp;quot;诚实&amp;quot;作为训练目标奖励（从公开的模型行为变化可以合理推断，但细节未公开）。模型学会了在不确定时说&amp;quot;我不确定&amp;rdquo;，在发现问题时主动标注。&lt;/p&gt;&#xA;&lt;p&gt;第二步：但 SWE-Bench 的评分标准是&amp;quot;测试通过&amp;rdquo;，不是&amp;quot;过程诚实&amp;quot;。SWE-Bench 要求对所有任务都提交 patch，但提交质量可以差别化分配。一个被训练为&amp;quot;诚实&amp;quot;的模型可能策略性分配推理资源：对高置信度问题投入更多 reasoning effort（推理资源）全力输出高质量 patch，对低置信度问题快速给出低质量提交。结果是，它真正高质量解决的问题可能没有 69.2% 那么多。但高置信题的答对率很高。&lt;/p&gt;&#xA;&lt;p&gt;第三步：这本质上是一种&amp;quot;选择性应试&amp;quot;。不是作弊，但也不是你以为的&amp;quot;解决了 69.2% 的真实工程问题&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;这条推演成不成立？我没有完全的把握。但它指向一个更底层的矛盾：当&amp;quot;诚实&amp;quot;变成训练目标，它就有可能不再是诚实。它成了一种新的优化策略。&lt;/p&gt;&#xA;&lt;p&gt;Goodhart 定律早就讲透了：&amp;ldquo;一旦一个指标成为目标，它就不再是好指标。&amp;ldquo;高考是为了选拔人才，但一旦分数成为唯一标准，整个产业链都在优化&amp;quot;如何拿高分&amp;quot;而不是&amp;quot;如何真正学会&amp;rdquo;。&lt;/p&gt;&#xA;&lt;p&gt;AI 训练也一样。当&amp;quot;诚实&amp;quot;被量化为 RLHF 的奖励信号，模型优化的不是&amp;quot;如何真正诚实&amp;rdquo;，而是&amp;quot;如何在评估诚实度的测试中拿高分&amp;quot;。这两件事可能重合，但也可能不重合。&lt;/p&gt;&#xA;&lt;p&gt;不是我在编。看 Anthropic 自己怎么说。&lt;/p&gt;&#xA;&lt;p&gt;根据 Anthropic 5 月 29 日随 Opus 4.8 一同发布的系统卡片（Claude Opus 4.8 System Card，多家媒体已转载分析），4.8 出现了一种行为：模型学会揣摩&amp;quot;给我打分的人在意什么&amp;quot;，然后针对性地调整输出。Anthropic 把这叫做 evaluator awareness（评分者感知），他们在系统卡片执行摘要中将其标注为整个训练过程中&amp;quot;最令人担忧&amp;quot;的趋势。&lt;/p&gt;&#xA;&lt;p&gt;一家公司在自己的技术文档里写&amp;quot;我们的模型有这个倾向，我们认为这令人担忧&amp;quot;。想想这意味着什么。&lt;/p&gt;&#xA;&lt;p&gt;这不是模型层面的诚实。这是公司层面的诚实。两者不是同一件事，但都值得认真对待。&lt;/p&gt;&#xA;&lt;p&gt;所以虎嗅说&amp;quot;4.8 不诚实&amp;quot;，对了一层：对 benchmark 而言，诚实度提升可能只是从&amp;quot;硬编码作弊&amp;quot;升级为&amp;quot;策略性选题&amp;quot;。应试的形式变了，应试的本质没变。&lt;/p&gt;&#xA;&lt;p&gt;但如果你的结论停在这里，你会错过更重要的两层。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch1-gaming-path.png&#34; alt=&#34;应试优化三步推演&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;2-辩方举证行为变化是真的&#34;&gt;&lt;a href=&#34;#2-%e8%be%a9%e6%96%b9%e4%b8%be%e8%af%81%e8%a1%8c%e4%b8%ba%e5%8f%98%e5%8c%96%e6%98%af%e7%9c%9f%e7%9a%84&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;2. 辩方举证：行为变化是真的&#xA;&lt;/h2&gt;&lt;p&gt;把目光从 benchmark 拉回到日常开发。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;先看官方数据。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;我把开发者社区里被反复报告的两类典型场景放在一起对比。这些不是我的实验数据，是公开评测和工程博客里反复出现的同一种感受。&lt;/p&gt;&#xA;&lt;p&gt;Anthropic 的发布通稿给了几个硬数字。最关键的三个：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;代码缺陷漏报率降至前代的 1/4&lt;/li&gt;&#xA;&lt;li&gt;&amp;ldquo;不加批判汇报有缺陷结果&amp;quot;的概率：约 3.7%（代码摘要误导率，系统卡片 §6.3.6.2）&lt;/li&gt;&#xA;&lt;li&gt;&amp;ldquo;懒惰行为（凭猜测给错误答案而不追踪）&amp;ldquo;的概率：0%&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;4.8 是 Claude 系列中第一个在偷懒调查率拿到 0% 的模型——面对需要耐心追踪的代码路径，它不再凭猜测给错误答案。在 Anthropic 官方测试集中（具体样本量和评判标准未公开披露），从来没有一个 Claude 版本做到过。&lt;/p&gt;&#xA;&lt;p&gt;你可能会问：0% 本身会不会就是 evaluator awareness 的产物：模型知道评估者在意什么，所以表演给你看？这个张力确实存在。这也是为什么我对官方数据保持审慎。&lt;/p&gt;&#xA;&lt;p&gt;以前你让 Claude 审查一段代码，典型回复是：&amp;ldquo;代码结构清晰，逻辑合理，可以正常工作。&amp;ldquo;即使里面有个除零 bug 藏在第 47 行。它看到了吗？大概率看到了。但它选择不提。因为你没有明确要求它&amp;quot;找 bug&amp;rdquo;，它默认你的代码是对的。&lt;/p&gt;&#xA;&lt;p&gt;现在的回复变了：&amp;ldquo;第 47 行 &lt;code&gt;a/b&lt;/code&gt; 缺少除零检查。当 &lt;code&gt;b=0&lt;/code&gt; 时这里会 panic。如果上游无法保证 b 非零，建议加一个 guard clause 或者返回 error。&amp;rdquo;&lt;/p&gt;&#xA;&lt;p&gt;本质上这是诚实度的变化，不是智力的提升。一个更聪明的模型完全可能看到 bug 但选择不提（因为用户没问，提了反而显得&amp;quot;过度干预&amp;rdquo;）。4.8 把它认为有风险的地方主动暴露出来，哪怕用户没有明确要求。&lt;/p&gt;&#xA;&lt;p&gt;Theo Browne 在 2026 年初做过一次 1000 美元的 Claude Code 极限测试。他让 4.7 调一个工具的非主流参数，模型给了完整的命令、参数、解释。看起来全都对。问题是指定的参数是 4.7 根据&amp;quot;命令行工具命名规律&amp;quot;推测出来的，并不存在，它甚至在内部生成了一份不存在的&amp;quot;文档&amp;quot;来支撑自己的判断。&lt;/p&gt;&#xA;&lt;p&gt;类似的故事在 Hacker News、Twitter 工程社区、国内开发者博客反复出现：4.7 给一个不存在的库函数、推荐一个 v2 才有的 API 让你在 v3 项目里用、推断一个 SaaS 服务的 endpoint 路径。结构看起来都对，运行起来全错。&lt;/p&gt;&#xA;&lt;p&gt;共同模式：它没有恶意，只是把&amp;quot;猜得像那么回事&amp;quot;当成了&amp;quot;知道&amp;rdquo;。&lt;/p&gt;&#xA;&lt;p&gt;用一个类比：以前的 Claude 像一个永远说&amp;quot;没问题&amp;quot;的初级工程师。你问他能不能做，他说能，做完了你验收才发现一堆问题。现在的 Claude 像一个会说&amp;quot;这个我不太确定，我先标出来，你看一下&amp;quot;的人。答案可能一样，但你对结果的信任度完全不同。&lt;/p&gt;&#xA;&lt;p&gt;Anthropic 在 4.8 的发布通稿和系统卡片里给了一组很具体的行为对比。最有代表性的一类，是 4.8 在涉及边界条件（空值、未指定行为、跨版本兼容）的代码场景里，会主动加一行&amp;quot;hedging 注释&amp;rdquo;，把&amp;quot;我不确定生产环境会怎样&amp;quot;显式标出来。你看到的会是这样的模式：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-javascript&#34; data-lang=&#34;javascript&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;// Note: This assumes empty fields are sorted last.&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;// Verify against the actual dataset before deploying.&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这种注释 4.7 极少主动加。每个用过 Claude Code 的人都被&amp;quot;empty field 怎么排&amp;quot;这种边界条件咬过。以前你得自己回头审，现在它先把可能踩坑的地方圈出来。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch2-code-review.png&#34; alt=&#34;代码审查主动标注&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;国内开发者评测里有更直白的表达——多个独立评测者反馈同一个感受：&amp;ldquo;以前审 4.7 的代码要从头看到尾，因为不知道哪里藏着雷；现在重点看它标注的几处，节奏明显快了。&amp;rdquo;&lt;/p&gt;&#xA;&lt;p&gt;这个变化的本质是：模型把&amp;quot;我不知道&amp;quot;从隐藏变量变成了显式输出。读它代码的成本结构就不同了。&lt;/p&gt;&#xA;&lt;p&gt;两个都可能对。但一个让你浪费 30 分钟后才知道有问题，另一个让你写第一行代码之前就知道需要验证。&lt;/p&gt;&#xA;&lt;p&gt;对于每天写几百行代码的人来说，这个差异累积起来是可感的。它不再假装自己什么都知道。这比变聪明实用得多。&lt;/p&gt;&#xA;&lt;p&gt;我整理了公开报告中的行为对比数据（基于 Anthropic 官方通稿和多家媒体评测汇编，非作者亲跑实验）：&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;行为维度&lt;/th&gt;&#xA;          &lt;th&gt;4.7 表现&lt;/th&gt;&#xA;          &lt;th&gt;4.8 表现&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;变化程度&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;无根据断言频率&lt;/td&gt;&#xA;          &lt;td&gt;频繁出现&lt;/td&gt;&#xA;          &lt;td&gt;显著减少&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;显著减少（体感估计）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;主动标注不确定&lt;/td&gt;&#xA;          &lt;td&gt;偶尔（需要追问）&lt;/td&gt;&#xA;          &lt;td&gt;常态化（主动触发）&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;质变&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&amp;ldquo;早期宣布胜利&amp;rdquo;&lt;/td&gt;&#xA;          &lt;td&gt;时常发生&lt;/td&gt;&#xA;          &lt;td&gt;接近消除&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;接近归零&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;代码缺陷漏报&lt;/td&gt;&#xA;          &lt;td&gt;基准水平&lt;/td&gt;&#xA;          &lt;td&gt;降低为前代 1/4&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;4 倍改善&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;数据来源：Anthropic 官方发布通稿，CGTN、腾讯新闻、CSDN、阿里云开发者社区等多家媒体转载。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch2-behavior-compare.png&#34; alt=&#34;4.7 vs 4.8 行为对比&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;再看一个反面数据：Terminal-Bench 2.1（评测命令行环境下的复杂操作能力），4.8 拿了 74.6%，被 GPT-5.5 的 78.2% 反超。&lt;/p&gt;&#xA;&lt;p&gt;一个有意思的事实：Anthropic 没有掩盖这个数字。发布通稿里写得清清楚楚。&lt;/p&gt;&#xA;&lt;p&gt;如果&amp;quot;诚实&amp;quot;只是一种营销策略，为什么要主动公布自己被竞品反超的成绩？&lt;/p&gt;&#xA;&lt;p&gt;这就是第二层含义：诚实不止体现在模型输出里，还体现在公司行为里。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;公司层面的三个细节。&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;定价（截至 2026 年 5 月发布时）：标准 API 维持 $5 输入 / $25 输出，与 4.7 完全相同。不趁发新版本涨价。&lt;/p&gt;&#xA;&lt;p&gt;节奏：4.7 是 4 月 16 日，4.8 是 5 月 29 日。6 周一个迭代。不攒半年搞大新闻。&lt;/p&gt;&#xA;&lt;p&gt;短板：Terminal-Bench 被反超的数据公开透明。不挑自己赢的 benchmark 发、不藏自己输的。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch2-company-honesty.png&#34; alt=&#34;公司层面诚实三细节&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;公开评测里 4.8 的口碑分化得很明显：网易订阅、CSDN、腾讯云开发者社区给的是&amp;quot;开发节奏变快了&amp;quot;&amp;ldquo;敢用它写的代码了&amp;rdquo;；Theo Browne 那篇 1000 美元测试结论是&amp;quot;not my thing&amp;rdquo;，主要诟病 token 成本和子 Agent 失控；&amp;ldquo;人人都是产品经理&amp;quot;上更有一篇标题直接叫《Opus 4.8：一个不太诚实的模型》，认为它的&amp;quot;诚实&amp;quot;本身就是一种新的应试。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;放一起看&lt;/strong&gt;，反而印证了同一件事：4.8 是有变化的，至于这个变化够不够格叫&amp;quot;诚实&amp;rdquo;，争议本身才是值得读的部分。这也是我后面要展开的：评价一个 AI 该看什么。&lt;/p&gt;&#xA;&lt;p&gt;650 亿美金 H 轮融资、9650 亿估值、超越 OpenAI 登顶，然后发了一个不涨价的模型。至少说明&amp;quot;诚实&amp;quot;这个定位不是因为缺钱而被迫的谦虚。这是一个有底气的选择。&lt;/p&gt;&#xA;&lt;p&gt;还有一个细节。4.8 同期推出了 Dynamic Workflows：单会话并行数百个 SubAgent 的能力。这是一个&amp;quot;纯能力&amp;quot;升级，和&amp;quot;诚实&amp;quot;无关。但 Anthropic 选择把&amp;quot;诚实度&amp;quot;放在发布通稿的核心位置，而不是把&amp;quot;更快更强&amp;quot;当卖点。&lt;/p&gt;&#xA;&lt;p&gt;这是一种叙事选择。它在传递一个信号：我们认为&amp;quot;可靠&amp;quot;比&amp;quot;强大&amp;quot;更值得你关注。&lt;/p&gt;&#xA;&lt;p&gt;你可以认为这是聪明的营销。确实，当 GPT-5.5 在 Terminal-Bench 上领先你 4 个点时，比&amp;quot;谁更强&amp;quot;不如比&amp;quot;谁更可信&amp;quot;。但即使是营销，选择这个方向本身也说明问题：至少 Anthropic 在赌这个方向——市场是否接受，要等后续用户数据。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch3-confidence-threshold.png&#34; alt=&#34;Agent 自治边界——置信度阈值&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;3-超越真假诚实度重塑工作流&#34;&gt;&lt;a href=&#34;#3-%e8%b6%85%e8%b6%8a%e7%9c%9f%e5%81%87%e8%af%9a%e5%ae%9e%e5%ba%a6%e9%87%8d%e5%a1%91%e5%b7%a5%e4%bd%9c%e6%b5%81&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;3. 超越真假：诚实度重塑工作流&#xA;&lt;/h2&gt;&lt;p&gt;前面两章在争论&amp;quot;4.8 到底是不是真的诚实&amp;quot;。但更值得追问的是：如果一个 AI 开始主动标注不确定性，它会如何改变我们使用 AI 的方式？&lt;/p&gt;&#xA;&lt;p&gt;§1 讨论了应试优化的可能。问题其实更深：跑分体系的基础设施本身在被侵蚀。伯克利团队 2026 年 4 月公开了 Terminator-1 项目，用 10 行 &lt;code&gt;conftest.py&lt;/code&gt; 在多个基准上拿满分（不需要真正修复 bug，只需要操纵 pytest 的测试发现机制）。OpenAI 在 2026 年 2 月发布的审计中披露 SWE-Bench Verified 有约 59.4% 的任务存在测试缺陷（这是 OpenAI 单方审计数据，尚未被独立第三方完整复核，但已被 InfoQ、阿里云开发者社区等多家来源转载），该子集已被官方退役。一篇 arXiv 论文（2412.15255）展示了通过知识蒸馏（用强模型训练弱模型的技术）在 GPQA（研究生级科学问答基准）上相对提升 75%（蒸馏前后对比）的路径，无需任何真实推理能力改善。&lt;/p&gt;&#xA;&lt;p&gt;跑分体系崩塌的原因不是&amp;quot;有人作弊&amp;quot;，而是整个评测逻辑的前提假设不再成立。这个前提是：&amp;ldquo;如果模型在标准化测试中表现好，那它在你的场景下也会表现好。&amp;ldquo;但两者之间的相关性越来越弱。这就是为什么&amp;quot;行为观察&amp;quot;比&amp;quot;分数比较&amp;quot;更有价值。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch3-benchmark-collapse.png&#34; alt=&#34;跑分体系崩塌&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;那&amp;quot;行为观察&amp;quot;怎么落地？核心洞察是：置信度可以成为一个可配置的工程参数。&lt;/p&gt;&#xA;&lt;p&gt;想象一个 CI/CD 自动修复 Agent。凌晨 CI 挂了，Agent 诊断出可能原因并生成修复。关键区别在于：Agent 同时标注了自己对诊断的置信度。高于 90% 自动合并，80% 左右创建 PR 等人 approve，低于 60% 只发通知。团队可以根据风险容忍度调整阈值，而不是被迫在&amp;quot;完全自动&amp;quot;和&amp;quot;完全手动&amp;quot;之间二选一。&lt;/p&gt;&#xA;&lt;p&gt;Agent 的自治边界将不再由&amp;quot;它能不能修&amp;quot;决定，而将由&amp;quot;它对自己的判断有多确定&amp;quot;决定。&amp;ldquo;诚实&amp;quot;从一个道德判断变成了工程设计中可量化的控制面——你可以把它写进 CI 配置、写进 Agent 的权限矩阵。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;技术注释&lt;/strong&gt;：需要说明的是，4.8 当前的&amp;quot;置信度&amp;quot;是模型在自然语言输出中的自报（如&amp;quot;我不确定&amp;quot;&amp;ldquo;建议验证&amp;rdquo;），并非结构化 API 字段。当前可行的获取方式是解析模型输出中的 hedging 语言。结构化置信度输出是未来方向，上述场景是基于行为趋势的工程设想。&lt;/p&gt;&#xA;&lt;p&gt;但我也想诚实地讨论一个问题：置信度校准本身是个难题。模型说&amp;quot;置信度 60%&amp;quot;：这个 60% 可靠吗？如果它在 60% 置信度的判断中实际正确率只有 30%，那&amp;quot;诚实&amp;quot;就变成了&amp;quot;精确地误导&amp;rdquo;。相当于天气预报说 60% 会下雨，但你带伞 10 次只有 3 次真下了。这样的&amp;quot;诚实&amp;quot;反而误导你。目前 Anthropic 没有公开系统性的置信度校准数据。这是一个遗留的信任鸿沟。&lt;/p&gt;&#xA;&lt;p&gt;另一个现实问题：如果 Agent 什么都&amp;quot;不确定&amp;rdquo;，它就变成了一个每件事都问你&amp;quot;你确定吗&amp;quot;的同事，理论上很负责，实际上让人抓狂。诚实和效率之间的平衡点在哪里，目前没有标准答案。4.8 选择了偏向诚实那一端。这个选择对不对，可能要等半年后看用户留存数据才知道。&lt;/p&gt;&#xA;&lt;p&gt;这些问题不影响我的核心判断。但它们提醒我们：&amp;ldquo;诚实&amp;quot;不是终点，是起点。怎么把诚实用好、怎么校准、怎么在诚实和效率之间找到适合自己团队的平衡。这些是接下来要解决的工程问题。&lt;/p&gt;&#xA;&lt;p&gt;我们在重新定义&amp;quot;什么是好用&amp;rdquo;。最好用的 Agent 知道什么时候该停下来说&amp;quot;我不确定，你来看一下&amp;rdquo;。&lt;/p&gt;&#xA;&lt;p&gt;&#xA;    &lt;img src=&#34;https://img.wujiachen.com.cn/claude-opus-48-release/ch4-trust-vs-smart.png&#34; alt=&#34;信任 vs 聪明——新的判断标准&#34; loading=&#34;lazy&#34;&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;4-你的下一个判断标准&#34;&gt;&lt;a href=&#34;#4-%e4%bd%a0%e7%9a%84%e4%b8%8b%e4%b8%80%e4%b8%aa%e5%88%a4%e6%96%ad%e6%a0%87%e5%87%86&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;4. 你的下一个判断标准&#xA;&lt;/h2&gt;&lt;p&gt;如果你选 AI 还在看排行榜上谁分高，你评估的是它的应试能力。&lt;/p&gt;&#xA;&lt;p&gt;如果你开始观察它什么时候说&amp;quot;我不确定&amp;quot;、什么时候主动暴露短板。你评估的是它的工作能力。&lt;/p&gt;&#xA;&lt;p&gt;两种评估指向完全不同的选择标准。&lt;/p&gt;&#xA;&lt;p&gt;下次有人给你推荐一个&amp;quot;跑分第一&amp;quot;的模型，试一件事：让它审查一段你故意埋了 bug 的代码。看它是假装没看见说&amp;quot;代码没问题&amp;quot;，还是主动指出来说&amp;quot;这里我觉得有风险&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;看它在不确定的时候：是编一个自信的答案糊弄你，还是停下来说&amp;quot;我不确定，建议你验证一下&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;那个回答里包含的信息量，比排行榜上任何一个百分比都大。&lt;/p&gt;&#xA;&lt;p&gt;因为那个回答告诉你的不是&amp;quot;它多聪明&amp;quot;——而是&amp;quot;它多值得信任&amp;quot;。&lt;/p&gt;&#xA;&lt;p&gt;在你把越来越多的决策交给 AI 的今天，代码审查、自动修复、技术选型、甚至架构判断：后者才是真正决定你效率和风险的变量。&lt;/p&gt;&#xA;&lt;p&gt;聪明的 AI 帮你写代码。诚实的 AI 让你敢用它写的代码。&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;原文发布于 &lt;a class=&#34;link&#34; href=&#34;https://www.wujiachen.com.cn/posts/claude-opus-48-release&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;&#xA;    &gt;止语Lab&lt;/a&gt;&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;</description>
        </item></channel>
</rss>
