Claude 3.5/3.7 Sonnet - 把前沿模型做成可控的工程同事¶

2025 年 2 月 24 日，Anthropic 发布 Claude 3.7 Sonnet System Card，同时把 Claude Code 推到研究预览。 这不是一篇教你复现模型的论文：没有参数量、没有训练集、没有 optimizer，也没有 RL 配方。它真正公开的是另一种前沿模型写法：同一个 Sonnet 既能快速回答，也能在 extended thinking 里显式思考；开发者能把 thinking budget 当成 API 旋钮；系统卡把 SWE-bench、TAU-bench、computer use、prompt injection、ASL-2 和可见思考链的风险放在同一张部署账本上。它的钩子不在“模型又涨了几分”，而在于：前沿模型第一次被包装成一个可控、可审计、能进代码仓库工作的工程同事。

一句话总结¶

Anthropic 在 2024-2025 年连续发布的 Claude 3.5/3.7 Sonnet system-card 系列，把“前沿模型论文”从可复现实验报告改写成能力 + 接口 + 工具 + 安全阈值的部署文档：可公开写成的核心抽象是 \(p(y\mid x,B)=\sum_z p_\theta(y\mid x,z,B)p_\theta(z\mid x,B)\)，其中 \(B\) 是用户/API 可控的思考预算，\(z\) 是 Claude 3.7 在 extended thinking 中显式展示的中间推理轨迹。它替代的失败 baseline 不是某个模型，而是 2024 年默认的“快答聊天模型 + prompt 诱导 CoT + 外部 agent scaffold”：6 月版 Claude 3.5 Sonnet 用 200K context、\(3/\)15 每百万 tokens 和内部 coding eval 64% 对比 Claude 3 Opus 38%，把 Sonnet 变成实用前沿档；10 月版把 SWE-bench Verified 从 33.4% 推到 49.0%，并公开 computer use；2025 年 3.7 则把同一模型做成可切换的混合推理系统，在 SWE-bench 子集 63.7% / 高算力 70.3%、prompt-injection 防护 88% 和 ASL-2 system card 之间建立一套产品化证据链。它与 OpenAI o1 的区别是可见、可控、统一模型；与 DeepSeek-R1 的区别是少谈训练 recipe，多把推理模型写成能进企业代码库的治理对象。

历史背景¶

2024 年 6 月：Sonnet 从“中档模型”变成实用前沿档¶

Claude 3.5 Sonnet 的第一层历史意义，是它改变了 Anthropic 产品线里 Sonnet 这个名字的含义。Claude 3 家族在 2024 年 3 月发布时，Opus 是最强模型，Sonnet 是平衡档，Haiku 是速度档。到 6 月 21 日，Claude 3.5 Sonnet 却以 Sonnet 价格和速度拿到了接近旗舰的能力：200K context、每百万输入 tokens 3 美元、每百万输出 tokens 15 美元，并且被描述为 Claude 3 Opus 两倍速度。对企业和开发者来说，这不是小修小补，而是“前沿能力进入日常预算”。

它当时最刺眼的数字不是 MMLU 或 GPQA，而是 Anthropic 自己的 agentic coding evaluation：给模型自然语言需求、让它在开源代码库里修 bug 或加功能，Claude 3.5 Sonnet 解出 64%，Claude 3 Opus 是 38%。这个数字让 Sonnet 不再只是聊天模型，而是能和代码、工具、长上下文一起工作的模型。Artifacts 同期出现，也在产品形态上暗示了同一件事：Claude 的理想界面不是问答框，而是可持续编辑的工作台。

2024 年 10 月：computer use 把“调用工具”推进到“操作环境”¶

10 月 22 日的 upgraded Claude 3.5 Sonnet 更像一次方向转弯。过去 tool use 的常见形式是函数调用、检索、插件或代码解释器：模型选择一个结构化工具，工具返回结果，模型再写答案。computer use 把边界往外推了一层：模型看屏幕、移动鼠标、点击按钮、输入文本，开始使用给人类设计的软件界面。Anthropic 明确说这是 public beta，能力还笨拙，拖拽、滚动、缩放等动作仍会出错，但它把“通用数字劳动力”的接口公开了。

同一篇发布文给了几个关键数字：SWE-bench Verified 从 33.4% 到 49.0%；TAU-bench retail 从 62.6% 到 69.2%，airline 从 36.0% 到 46.0%；OSWorld screenshot-only 14.9%，给更多 steps 后 22.0%。这些数字的共同点是它们都不是传统 NLP benchmark，而是“模型在环境里做事”的评测。Sonnet 的竞争对象开始从 GPT-4o 这种聊天模型，变成会编辑文件、跑命令、操作网页、长期追踪状态的 agent。

2025 年 2 月：Claude 3.7 把推理做成同一个模型的可控模式¶

OpenAI o1 在 2024 年 9 月让“思考更久”变成显式能力曲线，但它的产品形态是单独的 reasoning model，原始 CoT 不展示。Claude 3.7 Sonnet 的公开叙事反过来：Anthropic 强调它是“first hybrid reasoning model”，同一个模型既能普通回答，也能进入 extended thinking；用户可以看到思考过程，API 用户可以设置 thinking token budget，最高到输出上限 128K tokens。这个接口设计比某个 leaderboard 更重要，因为它把 test-time compute 从隐含部署细节变成了产品旋钮。

这也解释了为什么 Claude 3.7 的发布和 Claude Code 同时出现。Claude Code 不是一个孤立 CLI，而是 Sonnet 作为工程同事的自然外壳：搜索和阅读代码、编辑文件、运行测试、用命令行，必要时把修改提交到 GitHub，同时让用户留在回路里。Sonnet 的历史定位因此不是“最会做数学题的模型”，而是“把推理、工具、代码库和安全边界组合成工作流的模型”。

Anthropic 当时押的不是单点算法，而是系统卡治理¶

Claude Sonnet 系列不是一篇可复现训练论文。Anthropic 没有披露参数量、训练数据、optimizer、RL 算法、reward 设计或完整后训练流水线。它公开的是另一种前沿研究产物：system card。system card 的任务不是让外部实验室复刻模型，而是说明模型在真实部署前经过哪些能力评测、风险评测、外部红队、安全阈值判断和缓解措施。

这和 Anthropic 的长期路线一致：Constitutional AI 把政策和价值判断放进训练；Responsible Scaling Policy 把能力阈值和安全措施绑定；Claude 3/3.5/3.7 的 model card 则把“我们为什么认为可以部署”写成公共文档。到 Claude 3.7，system card 的对象已经不只是文本回答，而是 visible thinking、computer use、prompt injection、CBRN uplift、ASL-2/ASL-3 过渡准备和企业代码工作流。

时间	公开 artifact	核心变化	历史意义
2024-03	Claude 3 Model Card	200K context、多模态、ASL-2	Anthropic system-card 基线
2024-06	Claude 3.5 Sonnet	Sonnet 价格 + 旗舰级能力	实用前沿档成形
2024-10	New Claude 3.5 + computer use	SWE-bench 49.0%、GUI 操作	从 tool calling 到 environment acting
2025-02	Claude 3.7 Sonnet System Card	hybrid reasoning、visible thinking	test-time compute 产品化
2025-02	Claude Code preview	代码库内工作流	模型进入工程循环

研究背景与动机¶

痛点：前沿模型不再只是回答问题，而是在工作流里承担责任¶

2023 年的核心问题是“模型能不能回答得更聪明”。到 2024 年下半年，问题变成“模型能不能可靠地做事”。真实用户并不是只问 MMLU 选择题，而是让模型读仓库、改代码、查网页、填表单、运行测试、解释日志、调用内部系统。模型一旦进入这些工作流，错误不只是错一个答案，而可能改坏文件、泄露数据、点击恶意网页、执行错误命令，或在系统/开发者/用户指令冲突时服从错误的一方。

Claude Sonnet 系列的动机正是在这里：把模型能力从孤立 completion 拉进可审计的行动循环。200K context 解决“看不全材料”的问题；Artifacts 解决“输出无法持续编辑”的问题；computer use 解决“工具不是都为 API 准备”的问题；Claude Code 解决“模型必须理解项目状态”的问题；system card 则试图回答“这样的模型能不能部署”。

核心矛盾：可见思考有用，但可见思考也危险¶

Claude 3.7 的 extended thinking 把一个长期矛盾摆到台面上。显示思考过程能增加信任，帮助用户检查答案，也给对齐研究提供观察窗口；但它也可能暴露不成熟、错误、半成品甚至高风险的中间内容。Anthropic 在公开材料里明确承认 faithfulness 仍是开放问题：模型写出来的思考并不一定完全代表内部计算原因，不能把当前 CoT monitoring 当作强安全证明。

因此 Claude 3.7 的动机不是“把 CoT 全部放出来就安全”，而是做一套折中机制：默认让用户看到 enough-to-use 的 extended thinking；在少数涉及 child safety、cyber attacks、dangerous weapons 等高风险内容时加密相关思考片段；同时用 system card 记录可见思考带来的风险和缓解策略。这种折中比“隐藏全部 CoT”更透明，也比“无条件公开全部 CoT”更现实。

目标：用同一个 Sonnet 统一快答、深思、工具和安全阈值¶

Claude 3.7 的设计目标可以压缩成一句话：不要让用户在“快模型”和“推理模型”之间切换身份，而是在同一个模型里调节思考预算。快速客服、摘要、格式转换可以走普通模式；数学、物理、复杂代码修改、长链路 agent 任务可以开 extended thinking；API 用户可以用 token budget 显式权衡延迟、成本和质量。

这也是它和 DeepSeek-R1 或 OpenAI o1 的差异。R1 的历史价值是把 reasoning RL 的部分 recipe 开源化；o1 的历史价值是证明 test-time compute 是新 scaling axis；Claude 3.7 的历史价值则在接口层：把这个 axis 接到开发者手里，并用 system card 把安全、可见性、工具权限和风险阈值一起公开。

方法详解¶

Claude 3.5/3.7 Sonnet 的“方法”不能按 ResNet 或 R1 那样写成训练 recipe。Anthropic 没有公开模型尺寸、数据混合、RL 算法、reward 设计、optimizer、后训练阶段或部署路由。这里的方法详解只做两件事：第一，整理 system card 和发布文明确公开的系统设计；第二，用公式和伪代码给出一种可读的抽象，帮助理解为什么它成为 2025 年 agentic coding 和 hybrid reasoning 的代表性 artifact。凡是公式、伪代码和模块图，都应读作解释性模型，而不是 Anthropic 内部实现。

公开边界：这不是可复现训练论文¶

最容易写错的地方，是把 Claude 3.7 当成一篇“推理 RL 论文”。公开材料没有给出足够信息复现模型。它更像 o1 system card 和 GPT-4 Technical Report 之后的一类新文体：公司公开能力、风险、评测和缓解措施，但保留核心训练细节。可解释的边界如下：

层次	公开事实	可解释抽象	不能伪造的内容
模型形态	同一 Claude 3.7 可普通回答或 extended thinking	条件在 budget \(B\) 下生成中间轨迹 \(z\)	参数量、架构、训练数据
推理接口	用户可看 thinking，API 可设 token budget	test-time compute 成为产品旋钮	raw hidden state、完整 CoT faithful 证明
工具能力	computer use、Claude Code、bash/file edit	模型在环境中执行 action loop	内部工具调度器和系统 prompt
安全治理	ASL-2、红队、prompt-injection 缓解	能力阈值 + 缓解措施共同决定部署	完整风险打分和内部红队数据

整体框架：同一个模型，两个时间尺度¶

Claude 3.7 的核心产品抽象，是把“快答”和“深思”做进同一个模型，而不是让用户切换到另一个 reasoning model。可以把它写成条件生成：输入 \(x\)、预算 \(B\)，模型先生成或内部使用一段推理轨迹 \(z\)，再生成最终回答 \(y\)：

\[ p(y\mid x,B)=\sum_z p_\theta(y\mid x,z,B)\,p_\theta(z\mid x,B). \]

当 \(B\) 很小，\(z\) 可以退化为很短的隐式草稿，模型像普通 chat LLM 一样回答；当 \(B\) 变大，Claude 3.7 可以花更多 tokens 做分解、试错、验证和修正，并把用户可见的 extended thinking 展示出来。这个框架解释了为什么同一模型能服务低延迟客服，也能服务复杂代码修复。

组件	输入	输出	公开作用
普通回答模式	用户请求、上下文	低延迟答案	日常 chat、摘要、格式转换
Extended thinking	难题、budget \(B\)	可见思考 + 答案	数学、物理、复杂代码、长链路任务
Tool/action loop	仓库、终端、GUI、工具结果	文件修改、命令结果、网页状态	Claude Code / computer use
System-card layer	能力与风险评测	ASL 判断、缓解措施、部署边界	公开治理证据

关键设计 1：Unified hybrid reasoning，而不是“另一个慢模型”¶

Claude 3.7 与 o1 最直接的产品差异，是 Anthropic 不把 reasoning 做成单独品牌模型，而是在 Sonnet 内部提供开关。这样做有一个工程好处：prompting、tool schema、上下文管理、企业权限、安全策略和计费接口可以保持连续，开发者不必维护“普通模型一套、推理模型一套”的系统分叉。

从抽象目标看，模型优化的不是单一 answer likelihood，而是“在预算约束下生成有用答案”的期望收益：

\[ \max_\theta\;\mathbb{E}_{x,B,z,y\sim\pi_\theta}\left[R_{task}(x,y)+\lambda R_{policy}(x,z,y)-c(B)\right]. \]

这里 \(R_{task}\) 表示任务质量，\(R_{policy}\) 表示安全与指令层级，\(c(B)\) 表示思考 tokens 的成本。它不是官方 reward 公式，只是说明 hybrid reasoning 的产品本质：能力、政策和成本在同一个响应里被权衡。

路线	用户体验	工程成本	Sonnet 取舍
快模型 + 慢 reasoning model	能力边界清晰	prompt、权限、路由分裂	Anthropic 没有选这个主叙事
单模型 + thinking budget	接口连续、预算可控	需要更细安全治理	Claude 3.7 的公开定位
外部 scaffold 补推理	可快速迭代	失败来源难归因	Claude Code 只在必要处保留 scaffold

关键设计 2：Thinking budget 把 test-time compute 变成 API 参数¶

Claude 3.7 的 API 允许用户设置 thinking token budget，最高到输出限制 128K tokens。这个设计把“模型多想一会儿”从供应商内部策略变成开发者可调参数。它的意义类似 temperature 或 max_tokens，但控制的是另一个维度：不是输出随机性，也不是最终回答长度，而是回答前能花多少内部/可见推理预算。

Anthropic 的 extended-thinking 文章还讨论了 serial 和 parallel test-time compute。Serial scaling 是同一次推理里多走几步；parallel scaling 是采样多个独立 thought processes，再用多数投票、第二个模型或 learned scoring function 选择答案。公开材料里，Claude 3.7 在 GPQA 上用 256 个独立样本、64K thinking budget 和 learned scoring model 达到 84.8%，物理子项 96.5%。这不是线上默认能力，但说明 Sonnet 的系统卡已经把“推理预算”当成可研究对象。

Compute 形式	做法	优点	风险
Serial thinking	单条轨迹更长	延迟可预测、解释性强	可能把错误路线想得更久
Parallel sampling	多条轨迹并行	可通过投票/评分提升准确率	成本高，scoring model 也会错
High-compute ranking	过滤失败 patch，再排名	SWE-bench 上收益明显	scaffold 贡献和模型贡献难拆分

关键设计 3：从 tool use 到 computer use，再到 Claude Code¶

Claude 3.5/3.7 的另一个关键设计，是把模型放进可执行环境。传统 function calling 要求开发者把世界包成工具；computer use 则让模型面对给人类设计的 GUI；Claude Code 又把工程环境收窄到代码仓库、终端、编辑器和测试。这个谱系非常重要：通用 computer use 范围最大但风险也最大；Claude Code 范围较窄，却能把文件系统、测试反馈和版本控制变成高价值闭环。

可以把 Claude Code 式工作流抽象成：

def sonnet_engineering_loop(task, repo, budget, tools, policy):
    state = inspect(repo, task)
    while not done(state) and budget.remaining() > 0:
        thought = model.think(task, state, budget=budget.next_slice())
        action = model.choose_action(thought, tools, policy)
        result = execute(action, sandbox=policy.sandbox)
        state = update_state(state, action, result)
        if policy.requires_human_confirmation(action, result):
            request_approval(action, result)
    return summarize_changes(state)

这段伪代码不是 Claude Code 内部实现，但能解释 system card 为什么必须关心 prompt injection 和权限边界。模型一旦能读网页、看屏幕、跑命令、编辑文件，外部环境就可能把恶意文本注入模型上下文；工具权限和系统指令层级必须成为能力的一部分。

关键设计 4：System card safety loop 把部署写成证据链¶

Claude 3.7 system card 的方法贡献，很大一部分在安全评测如何组织。它不是只给“模型更安全”的口号，而是把不同风险面拆开：CBRN、cyber、autonomy、prompt injection、visible thinking、false refusal、外部红队和 ASL 等级。公开材料给出几条可审计事实：3.7 仍适用 ASL-2；CBRN 任务里有 model-assisted uplift，但所有端到端尝试仍有关键失败；不必要拒答比前代减少 45%；prompt-injection 防护从 74% 提高到 88%，误报 0.5%。

风险面	Claude 3.7 公开处理	设计动机	剩余问题
ASL 阈值	维持 ASL-2，准备 ASL-3 能力	把能力门槛和部署措施绑定	未来模型可能跨阈值
Visible thinking	少数高风险思考片段加密	保留可用性，同时降低滥用信息外泄	faithfulness 仍未解决
Prompt injection	训练 + system prompt + classifier	computer use 必须抵抗环境中恶意指令	88% 不是完全防御
False refusal	比前代减少 45%	安全不应靠过度拒答	精准边界仍需持续调参

训练 / 部署策略：少披露 recipe，多披露责任边界¶

如果把“方法”理解为训练算法，Claude Sonnet 的 system card 会显得不完整；如果把“方法”理解为前沿模型如何进入社会，它反而很完整。它公开了价格、上下文、工具接口、评测协议、安全级别、外部专家参与、能力边界和 mitigation，而没有公开核心 recipe。这种不对称披露是 2025 年前沿 AI 的现实：最有影响力的研究对象越来越常以 system card、release note、API 文档和产品 benchmark 的混合形式出现。

对研究者来说，Claude 3.7 的方法 lesson 是：reasoning 不只是训练范式，也是交互范式。对产品团队来说，lesson 是：agentic model 不只是“模型更聪明”，而是 budget、工具、权限、观测、评测和安全响应的组合。对治理者来说，lesson 是：如果模型可以行动，system card 就必须评估它如何行动，而不仅是它如何回答。

失败案例¶

当时输掉的不是一个模型，而是三种默认路线¶

Claude 3.5/3.7 Sonnet 的“失败 baseline”不能只写成 GPT-4o、o1、R1 的分数对比。它真正替代的是 2024 年前沿应用的三种默认路线。第一种是快答聊天模型：响应快、体验好，但遇到复杂代码库、长链工具和环境状态时容易短路。第二种是外部 agent scaffold：靠检索、patch localization、best-of-N、测试过滤和 reranker 把模型包起来，短期有效，但系统复杂、故障归因困难。第三种是过度安全拒答：把边界问题一概拒绝，看似安全，却让真实用户无法完成 benign 任务。

Sonnet 的系统卡把这些 baseline 放进同一张图里：模型本身要能读长上下文、写代码、调用工具和思考；scaffold 可以帮助，但不能替代模型能力；安全要减少滥用，也要减少不必要拒答；agent 能行动，就必须抵抗 prompt injection。换句话说，它击败的不是单个 leaderboard 对手，而是“把模型、工具、安全和产品体验分开优化”的旧做法。

Baseline	看起来合理的原因	失败点	Sonnet 的替代方式
快答 chat LLM	低延迟、低成本、易部署	复杂任务缺少可控思考预算	extended thinking + budget
Heavy external scaffold	能用工程手段补模型短板	系统复杂，模型贡献难归因	stronger base model + minimal scaffold
Prompt-only CoT	接入成本低	不稳定，难治理，不适合工具权限	统一 hybrid reasoning 接口
Blanket refusal safety	简单降低违规率	用户体验差，benign 请求被误拒	45% fewer unnecessary refusals

作者自己暴露的边界¶

Anthropic 的公开材料也诚实地暴露了几个失败边界。Computer use 在 2024 年仍处于 public beta：拖拽、滚动、缩放等人类觉得简单的动作，模型会出错；OSWorld 14.9%/22.0% 说明它远没有接近可靠数字员工。Claude 3.7 的 visible thinking 也不是免费午餐：思考链可能包含错误、半成品和高风险内容，faithfulness 仍无法保证。

系统卡里的 CBRN 结论同样不是“完全无风险”。Anthropic 报告 model-assisted participants 相比非辅助组有 uplift，意味着模型确实能帮人更接近危险目标；只是所有端到端尝试仍有 critical failures，阻止了成功。这种措辞很重要：它没有把 ASL-2 写成“没问题”，而是写成“当前防护仍足以部署，但下一阶段必须准备 ASL-3”。

真正的反 baseline 教训¶

回看 2025，Sonnet 的反 baseline 教训是：agentic AI 的瓶颈不只是“模型会不会思考”，而是“模型的思考能不能接入行动、权限和审计”。o1 证明长思考有用，R1 证明开源 RL 可以逼近 reasoning frontier，但 Sonnet 系统卡证明另一个现实问题：企业真正购买的是一整套工作流，里面包括模型、上下文、工具、安全日志、权限、误拒率、prompt-injection 防护和错误恢复。

这也是为什么 Claude Code 会和 Claude 3.7 同时发布。一个纯聊天模型即使 benchmark 很高，也很难自然进入工程流程；一个可执行 agent 如果安全边界不清，也不能放心使用。Sonnet 的路线是把“模型能力”写进“系统责任”里，这是 system-card 时代的核心转变。

实验关键数据¶

主要公开数字¶

Claude Sonnet 系列的公开数字分三类：普通能力、agentic coding/tool use、safety/governance。最重要的是第二类，因为它解释了 Sonnet 在开发者中的实际声誉。June 2024 的 64% internal coding eval 让 Claude 3.5 Sonnet 首次被广泛视为代码同事；October 2024 的 SWE-bench 49.0% 把这种体验放进公开 benchmark；February 2025 的 Claude 3.7 把 SWE-bench 子集推到 63.7%，高算力版本 70.3%。

指标	Claude 3.5 / 3.7 数字	对比或上下文	读法
Internal agentic coding	3.5 Sonnet 64%	Claude 3 Opus 38%	Sonnet 成为代码工作模型
SWE-bench Verified	upgraded 3.5 Sonnet 49.0%	前版 33.4%	agentic coding 跃迁
SWE-bench Verified subset	3.7 Sonnet 63.7%	n=489 solvable subset	minimal scaffold 下很强
SWE-bench high compute	3.7 Sonnet 70.3%	parallel attempts + ranking	test-time compute 可继续涨点
TAU-bench retail / airline	69.2% / 46.0%	从 62.6% / 36.0% 提升	多轮工具交互变强
OSWorld computer use	14.9% / 22.0%	screenshot-only / more steps	能力早期但方向明确

安全与可靠性数字¶

Claude 3.7 system card 的安全数字同样关键，因为它把能力增长和部署判断绑定。最醒目的不是“零风险”，而是“风险已被量化到可以讨论”：ASL-2 仍适用，CBRN 有 uplift 但端到端失败，prompt-injection 缓解有明显提升但未完全解决，不必要拒答降低而不是简单提高拒绝率。

主题	公开结果	为什么重要	残余风险
AI Safety Level	Claude 3.7 维持 ASL-2	说明当前不需要 ASL-3 部署门槛	下一代可能跨阈值
CBRN uplift	有 uplift，但端到端 critical failures	不把危险能力轻描淡写	模型进步会压缩安全余量
Prompt injection	74% 到 88%，0.5% false positive	computer use 的核心安全面	仍非完全防御
False refusals	不必要拒答减少 45%	安全与可用性同时优化	边界案例仍难

如何读这些数字¶

这些数字不能按传统 leaderboard 一把尺子读。SWE-bench 的 63.7% 与 70.3% 涉及 subset、scaffold 和 ranking；TAU-bench 的 prompt addendum 和 planning tool 会影响结果；OSWorld 的 step budget 改变可显著影响 pass@1。Anthropic 在附录里说明这些 scaffold，是好事而不是扣分，因为 agentic evaluation 本来就混合了模型、工具和运行时策略。

更合理的读法是：Claude Sonnet 把“模型能力”从静态 benchmark 移到动态工作流 benchmark。它不是要证明每个分数都可以和任意对手直接横向比较，而是要证明一个系统设计方向：当模型有长上下文、可控思考预算、工具动作和安全缓解后，真实任务表现会发生结构性变化。

思想史脉络¶

graph LR
  CAI[Constitutional AI 2022<br/>policy as training signal] --> Claude3[Claude 3 Model Card 2024<br/>frontier model governance]
  ToolUse[Tool Use GA 2024<br/>structured APIs] --> Sonnet35[Claude 3.5 Sonnet 2024<br/>practical frontier tier]
  Artifacts[Artifacts 2024<br/>AI workspace UX] --> Sonnet35
  Sonnet35 --> ComputerUse[Claude Computer Use 2024<br/>GUI actions]
  MCP[MCP 2024<br/>standardized tool context] --> ClaudeCode[Claude Code 2025<br/>terminal coding agent]
  o1[OpenAI o1 2024<br/>reasoning model system card] --> Sonnet37[Claude 3.7 Sonnet 2025<br/>hybrid reasoning]
  ComputerUse --> Sonnet37
  VET[Visible Extended Thinking 2025<br/>user-visible reasoning] --> Sonnet37
  RSP[Responsible Scaling Policy<br/>ASL thresholds] --> SystemCard[Claude 3.7 System Card<br/>capability plus risk ledger]
  Sonnet37 --> SystemCard
  SystemCard --> PromptDefense[Prompt Injection Defense<br/>74% to 88%]
  SystemCard --> AgentEvals[SWE-bench / TAU-bench / OSWorld<br/>agentic evals]
  Sonnet37 --> ClaudeCode
  Sonnet37 --> HybridModels[Hybrid reasoning interfaces<br/>fast plus deep modes]

前世：Constitutional AI、长上下文和 tool use 的汇合¶

Claude Sonnet 的思想前史不是单条算法线，而是三条 Anthropic 线索的汇合。第一条是 Constitutional AI：把安全原则写进模型行为，而不是只靠部署后过滤。第二条是 Claude 3 model card：把上下文窗口、视觉、拒答、偏见、CBRN/cyber/autonomy 风险和 ASL 等级作为发布文档的一部分。第三条是 tool use 和 Artifacts：模型不再只是回答，而是在一个可编辑、可调用工具的工作空间里协作。

2024 年的 computer use 是关键转折点。它把 tool use 从“调用开发者准备好的 API”推到“使用人类软件界面”。这一步让 prompt injection、权限分离和行动审计从安全附录变成系统核心。没有 computer use，Claude 3.7 的 system card 可能只是又一份模型能力报告；有了 computer use，它必须成为 agent 安全文档。

今生：o1 和 R1 之外的第三种 reasoning 模型形态¶

2024-2025 年 reasoning model 至少形成三种形态。OpenAI o1 是闭源、隐藏 CoT、强调 inference-time scaling 的形态；DeepSeek-R1 是开源权重、公开 RL 训练叙事、强调 rule reward 和 GRPO 的形态；Claude 3.7 Sonnet 是统一模型、可见 extended thinking、API budget 和 system-card safety 的形态。三者都把“多花推理计算”推到中心，但给外部世界的接口完全不同。

Claude 的特殊位置在于它把 reasoning 与 action 绑得最紧。o1 更像“深度答题者”，R1 更像“开源推理 recipe”，Claude 3.7 更像“能进入工作流的可控 agent backbone”。这不意味着 Claude 一定在所有 benchmark 上最强，而是它定义了另一种前沿模型评价法：看它能否在工具、代码库、屏幕、权限和安全规则之间稳定行动。

误读 / 简化¶

“Claude 3.7 = o1 复刻”：不准确。o1 的公开形态是单独 reasoning model 和隐藏原始思考；Claude 3.7 的公开形态是同一 Sonnet 在普通模式和 extended thinking 间切换，并让用户/API 控制预算。
“可见 thinking 就等于真实内部原因”：Anthropic 自己明确警告 faithfulness 未解决。可见思考是有用观察窗口，不是安全证明。
“computer use 只是 tool calling 的换皮”：不是。Tool calling 的工具边界由开发者定义；computer use 直接暴露人类 GUI 和网页内容，因此 prompt injection 与权限治理变成核心问题。
“system card 没有训练细节，所以技术价值低”：这是旧论文范式的偏见。当前沿模型进入真实部署，能力、风险和缓解措施本身就是技术贡献的一部分。

当代视角¶

站不住的假设¶

假设 1：推理模型必须是单独产品。 o1 发布后，很多人默认“普通模型”和“reasoning model”会长期分离。Claude 3.7 给出相反路线：同一模型可以根据任务切换时间尺度。到 2026 年回看，这条路线更贴近企业使用方式，因为权限、上下文、工具 schema、日志和成本控制都不喜欢模型身份频繁切换。

假设 2：可见 CoT 要么全公开，要么全隐藏。 Claude 3.7 选择中间路线：让用户看到 extended thinking，但在少数高风险内容上加密；承认 faithfulness 未解决，同时仍利用可见思考提升可检查性。这个折中让“思考链可见性”从哲学争论变成工程开关。

假设 3：agent benchmark 只是在测模型。 SWE-bench、TAU-bench、OSWorld 都证明真实 agent 评测测的是系统：模型能力、工具接口、运行步数、提示附加、测试过滤、ranking、权限策略都在里面。Claude Sonnet 系统卡的价值之一，是把这些 scaffold 公开写出来，让读者知道分数从哪里来。

假设 4：安全能力只体现在拒答率。 Claude 3.7 的 45% fewer unnecessary refusals 说明更强安全不一定是更多拒绝。对企业模型来说，过度拒答也是 failure mode，因为它会阻断客服、医疗行政、代码安全审计、合规分析等 benign 工作流。

时代证明的关键 vs 冗余¶

项目	后来证明关键	后来显得冗余或不充分	原因
Thinking budget	✅	—	开发者需要显式管理延迟、成本和质量
Visible thinking	✅	不能当作完整解释	有用但 faithfulness 未解
Computer use	✅	通用 GUI 操作仍不稳	方向正确，落地要收窄权限
Heavy benchmark scaffold	部分关键	直接比较会误导	agent 分数包含运行时策略
ASL system-card disclosure	✅	仅 ASL 标签不够	需要具体风险面和 mitigation 数字

如果今天重写¶

如果今天重新写 Claude 3.7 system card，我会希望它额外给出三类内容。第一是更细的 budget-performance 曲线：不同 thinking budget 在 SWE-bench、TAU-bench、GPQA、AIME、OSWorld 上的边际收益、延迟和成本。第二是更标准化的 agent scaffold 描述：工具列表、step limit、是否允许并行、是否可见测试、ranking 规则、人工确认点。第三是更细的安全混淆矩阵：prompt injection、权限升级、数据外泄、恶意网页、命令执行、误报/漏报各自如何定义。

这不是苛求 Anthropic 公开训练机密，而是希望 system card 作为新论文体裁更可比较。前沿模型不一定能公开 recipe，但可以公开 evaluation contract：什么条件下测、哪些工具可用、风险怎样定义、失败怎样计数、哪些缓解措施在起作用。

局限与展望¶

局限¶

第一，Claude Sonnet system card 不可复现。它无法告诉外部研究者怎样训练一个 Claude 3.7，也无法区分能力来自 pretraining、post-training、tool scaffold、prompt addendum 还是 inference-time ranking。第二，它的 agent benchmark 横向比较需要非常小心，因为不同厂商用不同 scaffold。第三，visible thinking 的科学地位仍尴尬：它能帮助用户和研究者观察模型，但不能直接证明模型为什么做出某个决定。

第四，computer use 的安全边界仍不完整。88% prompt-injection 防护比 74% 好很多，但它不是形式化保证；0.5% false positive 在大规模企业工作流里也可能产生大量干扰。第五，ASL-2 判断是某个时间点的部署判断，不是永久许可证。模型能力、工具权限、攻击方式和用户工作流都会变，system card 需要持续更新。

未来方向¶

下一步最值得看的方向，是“agent safety evaluation”标准化。SWE-bench 和 OSWorld 解决了一部分任务能力问题，但安全侧还需要等价的公开基准：模型是否会执行网页里的恶意指令？是否会把隐藏 prompt 当作用户命令？是否会在代码仓库里泄露 secret？是否会在不确定时请求人类确认？这些问题比单纯 AIME 分数更接近真实部署风险。

另一个方向是 faithful reasoning interface。Claude 3.7 让思考可见，但 Anthropic 自己也承认当前思考链不一定 faithful。未来可能出现介于“完全 raw CoT”和“只给摘要”之间的接口：模型能在需要时给出可审计理由，但不默认暴露所有内部草稿；系统能监控异常推理模式，但不把 CoT 当作唯一证据。