跳转至

Qwen2.5 / Qwen3 - 阿里通义千问如何把开放模型做成全栈模型族

2025 年 4 月 29 日,阿里 Qwen Team 发布 Qwen3;5 月的 Qwen3 Technical Report 把这次发布写成了一条清晰的路线:不是只追一个 235B-A22B 旗舰 MoE,而是把 2024 年 9 月 Qwen2.5 的 18T-token dense 家族,推进到 36T-token、119 种语言、dense+MoE、thinking/non-thinking 可切换、工具调用和本地部署都一起打包的开放模型系统。Qwen3 最有意思的地方不在“又一个国产大模型”,而在它把开放模型的竞争问题改写成:谁能让推理、代码、多语言、长上下文和 agent 工程同时可下载、可部署、可二次训练?

一句话总结

Qwen Team 在 2025 年 arXiv 技术报告《Qwen3 Technical Report》中做的不是单点 SOTA 论文,而是把 Qwen2.5 到 Qwen3 的开放模型路线压成一套可复用系统:底层仍是 decoder-only Transformer,用自回归目标 \(\mathcal{L}_{\text{LM}}=-\sum_t\log p_\theta(x_t\mid x_{<t})\) 吃下 Qwen2.5 的 18T-token 经验,再扩到 Qwen3 约 36T tokens;后训练则把 long-CoT cold start、rule-based reasoning RL、thinking-mode fusion 和 general RL 串起来,让同一个模型能在 enable_thinking=True/False 之间切换。它替代的失败 baseline 不是某个模型,而是“开放模型只能追单项榜单”的做法:Qwen3-30B-A3B 只激活 3B 参数却对标更大推理模型,Qwen3-4B 被官方描述为可追平 Qwen2.5-72B-Instruct,而 235B-A22B 把 MoE、推理预算和多语言能力放进同一发布包。历史影响上,它接上 Llama 3(2024) 的开放权重工程化路线,也回应 DeepSeek-R1(2025) 的推理 RL 震动;隐藏 lesson 是:开放模型的壁垒正在从“有没有权重”迁移到“有没有完整生态、数据飞轮和可服务的思考接口”。


历史背景

从 Qwen 到 Qwen2.5:中文模型不再是英语模型的附属品

Qwen3 的故事要从一个更早的变化讲起:2023 年之后,开放大模型不再只是“拿英文模型做中文适配”。LLaMA 泄露和 Llama 2 商业许可让开放权重路线跑通,但对中文、代码、数学、长上下文和工具调用都有真实需求的团队很快发现,英语优先的 base model 不是万能底座。中文互联网文本、跨语种对齐、代码题、数学题、结构化输出、函数调用模板,这些东西如果只在后训练阶段补,模型会像贴了一层本地化外壳;真正稳定的能力必须进入预训练和模型族设计。

Qwen 系列正是在这个空位里长起来的。Qwen1.5 / Qwen2 把中文和英文、多语言、长上下文、代码、数学、VL 分支逐渐铺开;到 2024 年 9 月的 Qwen2.5,官方不再只发布一个 flagship checkpoint,而是一次性给出 0.5B、1.5B、3B、7B、14B、32B、72B 的 dense LLM,以及 Qwen2.5-Coder、Qwen2.5-Math 和 Qwen2-VL。这个节奏说明 Qwen 团队真正要做的是“模型产品线”,不是“一个榜单冠军”。

Qwen2.5 的几个数字很关键:最多 18T tokens,128K 输入上下文,最多 8K 生成长度,29+ 种语言,MMLU 85+、HumanEval 85+、MATH 80+ 这样的官方 headline。更重要的是,Qwen2.5 把结构化输出、JSON、表格理解、system prompt 稳定性、工具调用模板这些“工程味很重”的能力写进 release。它不像传统论文那样只证明一个新模块,而是在告诉开发者:这个模型要被长期服务、微调、量化、接 agent,而不是只被离线评测。

2024 年的开放模型压力:Llama 3、DeepSeek 与闭源 API

2024 年是开放模型的压力测试。Meta 的 Llama 3 把开放权重推到 405B dense 旗舰,公开了 15.6T tokens、128K context、后训练、安全组件和 FP8 推理等工程细节;Mistral / Mixtral 让 MoE 成为开放模型推理成本的新选项;DeepSeek-V2/V3 用 MLA + MoE 证明中国团队可以在训练与推理效率上做系统级创新;闭源侧 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 则持续把能力上限、长上下文和多模态体验往前推。

在这个竞争里,Qwen2.5 的位置很微妙。它没有 Llama 3 那种“开放权重直接挑战 GPT-4”的政治冲击,也没有 DeepSeek-V3 那种“训练成本叙事”带来的震撼,但它有另外一种优势:覆盖面极宽。一个开发者可以在同一个家族里找 3B 本地模型、32B 均衡模型、72B 强模型、coder、math、VL、tool calling 和中文/英文能力。它像一个模型操作系统的组件库,而不是一枚单点旗舰。

这种路线的压力也很明显:如果开放模型只靠“多尺寸、多任务、多语言”堆生态,推理能力怎么办?2024 年 9 月 OpenAI o1 出来以后,所有开放模型都被迫回答同一个问题:能不能让模型像 o1 一样“花更多 token 想更难的问题”?DeepSeek-R1 在 2025 年 1 月用 rule-based reward + GRPO 把问题进一步推到开放社区面前:推理不是 prompt 魔法,而是可以通过 RL 和可验证任务系统训练出来的能力。Qwen3 正是在这个窗口发布。

Qwen3 发布时的关键问题:推理预算能不能交给用户控制

Qwen3 的官方标题是 “Think Deeper, Act Faster”。这句话很像 marketing,但背后有一个真正的技术矛盾:同一个模型如果总是长思考,简单问题会浪费延迟和成本;如果总是短回答,数学、代码、规划和工具调用又会不够稳。DeepSeek-R1 把“长 CoT + RL”推上主线,但它也让用户看到一个代价:模型会倾向于输出很长的思考过程,服务系统要处理 reasoning_content,UI 要决定展示还是隐藏,agent 框架要避免把思考内容切断。

Qwen3 的解法是 hybrid thinking modes:thinking mode 用长 CoT 做复杂推理,non-thinking mode 用快速响应处理普通聊天和低成本任务;用户可以通过 enable_thinking=True/False,以及 /think/no_think 这类软开关,按任务切换推理预算。这不是一个简单 UI 选项,而是把“推理预算”从模型内部超参数变成应用层可控接口。对开发者来说,这意味着同一个 checkpoint 可以同时服务客服、代码、数学、agent 工具调用和本地聊天,而不是为每个场景维护完全不同的模型。

这里的反直觉点在于:Qwen3 并没有把自己包装成“纯推理模型”。它反而把推理和不推理放在同一个发布里。后来 Qwen3-2507 又拆出 Instruct-only 和 Thinking-only 变体,说明 hybrid 设计在产品中仍有取舍;但 2025 年 4 月的原始 Qwen3 已经把一个新问题摆到开放模型生态面前:模型是否应该把“想多久”暴露给用户和 serving stack?

直接前序:五条技术线

技术线 代表节点 Qwen3 继承了什么
开放权重 LLaMA、Llama 2、Llama 3 权重发布、模型卡、生态协作、商业可用性
数据规模 Chinchilla、PaLM、Qwen2.5 从参数竞赛转向 token、质量、合成数据与数据 mix
稀疏 MoE Switch Transformer、GLaM、Mixtral、DeepSeekMoE 用总参数量换容量,用 active 参数控制推理成本
推理训练 CoT、o1、DeepSeek-R1 long-CoT、rule-based reward、推理预算 scaling
工具与 agent Toolformer、ReAct、Qwen-Agent 把函数调用、MCP、工具解析和服务框架放进模型生态

这五条线在 Qwen3 里汇合:dense 模型保证可部署性和尺寸覆盖,MoE 模型承担旗舰容量,36T-token 预训练吸收 Qwen2.5-VL / Qwen2.5-Coder / Qwen2.5-Math 反哺的数据,post-training 则吸收 DeepSeek-R1 之后的推理 RL 共识。Qwen3 的历史意义不在某个公式,而在它把这些线做成了一套可以下载、微调、部署和接工具的模型家族。

研究背景与动机

动机 1:把“模型族”做成基础设施,而不是单点榜单

Qwen2.5 / Qwen3 最核心的动机,是把大模型从“一个最大模型”改造成“多尺寸、多专长、多部署路径的基础设施”。这和传统论文的叙事不一样:传统论文会突出一个新 architecture 或一个 benchmark 领先点;Qwen3 更像一个 release engineering 论文,回答的是开发者选型时的连续问题:我有多少显存?要不要本地跑?要不要长上下文?要不要中文?要不要代码?要不要数学?要不要工具调用?要不要 thinking?

这种模型族策略让 flagship 模型不只是产品门面。Qwen3-235B-A22B 提供能力上限,Qwen3-30B-A3B 给出更便宜的 MoE 方案,32B/14B/8B/4B/1.7B/0.6B dense 模型覆盖从服务器到本地设备的梯度。Qwen2.5-Coder 和 Qwen2.5-Math 则承担“专家数据飞轮”:它们既是可用模型,也是生成代码、数学、教材和问答数据的工具。Qwen3 官方博客明确提到,Qwen2.5-Math 和 Qwen2.5-Coder 被用来生成合成数据,这意味着旧模型不是被淘汰,而是被纳入新模型的数据生产链。

动机 2:让长上下文、多语言、代码与数学进入同一主线

另一个动机是能力整合。很多开放模型会在发布后再补 coder、math、long-context、VL、agent 分支,结果是用户面对一堆互不兼容的 checkpoint。Qwen2.5 开始把这些分支系统化:基础 LLM 支持 128K,上层有 Coder 和 Math 专家模型,VL 分支处理图像和文档,Qwen-Agent 处理工具调用。Qwen3 再把多语言扩到 119 种语言和方言,并把 PDF-like 文档抽取、数学/代码合成数据、STEM 数据比例调整写进预训练流程。

这件事对中文读者尤其重要。中文模型过去常被评价为“中文好、英文弱”或“本地化强、前沿弱”。Qwen3 想证明的不是中文模型可以在中文榜单上赢,而是一个中国团队维护的开放模型族可以在英语、中文、多语言、代码、数学、长上下文、工具调用和本地部署之间保持同一套工程标准。它不再把中文当作补丁,而是把中文、多语言和英文一起放进 foundation model 的核心数据与后训练里。

动机 3:用可切换 thinking 重新定义开放推理模型

Qwen3 的第三个动机,是回应 2025 年初的推理模型热潮。DeepSeek-R1 证明 rule-based RL 可以让开源模型学会长推理,但应用层还需要更细的控制:什么时候需要 32K token 的思考?什么时候 200 token 的回答就够?如果模型在所有请求上都进入长思考,吞吐、成本和用户体验都会被拖垮;如果默认不思考,困难任务又会退化。

Hybrid thinking mode 把这个问题显式化。Qwen3 不只是“会思考”,而是尝试把思考模式做成可路由能力:用户、系统 prompt、chat template、serving parser 和 agent 框架都能参与控制。这个设计也解释了为什么 Qwen3 的官方文档花大量篇幅讲 Transformers、SGLang、vLLM、llama.cpp、Ollama、Qwen-Agent 的用法。推理能力一旦变成服务接口,模型论文就不能只讲 loss 和 benchmark,它必须讲 tokenizer 特殊 token、reasoning parser、context length、max_new_tokens、工具调用模板和部署框架。


方法详解

总体框架:Qwen2.5 打地基,Qwen3 做相变

Qwen2.5 / Qwen3 的方法不是一个孤立的新层,而是一条 model-family pipeline。它的底层目标仍然很朴素:给定 token 序列 \(x_1,\dots,x_T\),训练 decoder-only Transformer 预测下一个 token。

\[ \mathcal{L}_{\text{LM}}(\theta)=-\sum_{t=1}^{T}\log p_\theta(x_t\mid x_{<t}). \]

真正的变化在系统层。Qwen2.5 把 dense family、coder、math、VL、长上下文和工具调用模板铺开;Qwen3 再把这些资产纳入新一轮预训练与后训练:用 Qwen2.5-VL 抽取 PDF-like 文档文本,用 Qwen2.5 提升抽取质量,用 Qwen2.5-Math 和 Qwen2.5-Coder 生成数学、代码、教材和问答合成数据;然后通过 36T-token 预训练、MoE 扩容、long-CoT SFT、rule-based reasoning RL、thinking-mode fusion 和 general RL,把模型族推到“既能快答也能深想”的状态。

模块 典型模型 作用 对 Qwen3 的贡献
Qwen2.5 dense 0.5B-72B 通用语言、长上下文、多语言 提供 18T-token 预训练地基
Qwen2.5-Coder 1.5B/7B/32B 代码生成、调试、程序题 生成代码数据,提升 agent 工程能力
Qwen2.5-Math 1.5B/7B/72B 数学推理、CoT/PoT/TIR 生成数学合成数据,提供可验证任务
Qwen2-VL / Qwen2.5-VL 视觉语言 文档、图像、OCR-like 抽取 把 PDF-like 文档转成预训练文本
Qwen3 dense small 0.6B/1.7B/4B 本地、端侧、低成本服务 让开放模型进入小显存场景
Qwen3 dense large 8B/14B/32B 主力通用模型 在能力和部署成本之间折中
Qwen3 small MoE 30B-A3B 30B 总参数,3B active 用少量激活参数换取高容量
Qwen3 flagship MoE 235B-A22B 235B 总参数,22B active 承担开放权重旗舰能力上限

这张表背后的方法论是:不要把“模型”理解为一个 checkpoint,要理解为一个生产网络。旧模型生成新数据,专家模型反哺通用模型,小模型扩大部署面,大模型提供蒸馏和评测上限,agent 框架把能力接到真实工作流。Qwen3 的技术贡献更多体现在这个网络的耦合方式,而不是单个模块的惊艳程度。

关键设计 1:dense 家族先覆盖,再用专家模型补能力

Qwen2.5 的 dense family 是 Qwen3 的地基。为什么先做 dense?因为 dense Transformer 的训练和服务最稳定,生态支持最成熟,量化、LoRA、vLLM、llama.cpp、Ollama、MLX、移动端导出都更容易。对开放模型来说,稳定可部署比“论文上更花”的结构更重要。0.5B 到 72B 的连续尺寸让用户可以按预算选择,而不是在“太弱的小模型”和“跑不动的大模型”之间二选一。

专家模型则解决 dense 通用模型的能力短板。代码和数学不是简单的领域词表问题,它们需要可执行反馈、形式化答案、长链推理和数据生成。Qwen2.5-Coder 使用大规模代码相关数据,Qwen2.5-Math 支持 CoT、PoT 和 TIR;到了 Qwen3,这些专家模型不只是单独供用户下载,也被用来制造更高质量的预训练数据。这个设计形成了一个数据飞轮:

  1. 通用模型学会宽覆盖语言和知识;
  2. 专家模型在代码/数学上做高密度训练;
  3. 专家模型生成或清洗高质量合成数据;
  4. 新一代通用模型再吸收这些数据。

这种路径的隐藏好处是可控。相比完全依赖互联网抓取,代码题、数学题、教材、问答和文档抽取都更容易做质量过滤,也更容易与 rule-based reward 对接。Qwen3 后训练里的 reasoning RL 需要可验证任务,而 Qwen2.5-Math / Coder 正好提供了数据和任务形态。

关键设计 2:36T-token 预训练分三阶段,而不是只加 token

Qwen3 官方博客把预训练分成三阶段。第一阶段在超过 30T tokens 上用 4K context 打语言、知识和通用能力底座;第二阶段再加入 5T tokens,提升 STEM、代码和推理等知识密集数据比例;第三阶段用高质量长上下文数据把 context 扩到 32K。后续公开模型的上下文能力又通过不同模型卡和服务方式扩到 128K 乃至更新版本的更长窗口。

阶段 数据 / 上下文 目标 为什么不是简单堆量
S1 30T+ tokens, 4K context 语言、知识、基础能力 先让模型学稳,不让长上下文噪声拖累基础分布
S2 额外 5T tokens STEM、代码、推理增强 把高价值数据后置,提高边际收益
S3 高质量长上下文数据, 32K context 长文档和长依赖 用更干净的数据学习位置外推和长程检索

这里有一个容易被忽略的点:Qwen3 的 36T tokens 不是“网页多抓一倍”这么简单。官方描述中,PDF-like 文档通过 Qwen2.5-VL 抽取,再由 Qwen2.5 提升质量;数学和代码数据通过 Qwen2.5-Math / Coder 合成。也就是说,Qwen3 的数据管线已经明显模型化:上一代模型不仅消费数据,也生产数据。

从训练目标看,预训练仍是 next-token prediction;从数据系统看,Qwen3 已经进入“模型生成数据、数据训练模型”的循环。这个循环的风险是自我污染和错误固化,收益是高质量稀缺领域数据可以被放大。Qwen3 的论文和博客没有完全公开数据配比与过滤细节,所以外部无法完整复现,但方法方向很明确:用模型族自身制造下一代模型需要的高密度训练信号。

关键设计 3:Hybrid thinking modes 把推理预算变成接口

Qwen3 最有辨识度的设计是 hybrid thinking mode。它不是单纯让模型“输出思维链”,而是把模型行为分成两种模式:thinking mode 面向数学、代码、逻辑、STEM 和复杂 agent 任务;non-thinking mode 面向普通聊天、快速问答和低延迟请求。用户可以在 chat template 或 prompt 里控制模式。

\[ \text{answer}=f_\theta(x, m),\quad m\in\{\text{think},\text{no-think}\},\quad C_{\text{infer}}\approx |x|+|\text{reasoning}|+|\text{answer}|. \]

这个公式故意写得简单:推理成本大致来自输入、隐藏/显式思考和最终答案。Qwen3 的目标不是让所有请求都最大化 \(|\text{reasoning}|\),而是让应用根据任务选择 \(m\)。这让模型从“固定行为”变成“可路由行为”。

模式 典型输入 输出形态 工程含义
Thinking 数学证明、代码调试、复杂规划 长 reasoning + 最终答案 需要更长 max_new_tokens 与 reasoning parser
Non-thinking 闲聊、摘要、简单问答 直接答案 更低延迟、更高吞吐、更少 token 成本
Soft switch /think/no_thinkenable_thinking 同一会话内切换 把推理预算交给应用层控制

一个简化的应用层路由可以写成这样:

def route_qwen3(prompt, task_type, latency_budget_ms):
    hard_tasks = {"math", "code", "logic", "agent_planning", "stem"}
    enable_thinking = task_type in hard_tasks and latency_budget_ms >= 1500
    messages = [{"role": "user", "content": prompt}]
    return tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True,
        enable_thinking=enable_thinking,
    )

真实系统当然会更复杂:还要考虑用户层级、上下文长度、工具调用状态、是否允许展示思考内容、serving 框架如何解析 reasoning_content。但这个伪代码抓住了 Qwen3 的核心:思考不是只能在模型内部发生,它也可以成为应用调度的一部分。

关键设计 4:MoE 用 active 参数改写“旗舰模型”的成本定义

Qwen3 同时发布 dense 和 MoE,是因为两者解决的问题不同。Dense 模型适合稳定服务、微调和端侧生态;MoE 模型适合把总容量拉大,同时让每个 token 只激活一部分专家。Qwen3-235B-A22B 的命名很直接:235B 总参数,约 22B active 参数。Qwen3-30B-A3B 则是 30B 总参数,约 3B active 参数。

\[ \text{FLOPs}_{\text{MoE/token}}\approx \text{FLOPs}_{\text{shared}}+k\cdot\text{FLOPs}_{\text{expert}},\quad k\ll N_{\text{experts}}. \]

MoE 的关键不是“参数越多越好”,而是“容量和激活成本分离”。总参数提供更多专家容量,active 参数决定每个 token 的主要推理成本。Qwen3-30B-A3B 的历史定位尤其有意思:它不是最大模型,却以 3B active 参数挑战更大 dense 推理模型,说明开放模型的竞争不再只看总参数,也要看 active 参数、吞吐、路由稳定性和服务生态。

路线 优点 代价 Qwen3 中的角色
Dense small 易部署、易量化、端侧友好 能力上限有限 0.6B/1.7B/4B
Dense mid/large 稳定、生态兼容、微调方便 推理成本随参数线性上升 8B/14B/32B
Small MoE active 参数少,容量更大 路由和 serving 更复杂 30B-A3B
Flagship MoE 能力上限高,成本低于同等 dense 训练、推理、并行都复杂 235B-A22B

这也解释了为什么 Qwen3 文档如此强调 SGLang、vLLM、KTransformers、llama.cpp、Ollama 等框架。MoE 模型如果没有 serving 支持,只是论文里的容量;一旦推理框架支持专家路由、reasoning parser、长上下文和量化,它才成为开发者可用的模型。

关键设计 5:post-training 不是“聊天调优”,而是模式融合

Qwen3 的 post-training 分四步:long-CoT cold start、reasoning RL、thinking mode fusion、general RL。第一步给模型基本长推理格式和能力;第二步在数学、代码、逻辑、STEM 等可验证任务上用 rule-based reward 做 RL;第三步把 non-thinking 能力融入 thinking 模型,让模型能在长思考和快速响应之间切换;第四步在 20+ 通用任务上做 general RL,修正格式、指令跟随、agent 能力和不良行为。

如果把 reward 写成简化形式,可以理解为:

\[ r(y\mid x)=\lambda_a r_{\text{answer}}+\lambda_f r_{\text{format}}+\lambda_t r_{\text{tool}}+\lambda_s r_{\text{safety}}. \]

不同阶段调整的是 reward 组成和数据分布。Reasoning RL 更重视答案正确性与格式,general RL 则加入 instruction following、tool use、安全和偏好对齐。Qwen3 和 DeepSeek-R1 的共同点是都承认可验证任务对推理训练的价值;差异是 Qwen3 要把这种推理能力和普通 chat、工具调用、多语言体验融合到同一个模型族中。

这个设计的难点在“融合”。如果只训练 thinking,模型会在简单任务上过度思考;如果只训练 non-thinking,复杂任务不够强;如果混合不当,模型会在会话中忘记当前模式,或者在工具调用时把思考内容泄漏到参数里。Qwen3 选择把模式控制写进 tokenizer/chat template/serving parser 的接口层,说明它把 post-training 看作模型行为和系统接口共同设计,而不是最后一轮 SFT 的附属步骤。


失败案例

基线 1:只做一个更大的 dense 模型

如果把 Qwen3 简化成“训练一个更大的 Qwen2.5”,最自然的 baseline 是继续沿 dense 路线堆参数:从 72B 往上推到 100B、200B,像 Llama 3 405B 那样用 dense flagship 证明开放权重上限。这个路线的优点是简单、稳定、生态兼容,但对 Qwen3 来说不是最优答案。原因很现实:dense 模型的推理成本大致跟参数规模线性相关,越往上越难让普通开发者部署;而 Qwen 系列的优势恰恰在“很多人真的能用”。

Qwen3 没有放弃 dense,而是把 dense 放在 0.6B 到 32B 的可部署区间,再用 MoE 承担旗舰容量。这样做避免了两个极端:一边是只有巨大模型能看,生态难以铺开;另一边是只做小模型,能力上限被锁死。30B-A3B 和 235B-A22B 的意义就在这里:把“总容量”和“每 token 激活成本”拆开,让开放模型不仅能强,也能被更多 serving 框架承接。

失败路线 看起来合理的理由 实际问题 Qwen3 的替代
单一 dense flagship 结构简单,容易对标 Llama 3 405B 推理成本高,生态覆盖窄 dense 多尺寸 + MoE flagship
只做小模型 本地友好,下载量大 能力上限不足,难做蒸馏源 0.6B-32B dense + 235B-A22B
只做 MoE active 参数便宜,容量大 路由、量化、微调和服务复杂 dense 与 MoE 同时发布
只发布 instruct 用户直接可用 研究者和企业难以继续训练 base + post-trained 同时给出

失败不在于这些路线“不能用”,而在于它们只能优化一个维度。Qwen3 的路线是把多个维度绑在一起:能力、成本、生态、可微调性和可服务性同时纳入 release 设计。

基线 2:只做 single-mode reasoning model

DeepSeek-R1 之后,最容易跟风的方案是训练一个纯 thinking model:所有困难任务都走长 CoT,所有回答都默认思考,模型在数学和代码榜单上打高分。这条路短期很有吸引力,因为 benchmark 喜欢困难题,长推理能快速拉开差距。但它对真实应用不友好。客服、摘要、改写、闲聊、分类、格式转换、检索问答这些任务并不需要长思考;如果每次都生成大量 reasoning tokens,吞吐、延迟和成本都会被拖垮。

Qwen3 的 hybrid mode 正是在反对这个 baseline。它承认推理能力重要,但不把所有请求都变成推理题。thinking mode 解决复杂问题,non-thinking mode 保持日常交互速度,软开关让应用在同一会话里切换。后来的 Qwen3-2507 拆出 Instruct-only 与 Thinking-only 版本,反过来也说明 single checkpoint hybrid 有工程摩擦;但原始 Qwen3 的思想价值在于:它把“是否思考”变成可控变量,而不是默认风格。

基线 3:英语优先,再补中文和多语言

另一个失败 baseline 是英语优先训练,然后在后训练中补中文和多语言。这条路线在早期开源模型里很常见,因为高质量英文数据最多,英文 benchmark 最密集,国际影响力也主要来自英文评测。但它对 Qwen 这样的模型族不够。中文、日文、韩文、阿拉伯语、东南亚语言、代码混合注释、跨语言检索和本地办公文档,并不是最后一层 SFT 可以完全修复的能力。

Qwen3 把多语言写进预训练主线,官方列出 119 种语言和方言;Qwen2.5 也已经支持 29+ 种语言。这个选择让模型不仅能“翻译中文”,还能在中文和多语言场景里保持工具调用、结构化输出、长上下文和推理一致性。它也让 Qwen 在全球开放模型生态里不只是“中国版 Llama”,而是一个以多语言数据和中文场景为核心资产的模型族。

基线 4:只发模型,不发系统接口

最后一个失败 baseline 是只把权重扔到 Hugging Face。2023 年这也许已经足够震撼;到 2025 年,已经远远不够。用户需要的是可以部署的模型:Transformers 能跑,vLLM 能 serve,SGLang 能做高吞吐,llama.cpp / Ollama / LM Studio 能本地用,Qwen-Agent 能接工具,reasoning parser 能处理 <think>reasoning_content,量化格式能进不同硬件。

Qwen3 把这些写进 README 和文档,说明它理解开放模型的“失败”常常发生在论文之后:权重有了,但服务框架不支持;能力有了,但工具调用模板不统一;长上下文有了,但默认 num_ctx 太小;thinking 有了,但 API 把 reasoning_content 丢掉。Qwen3 的系统接口设计不是附属品,而是模型能否被大规模采用的关键实验数据。

实验关键数据

模型家族数字

Qwen3 的实验数据首先体现在 release geometry,而不是某一个榜单数字。它用多尺寸 dense + 两个 MoE 组成能力阶梯,并把 Qwen2.5 的长上下文、多语言、coder/math 专家线继承下来。

组件 参数 / 数据 官方关键信号 解读
Qwen2.5 LLM 0.5B-72B, up to 18T tokens 128K context, 29+ languages dense 地基和多尺寸覆盖
Qwen2.5-Coder 1.5B/7B/32B 5.5T code-related tokens 代码专家和合成数据来源
Qwen2.5-Math 1.5B/7B/72B CoT/PoT/TIR, 中英数学 可验证推理任务来源
Qwen3 dense 0.6B/1.7B/4B/8B/14B/32B 小模型到主力模型连续覆盖 本地、服务器、微调梯度
Qwen3 MoE 30B-A3B, 235B-A22B 3B / 22B active params 容量与推理成本分离
Qwen3 data approximately 36T tokens 119 languages and dialects 数据规模和多语言范围翻倍级提升

这些数字的关键在“连续性”。Qwen3-4B 被官方描述为可与 Qwen2.5-72B-Instruct 对标,Qwen3 dense base 模型被描述为能匹配更大一档的 Qwen2.5 base,MoE base 则用约 10% active 参数达到类似 dense base 的效果。这些说法即使需要逐 benchmark 细看,也足以说明 Qwen3 想证明的是知识密度和 active-parameter 效率,而不只是总参数。

Benchmark 信号

官方博客给出的 benchmark 图没有全部以文本表格形式释放,但几个 headline 清楚地表达了实验方向:Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Pro 等顶级模型比较;Qwen3-30B-A3B 以远小于 QwQ-32B 的 active 参数竞争推理能力;Qwen3-4B 对标 Qwen2.5-72B-Instruct;Qwen2.5-72B-Instruct 则在 2024 年对 Llama-3.1-70B、Mistral-Large-V2 等开放模型给出强对比。

实验信号 对比对象 论文 / 博客想证明 需要谨慎读法
Qwen3-235B-A22B DeepSeek-R1, o1, o3-mini, Grok-3, Gemini-2.5-Pro 开放 MoE flagship 可进入前沿讨论 官方图表需结合独立评测验证
Qwen3-30B-A3B QwQ-32B 等推理模型 3B active 参数也能做强推理 active 参数低不等于服务总成本为 3B dense
Qwen3-4B Qwen2.5-72B-Instruct 代际知识密度大幅提升 小模型不同任务上会有长尾弱点
Qwen2.5-72B Llama-3.1-70B, Mistral-Large-V2 dense 开放模型进入一线竞争 评测选择和 prompt 配置很关键
Qwen-Plus GPT-4o, Claude 3.5 Sonnet, Llama-3.1-405B API 旗舰接近闭源与开放前沿 API 模型不等同于开源权重

更重要的实验观察是“推理预算平滑可控”。Qwen3 官方展示了 thinking budget 与性能提升的关系,强调可按任务调节质量/成本。这类实验比单榜单更接近产品真实问题:当用户把 max_new_tokens 从几百调到几万,模型是否稳定变强?当应用切到 non-thinking,是否还能保持基本指令跟随?Qwen3 把这些问题放到 release 级别,比传统论文只给最终 accuracy 更贴近部署。

实用部署信号

Qwen3 的另一个关键数据来源是生态支持。一个开放模型如果只能在官方 demo 跑,影响力会很有限;如果能在 Transformers、vLLM、SGLang、llama.cpp、Ollama、LM Studio、MLX、TensorRT-LLM、OpenVINO、MindIE 等路径进入开发者机器,它才真正进入开放生态。

部署路径 Qwen3 支持点 为什么重要 风险
Transformers enable_thinking, chat template 研究和微调入口 版本要求高,显存压力大
vLLM / SGLang reasoning parser, OpenAI-compatible API 高吞吐服务 reasoning_content 处理不当会伤害 agent 任务
llama.cpp / Ollama GGUF, 本地命令行 个人设备和边缘部署 默认 context 太小会导致误用
Qwen-Agent function calling, MCP, built-in tools 把模型接到真实工具链 工具 schema 和权限需要治理
Quantization stack GPTQ, AWQ, GGUF, MLX 降低部署门槛 量化可能影响推理和多语言长尾

这些不是论文里的“漂亮配图”,但它们构成了 Qwen3 的真实实验:开放模型能否被不同硬件、框架、国家/地区和应用层接受。Qwen3 的强处是它把模型能力和部署说明绑在一起;局限是这种工程可用性很难用一个 benchmark 数字概括,也很依赖社区后续维护。


思想史脉络

前世:Qwen3 不是从推理模型突然长出来的

把 Qwen3 只放在 DeepSeek-R1 之后,会漏掉一半思想史。它当然继承了 2025 年初的推理 RL 氛围,但更早的根是开放权重、Chinchilla 式 token 观、LLaMA 生态、MoE 服务化和中文/多语言 base model。Qwen2.5 已经把 18T-token dense family、128K context、coder、math、VL 和工具调用铺好;Qwen3 的“新”不只是更强,而是把这些分支重新组织成一个能参与 reasoning-agent 时代的模型族。

前序思想 代表论文 / 系统 传到 Qwen3 的东西 Qwen3 的变形
Decoder-only LM Transformer, GPT 系列 自回归训练目标和统一文本接口 dense 与 MoE 都复用这套接口
Compute/data scaling Scaling Laws, Chinchilla token 规模和数据质量决定知识密度 18T 到 36T,并加入模型生成数据
Open weights LLaMA, Llama 2, Llama 3 权重发布带来外部创新 发布模型族、文档、工具和 serving 指南
Sparse MoE Switch, GLaM, Mixtral, DeepSeekMoE 容量和 active 参数分离 30B-A3B / 235B-A22B 进入主线
Reasoning traces CoT, o1, DeepSeek-R1 长思考、可验证任务、RL thinking/non-thinking 可切换
Agent/tool use Toolformer, ReAct, Qwen-Agent 模型调用外部环境 MCP、function calling、serving parser 一体化

这条谱系显示,Qwen3 不是“DeepSeek-R1 的 Alibaba 版本”,也不是“Llama 3 的中文版本”。它更像两条路线的交叉点:一条是 Llama 以来的开放权重工程化,一条是 o1/R1 以来的推理预算工程化。Qwen3 把两者合并成一个可部署模型族。

今生:开放模型从 checkpoint 变成平台

Qwen3 发布后,最直接的影响不是某个单一 benchmark,而是开放模型平台化。开发者关心的不只是“这个模型强不强”,还会问:有没有 4B 可以本地跑?有没有 30B-A3B 可以在单机多卡上跑?有没有 235B-A22B 做旗舰?有没有 base 方便继续训练?有没有 instruct 直接用?有没有 thinking parser?有没有工具调用模板?有没有中文和多语言长尾?有没有量化和本地部署?

这让 Qwen3 在思想史上更接近 Llama 3 和 vLLM,而不只是接近 DeepSeek-R1。Llama 3 证明开放权重可以做前沿工程报告;vLLM 证明服务系统能定义模型可用性;DeepSeek-R1 证明推理 RL 可以开源化;Qwen3 试图把三者放到同一个模型家族 release 里。

graph TD
    Transformer[Transformer 2017<br/>decoder-only LM backbone]
    Scaling[Scaling Laws and Chinchilla<br/>tokens vs parameters]
    LLaMA[LLaMA and Llama 2<br/>open-weight ecosystem]
    Llama3[Llama 3 2024<br/>open frontier engineering]
    Mixtral[Mixtral and DeepSeekMoE<br/>open sparse MoE]
    CoT[CoT and o1<br/>reasoning budget]
    DeepSeekR1[DeepSeek-R1 2025<br/>rule-reward RL]
    Qwen25[Qwen2.5 2024<br/>18T dense family]
    Qwen3[Qwen3 2025<br/>hybrid dense+MoE family]
    Qwen2507[Qwen3-2507<br/>separate instruct/thinking]
    QwenAgents[Qwen-Agent and serving stack<br/>tools plus deployment]

    Transformer --> Qwen25
    Scaling --> Qwen25
    LLaMA --> Llama3
    LLaMA --> Qwen25
    Llama3 --> Qwen3
    Mixtral --> Qwen3
    CoT --> DeepSeekR1
    DeepSeekR1 --> Qwen3
    Qwen25 --> Qwen3
    Qwen3 --> Qwen2507
    Qwen3 --> QwenAgents

误读:Qwen3 容易被误读成什么

Qwen3 最常见的误读有四个。第一,把它当作“国产模型追榜”。这种读法会漏掉模型族、工具、serving、数据飞轮和多语言策略。第二,把它当作“DeepSeek-R1 之后的又一个 thinking model”。事实上 Qwen3 的关键点恰恰是 thinking 与 non-thinking 共存。第三,把 MoE active 参数当成实际全部成本。30B-A3B 的 active 参数很小,但 serving 仍要处理路由、专家权重、KV cache、并行和通信。第四,把开放权重当成完整开源科学。Qwen3 公开权重、报告和大量文档,但完整预训练数据、过滤器、训练代码和后训练细节并没有全部公开。

误读 为什么会出现 更准确的读法
“Qwen3 只是追榜模型” 官方 benchmark 图很醒目 它是模型族和生态 release
“Qwen3 就是 R1 风格推理模型” thinking mode 很吸引注意 它的核心是 thinking/non-thinking 路由
“3B active 就等于 3B dense 成本” MoE 命名突出 active 参数 总权重、路由和 serving 复杂度仍重要
“开放权重等于可完全复现” GitHub/Hugging Face 很完整 数据和训练 recipe 仍有边界

这些误读本身也说明 Qwen3 的位置有点复杂。它不是纯研究论文,也不是普通产品公告,而是介于论文、模型仓库、文档、生态工程和品牌叙事之间的综合体。对 awesome-papers 来说,值得记录的正是这种“论文形态变化”:经典 AI 论文越来越像系统发布。

一张图:从开放权重到可控思考

Qwen3 的思想史可以压缩成一句话:开放模型从“我能下载权重”走向“我能控制模型怎么想、怎么用工具、怎么部署”。 LLaMA 打开权重,Llama 3 把开放权重做成前沿工程报告,DeepSeek-R1 把推理 RL 拉到开源社区,Qwen3 则把这些能力收束进一个可选择尺寸、可选择 dense/MoE、可选择 thinking/non-thinking、可选择部署框架的模型族。

这也是它和很多单点模型不同的地方。单点模型的影响通常来自一个能力跃迁;Qwen3 的影响来自组合:数据规模、专家数据、MoE、reasoning RL、hybrid mode、工具调用、部署生态和多语言覆盖同时出现。每一项单独看都不是第一次,但它们合在一起,改变了开放模型的默认期待。


当代视角

站得住的判断

到 2026 年回看,Qwen3 最站得住的判断是:开放模型的竞争已经从“谁发了最强权重”变成“谁维护了最完整的模型系统”。Qwen3 的 dense 尺寸、MoE 旗舰、base/instruct、thinking/non-thinking、Qwen-Agent、Transformers/vLLM/SGLang/llama.cpp/Ollama 支持,共同构成了它的护城河。单个榜单会过期,模型权重会被新版本替代,但生态接口和数据飞轮会留下来。

第二个站得住的判断,是 active 参数会成为开放模型讨论里的关键数字。过去开发者习惯问“这个模型多少 B?”Qwen3-30B-A3B / 235B-A22B 让问题变成“总参数、激活参数、KV cache、专家路由、吞吐和显存分别是多少?”这比简单参数量更贴近部署现实。MoE 不会替代所有 dense 模型,但它让 flagship 能力和推理成本之间有了新调节杆。

第三个判断,是 reasoning budget 必须产品化。DeepSeek-R1 证明长思考有效,Qwen3 则把“是否思考”做成接口。这个方向在后来分化成两个趋势:一类模型继续做 hybrid,让应用按请求切换;另一类模型拆成 Instruct-only 与 Thinking-only,让服务端更容易做路由。无论哪种,推理预算都不再是隐藏在模型内部的习性,而是系统设计的一部分。

判断 2025 年的证据 2026 年回看 仍需观察
模型系统比单权重更重要 Qwen3 同时发模型、文档、serving、agent 生态持续扩展,Qwen 组织模型数增加 社区维护质量能否长期稳定
active 参数成为核心指标 30B-A3B / 235B-A22B 命名即指标 MoE 服务成为常见部署选项 路由和量化对质量的影响
reasoning budget 产品化 /think/no_thinkenable_thinking thinking/instruct 分支进一步明确 用户是否真正理解何时开 thinking
多语言是 foundation 能力 119 languages and dialects 非英语开放模型生态更强 长尾语言质量和安全评测不足
旧模型会变成数据生产者 Qwen2.5-VL/Coder/Math 反哺 Qwen3 synthetic data flywheel 成为常态 自我污染与错误放大风险

已经被修正的判断

Qwen3 也有一些已经被现实修正的判断。最明显的是“一个 hybrid checkpoint 可以同时优雅覆盖 thinking 与 non-thinking”。原始 Qwen3 的设计很漂亮,但 Qwen3-2507 又把 Instruct 和 Thinking 分开,说明统一模型在产品、服务和用户心智上有摩擦。混合模式对高级开发者很灵活,对普通用户和 API 平台却可能带来不确定性:同一个模型什么时候会想太久,什么时候又想得不够?

第二个被修正的是“开源开放足够解决信任”。Qwen3 的权重、报告、博客和文档都很丰富,但它仍不是完全可复现的科学实验。数据来源、过滤规则、合成数据比例、RL 细节、评测 prompt 和安全训练都不是全量公开。开放权重降低了使用门槛,却没有自动解决可审计性。对企业和研究者来说,权重开放只是第一步。

第三个被修正的是“长上下文越长越好”。Qwen3 及其后续版本不断扩展 context,但真实应用里,长上下文质量取决于检索、位置鲁棒性、attention 实现、KV cache 管理和 prompt 组织。把 context window 拉大不等于模型真的理解所有内容。Qwen 文档提醒用户设置 num_ctxnum_predict,这类细节说明长上下文已经从模型参数变成部署工程问题。

2026 年回看 Qwen3 的位置

Qwen3 的位置可以这样概括:它不是 2025 年最戏剧性的论文,DeepSeek-R1 才是那个改变公众叙事的事件;它也不是第一个开放权重平台,LLaMA / Llama 3 已经把这条路铺得很远。但 Qwen3 是把这些趋势揉成“可用模型族”的关键节点之一。它的价值不在一个单点震动,而在持续铺路。

对中国 AI 生态来说,Qwen3 也有标志意义。它显示中文团队可以维护全球化开放模型基础设施,而不仅是做中文适配或国内榜单。对全球开发者来说,Qwen3 提供了 Llama / Mistral / DeepSeek 之外的又一条主线:强调中文和多语言、强调工具与 agent、强调多尺寸模型族、强调 dense 与 MoE 共存。

局限与展望

局限 1:可复现性边界仍然明显

Qwen3 的开放程度很高,但不是完整开源训练 recipe。外部团队可以下载权重、跑推理、做微调、读技术报告,却无法按论文完整重建 36T-token 数据、过滤器、合成数据流程、RL 训练和评测环境。这是当代 frontier/open-weight 模型的共同局限:权重开放和科学复现之间还有很长距离。

局限 表现 为什么重要 可能方向
数据不可复现 36T tokens 的来源和过滤不完整公开 难以审计偏差、污染和版权问题 发布更细 data card 与 contamination report
RL 细节有限 reward、采样、训练稳定性未全公开 难以复现 thinking 能力 开放小规模 RL recipe 和 ablation
评测透明度不足 官方图表多,prompt 细节有限 容易产生榜单误读 标准化 eval harness 与 prompts
系统复杂度高 MoE、long context、reasoning parser、tool use 交织 部署错误会被误判为模型失败 更强默认配置和诊断工具

局限 2:Hybrid thinking 的用户心智成本高

Hybrid thinking 是 Qwen3 最有创造性的设计之一,也带来认知成本。开发者要理解什么时候开启 thinking,用户要理解为什么同一个模型有时慢有时快,服务框架要正确处理 reasoning_content,安全策略要决定思考内容能否展示。这个复杂度解释了后来 Instruct-only / Thinking-only 版本的回归:分开模型牺牲了一部分优雅,但让路由和预期更清楚。

这并不说明 hybrid 失败。更准确地说,Qwen3 把问题提前暴露出来:未来模型可能不只有“一个能力水平”,还会有“多个运行模式”。像数据库有 query planner、操作系统有 power mode、浏览器有隐私模式一样,LLM 也可能需要显式模式管理。Qwen3 是这个方向的早期大规模实验。

展望:从模型族走向 agent 族

Qwen3 官方 future work 提到从训练模型转向训练 agents。这个判断很可能是下一阶段核心。模型族只是底座,真正的应用会要求模型在环境中行动:调用工具、写代码、读网页、操作文件、规划长任务、验证结果、记忆用户偏好、处理多模态输入。Qwen3 已经把 Qwen-Agent、MCP、tool calling 和 reasoning parser 放进生态,下一步自然是把模型能力和环境反馈绑定得更紧。

值得期待的方向包括:更公开的小规模 RL 复现实验,更可靠的 tool-use reward,更强的多语言安全评测,视觉/音频/文本统一模型,更低成本的 MoE serving,以及能根据任务自动分配 thinking budget 的 scheduler。Qwen3 已经证明“模型族”是一个有效组织方式;下一步要证明“agent 族”也能以开放方式组织起来。

相关工作与启发

给研究者的启发

Qwen3 给研究者的启发,是不要只盯 architecture novelty。很多真正改变生态的论文,创新点在系统组织方式:数据如何循环,旧模型如何生产新数据,专家模型如何反哺通用模型,thinking 如何暴露给服务层,MoE 如何和部署框架一起设计。研究论文如果只报告最终 accuracy,会漏掉这些机制。

相关方向 代表工作 与 Qwen3 的关系
开放权重工程 LLaMA, Llama 3 Qwen3 继承模型族和开放生态路线
推理 RL DeepSeek-R1, o1 system card Qwen3 接受 rule-reward RL 和 thinking budget 叙事
MoE scaling Switch, Mixtral, DeepSeek-V3 Qwen3 用 MoE 做 flagship 容量
工具调用 Toolformer, ReAct, Qwen-Agent Qwen3 把工具接口放进使用文档
合成数据 Self-Instruct, Code/math distillation Qwen2.5 专家模型反哺 Qwen3 数据
长上下文 Gemini 1.5, Llama 3.1, YaRN-style serving Qwen3 把长上下文与部署参数绑定

对学术写作来说,Qwen3 也提醒我们:经典论文不一定只有“提出一个算法”才经典。模型报告、系统文档和 release engineering 也会成为历史节点,因为它们改变了社区默认做法。

给工程团队的启发

工程团队从 Qwen3 得到的启发更直接:不要把模型选型只看成 benchmark 选择。实际问题包括许可证、上下文长度、吞吐、量化、工具调用、微调框架、reasoning parser、语言覆盖、默认 prompt、用户是否能理解模式切换。Qwen3 的文档之所以长,是因为这些细节决定模型是否真能上线。

另一个启发是保留多尺寸路径。很多团队会被最大模型吸引,但真实产品通常需要 4B/8B/14B/32B/30B-A3B 这样的梯度:本地 preview、小流量服务、私有云强模型、旗舰推理模型各有位置。Qwen3 的模型族思维比单旗舰更接近企业部署现实。

相关资源


🌐 English version · 📚 awesome-papers project · CC-BY-NC