阿里终于出手Qwen3正式发布
四月的AI界略显沉寂,眼看着这一周就要在平淡中结束。然而,阿里没有让人失望,期待已久的 通义千问 Qwen3 终于重磅登场,瞬间引爆全网。
这一次,AI界的“汪峰”终于成功抢到了头条。
那么问题来了——这次发布会到底发布了什么?
简单来说,一句话总结: 一次发布八款模型,覆盖多种规模与架构,全面开源!
具体来看:
2个MoE模型:分别是 Qwen3-235B-A22B 和 Qwen3-30B-A3B ,分别表示总参数为2350亿和激活约220亿 / 300亿;
6个稠密模型:包括 Qwen3-32B 、 Qwen3-14B 、 Qwen3-8B 、 Qwen3-4B 、 Qwen3-1.7B 和 Qwen3-0.6B 。
从个位数到千亿级,各种尺寸一应俱全,全部基于 Apache 2.0 协议开源。无论你是科研人员、开发者还是创业者,总有一款适合你。
模型性能怎么样?看数据说话!
旗舰模型 Qwen3-235B-A22B 在代码、数学以及通用能力等基准测试中,表现极具竞争力,对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。


更令人惊喜的是,小型 MoE 模型 Qwen3-30B-A3B 仅激活30亿参数,却拥有接近甚至超越传统大模型(如 QwQ-32B)的表现。即使是轻量级的 Qwen3-4B ,也能媲美 Qwen2.5-72B-Instruct 的性能。
核心亮点一览
1. 双模式推理机制:思考 or 不思考,自由切换
不同于 DeepSeek R1 或 OpenAI o1 这类专注于推理的模型,Qwen3 支持两种思考模式: 推理模式 与 非推理模式 ,并可以在两者之间无缝切换。这种灵活性让用户可以根据任务需求控制模型是否深入“思考”,实用性拉满。

2. 强化 Agent 能力:不只是模型,更是智能体
当前主流模型都在强化对 Agent 的支持,Qwen3 自然也不例外。其 Agent 功能和代码能力经过优化,并增强了对 MCP( 的支持,进一步提升了多智能体协作的能力。
训练细节揭秘
【预训练阶段】
Qwen3 的预训练数据量是 Qwen2.5 的两倍,总计高达 36 万亿 token ,涵盖 119 种语言与方言 。整个训练过程分为三个阶段:
S1 阶段
:基础语言技能与通用知识学习;
S2 阶段
:加强 STEM、编程和逻辑推理能力;
S3 阶段
:使用精心挑选的 5 万亿 token 数据集进行微调。

得益于架构优化、数据扩容及高效训练方法,Qwen3 的稠密基础模型在性能上已能匹敌甚至超越更大参数量的 Qwen2.5 模型。例如:
Qwen3-1.7B/4B/8B/14B/32B-Base ≈ Qwen2.5-3B/7B/14B/32B/72B-Base
尤其在 STEM、编码和推理领域,Qwen3 表现更为出色。
对于 MoE 模型而言,它们只需激活约10%的参数即可达到与 Qwen2.5 稠密模型相当的性能,显著降低了训练和推理成本。
【后训练流程:四步打造全能模型】
Qwen3 的后训练流程类似于 DeepSeek R1,采用了四阶段策略:
长思维链冷启动
使用多样化的长思维链数据(涵盖数学、编程、逻辑推理等)对模型进行初步微调,培养基本推理能力。
长思维链强化学习
利用规则奖励机制进行大规模强化学习,提升模型的探索和分析深度。
思维模式融合
在包含长思维链和标准指令微调数据的混合数据集上继续训练,实现推理模式与快速响应模式的自然过渡。
通用强化学习
最后阶段专注于20多个通用任务领域,包括指令遵循、格式规范、Agent行为等,全面提升模型通用性并纠正潜在不良行为。
总结
Qwen3 的发布不仅是阿里在大模型领域的又一次集中发力,更是对整个 AI 社区的一次重磅回馈。凭借丰富的模型种类、强大的性能表现、灵活的双模式设计以及开源精神,Qwen3 无疑将成为下一阶段 AI 开发者手中的利器。
如果你想理解体验,可以到 https://chat.qwen.ai/上面使用。
如需获取更多技术细节或开始使用 Qwen3,欢迎访问阿里官方文档或开源平台。
📮


共有 0 条评论