阿里终于出手Qwen3正式发布

阿里终于出手Qwen3正式发布-2 四月的AI界略显沉寂,眼看着这一周就要在平淡中结束。然而,阿里没有让人失望,期待已久的 通义千问 Qwen3 终于重磅登场,瞬间引爆全网。

这一次,AI界的“汪峰”终于成功抢到了头条。

那么问题来了——这次发布会到底发布了什么?

简单来说,一句话总结: 一次发布八款模型,覆盖多种规模与架构,全面开源!

具体来看:

2个MoE模型:分别是 Qwen3-235B-A22B 和 Qwen3-30B-A3B ,分别表示总参数为2350亿和激活约220亿 / 300亿;

6个稠密模型:包括 Qwen3-32B 、 Qwen3-14B 、 Qwen3-8B 、 Qwen3-4B 、 Qwen3-1.7B 和 Qwen3-0.6B 。

从个位数到千亿级,各种尺寸一应俱全,全部基于 Apache 2.0 协议开源。无论你是科研人员、开发者还是创业者,总有一款适合你。

模型性能怎么样?看数据说话!

旗舰模型 Qwen3-235B-A22B 在代码、数学以及通用能力等基准测试中,表现极具竞争力,对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。

阿里终于出手Qwen3正式发布-3

阿里终于出手Qwen3正式发布-4

更令人惊喜的是,小型 MoE 模型 Qwen3-30B-A3B 仅激活30亿参数,却拥有接近甚至超越传统大模型(如 QwQ-32B)的表现。即使是轻量级的 Qwen3-4B ,也能媲美 Qwen2.5-72B-Instruct 的性能。

核心亮点一览

1. 双模式推理机制:思考 or 不思考,自由切换

不同于 DeepSeek R1 或 OpenAI o1 这类专注于推理的模型,Qwen3 支持两种思考模式: 推理模式 与 非推理模式 ,并可以在两者之间无缝切换。这种灵活性让用户可以根据任务需求控制模型是否深入“思考”,实用性拉满。

阿里终于出手Qwen3正式发布-5

2. 强化 Agent 能力:不只是模型,更是智能体

当前主流模型都在强化对 Agent 的支持,Qwen3 自然也不例外。其 Agent 功能和代码能力经过优化,并增强了对 MCP( 的支持,进一步提升了多智能体协作的能力。

训练细节揭秘

【预训练阶段】

Qwen3 的预训练数据量是 Qwen2.5 的两倍,总计高达 36 万亿 token ,涵盖 119 种语言与方言 。整个训练过程分为三个阶段:

S1 阶段

:基础语言技能与通用知识学习;

S2 阶段

:加强 STEM、编程和逻辑推理能力;

S3 阶段

:使用精心挑选的 5 万亿 token 数据集进行微调。

阿里终于出手Qwen3正式发布-6

得益于架构优化、数据扩容及高效训练方法,Qwen3 的稠密基础模型在性能上已能匹敌甚至超越更大参数量的 Qwen2.5 模型。例如:

Qwen3-1.7B/4B/8B/14B/32B-Base ≈ Qwen2.5-3B/7B/14B/32B/72B-Base

尤其在 STEM、编码和推理领域,Qwen3 表现更为出色。

对于 MoE 模型而言,它们只需激活约10%的参数即可达到与 Qwen2.5 稠密模型相当的性能,显著降低了训练和推理成本。

【后训练流程:四步打造全能模型】

Qwen3 的后训练流程类似于 DeepSeek R1,采用了四阶段策略:

长思维链冷启动

使用多样化的长思维链数据(涵盖数学、编程、逻辑推理等)对模型进行初步微调,培养基本推理能力。

长思维链强化学习

利用规则奖励机制进行大规模强化学习,提升模型的探索和分析深度。

思维模式融合

在包含长思维链和标准指令微调数据的混合数据集上继续训练,实现推理模式与快速响应模式的自然过渡。

通用强化学习

最后阶段专注于20多个通用任务领域,包括指令遵循、格式规范、Agent行为等,全面提升模型通用性并纠正潜在不良行为。

总结

Qwen3 的发布不仅是阿里在大模型领域的又一次集中发力,更是对整个 AI 社区的一次重磅回馈。凭借丰富的模型种类、强大的性能表现、灵活的双模式设计以及开源精神,Qwen3 无疑将成为下一阶段 AI 开发者手中的利器。

如果你想理解体验,可以到 https://chat.qwen.ai/上面使用。

如需获取更多技术细节或开始使用 Qwen3,欢迎访问阿里官方文档或开源平台。

📮

THE END
分享
二维码
< <上一篇
下一篇>>