首页 攻略秘籍 资讯瞭望台 软件教程

阿里发布国内首个“混合推理模型”Qwen3 并开源:支持两种思考模式,预训练约 36 万亿个 token、119 种语言和方言

灵犀软件园2025-04-29

感谢本站网友 四文鱼、软媒用户1369491 的线索投递!

本站 4 月 29 日消息,今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。

Models

Layers

Heads

(Q / KV)

Tie Embedding

Context Length

Qwen3-0.6B

28

16 / 8

Yes

32K

Qwen3-1.7B

28

16 / 8

Yes

32K

Qwen3-4B

36

32 / 8

Yes

32K

Qwen3-8B

36

32 / 8

No

128K

Qwen3-14B

40

40 / 8

No

128K

Qwen3-32B

64

64 / 8

No

128K

Models

Layers

Heads

(Q / KV)

Experts (Total/ Activated)

Context Length

Qwen3-30B-A3B

48

32 / 4

128 / 8

128K

Qwen3-235B-A22B

94

64 / 4

128 / 8

128K

这是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base)已在各大平台上开放使用。同时,阿里云开源了两个 MoE 模型的权重:

相关推荐