lululu8国产精品资源,99久久免费视频6,久久综合给合久久狠狠狠

阿里發(fā)布新基礎(chǔ)模型架構(gòu)Qwen3-Next：推理效率提升10倍

2025-11-17 16:03

9月12日，阿里通義千問發(fā)布了下一代基礎(chǔ)模型架構(gòu) Qwen3-Next，并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。

X上的網(wǎng)友紛紛給出好評，表示設(shè)計出色、推理準(zhǔn)確該結(jié)構(gòu)相比Qwen3的MoE模型結(jié)構(gòu),進(jìn)行了以下核心改進(jìn)：混合注意力機(jī)制、高稀疏度 MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化，以及提升推理效率的多 token 預(yù)測機(jī)制。

阿里基于Qwen3-Next的模型結(jié)構(gòu)訓(xùn)練了Qwen3-Next-80B-A3B-Base模型，該模型擁有800億參數(shù)僅激活30億參數(shù)。該Base模型實現(xiàn)了與Qwen3-32B dense模型相近甚至略好的性能，而它的訓(xùn)練成本僅為Qwen3-32B的十分之一不到，在32k以上的上下文下的推理吞吐則是Qwen3-32B的十倍以上，實現(xiàn)了極致的訓(xùn)練和推理性價比。

除此之外，阿里還基于 Qwen3-Next-80B-A3B-Base模型同步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

阿里解決了混合注意力機(jī)制+高稀疏度 MoE 架構(gòu)在強(qiáng)化學(xué)習(xí)訓(xùn)練中長期存在的穩(wěn)定性與效率難題，實現(xiàn)了RL訓(xùn)練效率與最終效果的雙重提升。Qwen3-Next-80B-A3B-Thinkink在多項基準(zhǔn)測試中超越閉源模型Gemini-2.5-Flash-Thinking。

模型結(jié)構(gòu)：混合架構(gòu)+極致稀疏MoE

Qwen3-Next采用了GatedDeltaNet和GatedAttention的混合架構(gòu)，在保留的標(biāo)準(zhǔn)注意力中引入多項增強(qiáng)設(shè)計：

沿用先前工作中的輸出門控機(jī)制，緩解注意力中的低秩問題。
將單個注意力頭維度從128擴(kuò)展至256。
僅對注意力頭前25%的位置維度添加旋轉(zhuǎn)位置編碼，提高長度外推效果。

Qwen3-Next還采用了高稀疏度的Mixture-of-Experts(MoE) 架構(gòu)，總參數(shù)量達(dá)80B，每次推理僅激活約3B參數(shù)。相比Qwen3-MoE的128個總專家和8個路由專家，Qwen3-Next擴(kuò)展到了512總專家，10路由專家與1共享專家的組合，在不犧牲效果的前提下達(dá)到資源利用率最大化。

為了緩解部分層的 norm weight值出現(xiàn)異常高的現(xiàn)象，Qwen3-Next采用了Zero-Centered RMSNorm，并在此基礎(chǔ)上, 對norm weight 施加weight decay,，以避免權(quán)重?zé)o界增長。Qwen3-Next還在初始化時歸一化了 MoE router的參數(shù)，確保每個expert在訓(xùn)練早期都能被無偏地選中，減小初始化對實驗結(jié)果的擾動。

除此之外，Qwen3-Next 還引入原生 Multi-Token Prediction 機(jī)制，既得到了 Speculative Decoding 接受率較高的 MTP 模塊，又提升了主干本身的綜合性能。 MTP 多步推理性能也得到優(yōu)化，進(jìn)一步提高了實用場景下的 Speculative Decoding 接受率。

預(yù)訓(xùn)練：吞吐量提升十倍

Qwen3-Next 采用了 Qwen3 36T 預(yù)訓(xùn)練語料的一個均勻采樣子集，僅包含 15T tokens。其訓(xùn)練所消耗的 GPU Hours不到 Qwen3-30A-3B 的 80%，與 Qwen3-32B 相比僅需 9.3% 的 GPU 計算資源，展現(xiàn)出極高的訓(xùn)練效率與性價比。

得益于創(chuàng)新的混合模型架構(gòu)，Qwen3-Next 在推理效率方面表現(xiàn)出顯著優(yōu)勢。Qwen3-Next-80B-A3B 在 4k tokens 的上下文長度下，吞吐量接近前者的七倍。當(dāng)上下文長度超過 32k 時，吞吐提升更是達(dá)到十倍以上。

在解碼（decode）階段，該模型在 4k 上下文下實現(xiàn)近四倍的吞吐提升，而在超過 32k 的長上下文場景中，仍能保持十倍以上的吞吐優(yōu)勢。

Qwen3-Next-80B-A3B-Base 僅使用十分之一的 Non-Embedding 激活參數(shù)，在大多數(shù)基準(zhǔn)測試中便已超越 Qwen3-32B-Base，且顯著優(yōu)于 Qwen3-30B-A3B，展現(xiàn)出卓越的模型效率與性能優(yōu)勢。

后訓(xùn)練：Thinking模型超越Gemini

Qwen3-Next-80B-A3B-Instruct 顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking，并取得了幾乎與 Qwen3-235B-A22B-Instruct-2507 相近的結(jié)果。

在RULER上該模型所有長度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的 Qwen3-30B-A3B-Instruct-2507，展示了 Gated DeltaNet 與 Gated Attention 混合模型在長文本情景下的優(yōu)越性。

Qwen3-Next-80B-A3B-Thinking 優(yōu)于預(yù)訓(xùn)練成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking，超過了閉源的模型 Gemini-2.5-Flash-Thinking，并在部分指標(biāo)上接近阿里最新的旗艦?zāi)Ｐ?Qwen3-235B-A22B-Thinking-2507。