當(dāng)前位置：當(dāng)前位置：首頁>清遠(yuǎn)>阿里巴巴(09988)開源新架構(gòu)Qwen3-Next 訓(xùn)練成本大幅下降引入混合注意力機(jī)制正文

阿里巴巴(09988)開源新架構(gòu)Qwen3-Next 訓(xùn)練成本大幅下降引入混合注意力機(jī)制

作者:裕2333　來源:清遠(yuǎn)　瀏覽:　【大 中 小】　發(fā)布時間:2025-09-14評論數(shù):

智通財經(jīng)APP獲悉，9月12日，阿里巴巴(09988)通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next，并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。該模型包含兩個版本：更擅長理解和執(zhí)行指令的指令(Insctruct)模型，以及更擅長多步推理和深度思考的推理(Thinking)模型。

據(jù)介紹，相比Qwen3的MoE(混合專家)模型結(jié)構(gòu)，Qwen3-Next進(jìn)行了以下核心改進(jìn)：混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化，以及提升推理效率的多token預(yù)測機(jī)制(簡稱MTP，Multiple-Token Prediction)。

具體表現(xiàn)方面，新模型總參數(shù)80B僅激活3B，性能可媲美千問3旗艦版235B模型，模型計算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%，長文本推理吞吐量提升10倍以上，并可支持百萬Tokens(文本處理的最小單位?)超長上下文。

阿里巴巴通義團(tuán)隊指出，高稀疏MoE架構(gòu)是Qwen3-Next面向下一代模型的最新探索。當(dāng)前，MoE是主流大模型都采用的架構(gòu)，通過激活大參數(shù)中的小部分專家完成推理任務(wù)。此前，Qwen3系列的MoE專家激活比約為1比16，而Qwen3-Next通過更精密的高稀疏MoE架構(gòu)設(shè)計，實(shí)現(xiàn)了1比50的極致激活比。