阿里巴巴(09988)開源新架構(gòu)Qwen3-Next 訓(xùn)練成本大幅下降 引入混合注意力機(jī)制
作者:裕2333 來源:清遠(yuǎn) 瀏覽: 【大中小】 發(fā)布時間:2025-09-14評論數(shù):
智通財經(jīng)APP獲悉,9月12日,阿里巴巴(09988)通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。該模型包含兩個版本:更擅長理解和執(zhí)行指令的指令(Insctruct)模型,以及更擅長多步推理和深度思考的推理(Thinking)模型。
據(jù)介紹,相比Qwen3的MoE(混合專家)模型結(jié)構(gòu),Qwen3-Next進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多token預(yù)測機(jī)制(簡稱MTP,Multiple-Token Prediction)。
具體表現(xiàn)方面,新模型總參數(shù)80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens(文本處理的最小單位?)超長上下文。
阿里巴巴通義團(tuán)隊指出,高稀疏MoE架構(gòu)是Qwen3-Next面向下一代模型的最新探索。當(dāng)前,MoE是主流大模型都采用的架構(gòu),通過激活大參數(shù)中的小部分專家完成推理任務(wù)。此前,Qwen3系列的MoE專家激活比約為1比16,而Qwen3-Next通過更精密的高稀疏MoE架構(gòu)設(shè)計,實(shí)現(xiàn)了1比50的極致激活比。
- {loop type="catelog" row=10}{$vo.title}
波多野结衣与黑人|
久久久性感美女视频诱惑|
国产色无码精品视频国产|
无码熟妇人妻av在线影片最多|
亚洲av午夜福利精品一区二区|
亚洲成αv人片在线观看|
99精品字幕|
狠狠躁夜夜躁人人爽视频|
中文字幕久区久久中文字幕|
AV在线免费观看网址|
高潮久久久久久久久|
国产午夜福利一区二区三区|
少妇被粗大的猛烈进出图片|
日韩精品成人短视频|
99热精品久久只有精品|
国产又黄又爽又刺激毛片|
久久精品亚洲熟女AV蜜柚小站
|
熟妇人妻系列AⅤ无码专区友真希
欧美日韩精成人品在线观看
|
一区二区高清|
国产2av网站|
国产精成人品日日拍夜夜|
另类图片大香蕉在线|
欧美xxx潮喷|
狠狠综合久久综合88亚洲|
男人的天堂免费观看一区二区三区|
精彩无码免费看久久久|
精品国产一区二区三区香|
亚洲无码巨大|
久久大香萑太香蕉av|
国产亚洲综合欧美视频|
欧美性爱一区二区三区|
呻吟求饶的办公室人妻|
亚洲性XXXXX极品少妇小说|
国产中文成人精品久久久|
亚洲另类视频|
国产精品96久久久久久又黄又硬|
亚洲精品爆乳一区二区h|
熟女乱AV乱AV乱老女人|
国产精品视频全国免费观看|
亚州人妻AV|
国产精品白丝av网站|