阿里巴巴(09988)開源新架構(gòu)Qwen3-Next 訓(xùn)練成本大幅下降 引入混合注意力機(jī)制
作者:方圓_79 來(lái)源:定西 瀏覽: 【大中小】 發(fā)布時(shí)間:2025-09-17評(píng)論數(shù):
智通財(cái)經(jīng)APP獲悉,9月12日,阿里巴巴(09988)通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。該模型包含兩個(gè)版本:更擅長(zhǎng)理解和執(zhí)行指令的指令(Insctruct)模型,以及更擅長(zhǎng)多步推理和深度思考的推理(Thinking)模型。
據(jù)介紹,相比Qwen3的MoE(混合專家)模型結(jié)構(gòu),Qwen3-Next進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多token預(yù)測(cè)機(jī)制(簡(jiǎn)稱MTP,Multiple-Token Prediction)。
具體表現(xiàn)方面,新模型總參數(shù)80B僅激活3B,性能可媲美千問(wèn)3旗艦版235B模型,模型計(jì)算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長(zhǎng)文本推理吞吐量提升10倍以上,并可支持百萬(wàn)Tokens(文本處理的最小單位?)超長(zhǎng)上下文。
阿里巴巴通義團(tuán)隊(duì)指出,高稀疏MoE架構(gòu)是Qwen3-Next面向下一代模型的最新探索。當(dāng)前,MoE是主流大模型都采用的架構(gòu),通過(guò)激活大參數(shù)中的小部分專家完成推理任務(wù)。此前,Qwen3系列的MoE專家激活比約為1比16,而Qwen3-Next通過(guò)更精密的高稀疏MoE架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了1比50的極致激活比。
- {loop type="catelog" row=10}{$vo.title}
少妇第二区456|
色悠久久久久综合欧美99|
亚洲国产婷婷六月丁香|
国产超碰无码最新上传|
成人毛片免费观看|
五月天激情小说|
日韩人妻熟女中文字幕a美景之屋|
男人的天堂美女在线|
欧美美隐私网站|
亚洲永久无码3d动漫一区|
黄大片18满岁|
精品少妇一区二区|
国产av无码一区二区二三区j
|
国产精品嫩草影欧美|
精品粉嫩国产一区二区三区|
免费AV在线网址流畅|
韩日av无码在线|
亚洲国产成人无码专区|
熟女人妻少妇精品视频|
yw193免费观看网站|
五月丁香六月激情综合在线视频|
精品人妻在线|
2023国产区精华品|
久久人人网站|
女老板又大又紧水又多|
国产剧情一区二区在线观看|
2024AV天堂手机在线观看|
亚洲精品久久久久国产剧8|
成人区人妻一区二区不卡|
亚洲AV无码一区二区二三区4k|
亚洲一区二区三区无码久久|
黑人大茎4P白妞|
99精品无码视频|
亚洲AV无码乱码在线观看裸奔|
中文字幕七区八区九区人妻|
国产精品美女乱子伦高潮|
日产无人区一线二线三线小|
精品国产拍国产天天人|
亚洲成人AV一区二区|
毛片免费视频播放大全|
国产一区二区不卡91|