阿里巴巴(09988)開源新架構Qwen3-Next 訓練成本大幅下降 引入混合注意力機制

智通財經(jīng)APP獲悉,9月12日,阿里巴巴(09988)通義發(fā)布下一代基礎模型架構Qwen3-Next,并開源了基于該架構的 Qwen3-Next-80B-A3B 系列模型。該模型包含兩個版本:更擅長理解和執(zhí)行指令的指令(Insctruct)模型,以及更擅長多步推理和深度思考的推理(Thinking)模型。

據(jù)介紹,相比Qwen3的MoE(混合專家)模型結構,Qwen3-Next進行了以下核心改進:混合注意力機制、高稀疏度MoE結構、一系列訓練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多token預測機制(簡稱MTP,Multiple-Token Prediction)。

具體表現(xiàn)方面,新模型總參數(shù)80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens(文本處理的最小單位?)超長上下文。

阿里巴巴通義團隊指出,高稀疏MoE架構是Qwen3-Next面向下一代模型的最新探索。當前,MoE是主流大模型都采用的架構,通過激活大參數(shù)中的小部分專家完成推理任務。此前,Qwen3系列的MoE專家激活比約為1比16,而Qwen3-Next通過更精密的高稀疏MoE架構設計,實現(xiàn)了1比50的極致激活比。

清遠
上一篇:{loop type="arclist" row=1 }{$vo.title}
奇米无码在线| 污18禁污色黄网站| 18禁无码毛片精品久久久久久久| 欧美激情一区二区久久久| 天堂在/线资源中文在线| 中文有码亚洲制服av片| 日日摸夜夜爽| 揉女人奶出奶水的视频| 亚洲中文字幕无码一区精品| 国产精品人成在线播放新网站| 人妻中文字幕精品一页| 无套内射少妇免费| 熟妇人妻不卡中文字幕| www.17.com人妻| 色窝窝无码一区二区三区| 国产伦精品一区二区三区三免费| 久久久久亚洲精品男人的天堂| 欧美人与马的性爱| 人人爽人人澡人人高潮| 久草午夜视频| 亚洲欧洲免费视频| 国产精品99久久久久久猫咪| 91丝袜美腿高跟国产极品老师| 强奷乱码中文字幕熟女一| 黄网站色视频在线观看| 中文字幕欧美日韩va免费视频| 亚洲精品爆乳| 成人午夜福利视频后入| 亚洲蜜桃v妇女| 老熟女丝袜脚一区二区三区四区| 东北熟女高潮一区二区三区在线播放| 亚洲无 码AⅤ天堂资源小说| 亚洲欧美婷婷六月| 黑人大荫道bbwbbb高潮潮喷| 国产成人精品免费久久久久| 日本中文字幕视频| 色五月女人影视| 久久av高潮无码| 无码人妻丰满熟妇区毛片18| 欧美精品高清在线观看| 欧美精品久久久久久久久免费蜜桃|