游客發(fā)表
發(fā)帖時間:2025-09-17 12:05:57
智通財經(jīng)APP獲悉,9月12日,阿里巴巴(09988)通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next,并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型。該模型包含兩個版本:更擅長理解和執(zhí)行指令的指令(Insctruct)模型,以及更擅長多步推理和深度思考的推理(Thinking)模型。
據(jù)介紹,相比Qwen3的MoE(混合專家)模型結(jié)構(gòu),Qwen3-Next進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度MoE結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多token預(yù)測機(jī)制(簡稱MTP,Multiple-Token Prediction)。
具體表現(xiàn)方面,新模型總參數(shù)80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens(文本處理的最小單位?)超長上下文。
阿里巴巴通義團(tuán)隊指出,高稀疏MoE架構(gòu)是Qwen3-Next面向下一代模型的最新探索。當(dāng)前,MoE是主流大模型都采用的架構(gòu),通過激活大參數(shù)中的小部分專家完成推理任務(wù)。此前,Qwen3系列的MoE專家激活比約為1比16,而Qwen3-Next通過更精密的高稀疏MoE架構(gòu)設(shè)計,實現(xiàn)了1比50的極致激活比。
{loop type="link" row=1 }{$vo.title} 国产午夜精品视频| 人人妻人人妻人人操| 久久精品成人av| 乱色欧美激惰| 丰满老熟妇好大bbbbb| 国产精品白丝喷水jk娇喘视频| www.sdyh.net.cn| 天堂在线观看AV| .欧美28P| 91成人在线免费观看| 亚洲日本人成网站在线播放| 青春草视频网站在线观看| 国产免费久久| 中文字幕人成无码人妻| 亚洲av无码精品无码麻豆| 精品视频专区| 六月丁香综合在线视频| 欧美电影村妇| 国产99久久久国产精品| 猫咪av成人永久网站在线观看| 婷婷久久97精品国产| 四库影院成人无码精品| 亚洲一区二区三区高清av| 国产精品国产高清国产AV | 亚洲精品三区二区一区一 | 日本人妻 蜜桃在线| 免费无码又爽又刺激高潮的视频免费| 免费看真人日逼的黄片| 免费观看h片| 国产人妻一区二区三区久| 97精品一区二区视频在线观看| 色色色图片亚洲| 欧美三级韩国三级日本三斤| 国产成+人+综合+亚洲 欧美| 少妇愉情理伦片| 中国一级毛片免费观看| 色欲色香天天天综合网www下载| av一区二区三区久久久| 欧洲亚洲国产成人综合色婷婷| 丰满熟妇子伦| 在线免费成人亚洲av|