螞蟻集團(tuán)聯(lián)合中國(guó)人民大學(xué)發(fā)布首個(gè)原生MoE擴(kuò)散語(yǔ)言模型
大象新聞?dòng)浾?李莉 李磊 張迪馳
9月11日,在2025外灘大會(huì)上,螞蟻集團(tuán)與中國(guó)人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語(yǔ)言模型(dLLM)“LLaDA-MoE”。
大象新聞?dòng)浾吡私獾?,該模型通過(guò)非自回歸的掩碼擴(kuò)散機(jī)制,在大規(guī)模語(yǔ)言模型中實(shí)現(xiàn)了與Qwen2.5相當(dāng)?shù)恼Z(yǔ)言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等),挑戰(zhàn)了“語(yǔ)言模型必須自回歸”的主流認(rèn)知。
實(shí)驗(yàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語(yǔ)言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。
“LLaDA-MoE模型驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性,意味我們?cè)诎裠LLM訓(xùn)擴(kuò)到更大規(guī)模的路上又往前走了一步?!蔽浵伡瘓F(tuán)通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍(lán)振忠在發(fā)布現(xiàn)場(chǎng)表示。
中國(guó)人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹,“兩年過(guò)去,AI大模型能力突飛猛進(jìn),但存在一些問(wèn)題始終沒(méi)有得到本質(zhì)上的解決。究其原因,這是當(dāng)前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的,從前往后依次生成下一個(gè)token。這導(dǎo)致它們難以捕tokens之間的雙向依賴關(guān)系。”
面對(duì)這些問(wèn)題,一些研究者選擇另辟蹊徑,將目光投向并行解碼的擴(kuò)散語(yǔ)言模型。然而,現(xiàn)有dLLM均基于稠密架構(gòu),難以復(fù)刻ARM中MoE的“參數(shù)擴(kuò)展、計(jì)算高效”優(yōu)勢(shì)。在這樣的行業(yè)背景下,螞蟻和人大聯(lián)合研究團(tuán)隊(duì),首次在MoE架構(gòu)上推出了原生的擴(kuò)散語(yǔ)言模型LLaDA-MoE。
藍(lán)振忠還透露,將于近期向全球完全開(kāi)源模型權(quán)重和自研推理框架,與社區(qū)共同推動(dòng)AGI新一輪突破。