新聞2025-09-14 18:41:024361

螞蟻集團(tuán)聯(lián)合中國(guó)人民大學(xué)發(fā)布首個(gè)原生MoE擴(kuò)散語(yǔ)言模型

大象新聞?dòng)浾?李莉李磊張迪馳

9月11日，在2025外灘大會(huì)上，螞蟻集團(tuán)與中國(guó)人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語(yǔ)言模型(dLLM)“LLaDA-MoE”。

大象新聞?dòng)浾吡私獾?，該模型通過(guò)非自回歸的掩碼擴(kuò)散機(jī)制，在大規(guī)模語(yǔ)言模型中實(shí)現(xiàn)了與Qwen2.5相當(dāng)?shù)恼Z(yǔ)言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等)，挑戰(zhàn)了“語(yǔ)言模型必須自回歸”的主流認(rèn)知。

實(shí)驗(yàn)數(shù)據(jù)顯示，LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語(yǔ)言模型，接近或超越了自回歸模型Qwen2.5-3B-Instruct，僅激活1.4B參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。

“LLaDA-MoE模型驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性，意味我們?cè)诎裠LLM訓(xùn)擴(kuò)到更大規(guī)模的路上又往前走了一步?！蔽浵伡瘓F(tuán)通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍(lán)振忠在發(fā)布現(xiàn)場(chǎng)表示。

中國(guó)人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹，“兩年過(guò)去，AI大模型能力突飛猛進(jìn)，但存在一些問(wèn)題始終沒(méi)有得到本質(zhì)上的解決。究其原因，這是當(dāng)前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的，從前往后依次生成下一個(gè)token。這導(dǎo)致它們難以捕tokens之間的雙向依賴關(guān)系。”

面對(duì)這些問(wèn)題，一些研究者選擇另辟蹊徑，將目光投向并行解碼的擴(kuò)散語(yǔ)言模型。然而，現(xiàn)有dLLM均基于稠密架構(gòu)，難以復(fù)刻ARM中MoE的“參數(shù)擴(kuò)展、計(jì)算高效”優(yōu)勢(shì)。在這樣的行業(yè)背景下，螞蟻和人大聯(lián)合研究團(tuán)隊(duì)，首次在MoE架構(gòu)上推出了原生的擴(kuò)散語(yǔ)言模型LLaDA-MoE。

藍(lán)振忠還透露，將于近期向全球完全開(kāi)源模型權(quán)重和自研推理框架，與社區(qū)共同推動(dòng)AGI新一輪突破。

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss