2025外灘大會(huì):螞蟻、人大發(fā)布首個(gè)原生MoE擴(kuò)散語言模型

螞蟻集團(tuán)和人民大學(xué)聯(lián)合研發(fā)原生MoE架構(gòu)擴(kuò)散語言模型(dLLM) LLaDA-MoE,在約20T數(shù)據(jù)上完成了從零訓(xùn)練MoE架構(gòu)的擴(kuò)散語言模型,驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性;效果超過此前發(fā)布稠密擴(kuò)散語言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回歸模型,并保有數(shù)倍的推理速度優(yōu)勢。模型將在近期完全開源,以推動(dòng)全球AI社區(qū)在dLLM上的技術(shù)發(fā)展。
9月11日,在2025Inclusion·外灘大會(huì)上,螞蟻集團(tuán)與中國人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語言模型(dLLM)“LLaDA-MoE”,中國人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒,螞蟻集團(tuán)通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍(lán)振忠參與了發(fā)布儀式。
(中國人民大學(xué)、螞蟻集團(tuán)聯(lián)合發(fā)布首個(gè)MoE架構(gòu)擴(kuò)散模型LLaDA-MoE)
據(jù)介紹,這款新模型通過非自回歸的掩碼擴(kuò)散機(jī)制,首次通過原生訓(xùn)練的MoE在大規(guī)模語言模型中實(shí)現(xiàn)了與Qwen2.5相當(dāng)?shù)恼Z言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等),挑戰(zhàn)了“語言模型必須自回歸”的主流認(rèn)知。
實(shí)現(xiàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語言模型,接近或超越了自回歸模型 Qwen2.5-3B-Instruct,僅激活 1.4B 參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。
(LLaDA-MoE性能表現(xiàn))
“LLaDA-MoE模型驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性,意味我們在把dLLM訓(xùn)擴(kuò)到更大規(guī)模的路上又往前走了一步?!彼{(lán)振忠在發(fā)布現(xiàn)場表示。
中國人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹,“兩年過去,AI大模型能力突飛猛進(jìn),但存在一些問題始終沒有得到本質(zhì)上的解決。究其原因,這是當(dāng)前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的,從前往后依次生成下一個(gè)token。這導(dǎo)致它們難以捕tokens 之間的雙向依賴關(guān)系。”
面對這些問題,一些研究者選擇另辟蹊徑,將目光投向并行解碼的擴(kuò)散語言模型。然而,現(xiàn)有 dLLM 均基于稠密架構(gòu),難以復(fù)刻 ARM 中 MoE 的“參數(shù)擴(kuò)展、計(jì)算高效”優(yōu)勢。在這樣的行業(yè)背景下,螞蟻和人大聯(lián)合研究團(tuán)隊(duì),首次在MoE架構(gòu)上推出了原生的擴(kuò)散語言模型LLaDA-MoE。
藍(lán)振忠還表示,“我們將于近期向全球完全開源模型權(quán)重和自研推理框架,與社區(qū)共同推動(dòng) AGI 新一輪突破。”
據(jù)了解,螞蟻與人大團(tuán)隊(duì)攻關(guān) 3個(gè)月,在LLaDA-1.0基礎(chǔ)上重寫訓(xùn)練代碼,并且基于螞蟻?zhàn)匝蟹植际娇蚣?ATorch提供EP 并行等一系列并行加速技術(shù),基于螞蟻Ling2.0基礎(chǔ)模型的訓(xùn)練數(shù)據(jù),在負(fù)載均衡、噪聲采樣漂移等核心難題上取得突破,最終采用 7B-A1B(總7B、激活1.4B)的MOE架構(gòu)完成約 20T 數(shù)據(jù)的高效訓(xùn)練。
在螞蟻?zhàn)匝械慕y(tǒng)一評(píng)測框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17項(xiàng)基準(zhǔn)上平均提升 8.4%,領(lǐng)先 LLaDA-1.5達(dá)到13.2%,與 Qwen2.5-3B-Instruct 打平。實(shí)驗(yàn)再次驗(yàn)證“MoE 放大器”定律在 dLLM 領(lǐng)域同樣成立,為后續(xù) 10B–100B 稀疏模型提供可行路徑。
據(jù)藍(lán)振忠介紹,除模型權(quán)重外,螞蟻還將同步開源針對 dLLM 并行特性深度優(yōu)化的推理引擎。相比 NVIDIA 官方 fast-dLLM,該引擎實(shí)現(xiàn)了顯著加速。相關(guān)代碼與技術(shù)報(bào)告將于近期在 GitHub 及 Hugging Face 社區(qū)同步發(fā)布。
藍(lán)振忠還透露,螞蟻將持續(xù)投入包括基于dLLM的AGI領(lǐng)域,下一階段將聯(lián)合學(xué)界和全球AI社區(qū)共同推動(dòng)AGI新的突破?!白曰貧w不是終點(diǎn),擴(kuò)散模型同樣可以成為通向 AGI 的主干道。”藍(lán)振忠如是說。