螞蟻集團(tuán)聯(lián)合中國(guó)人民大學(xué)發(fā)布首個(gè)原生MoE擴(kuò)散語(yǔ)言模型

大象新聞?dòng)浾?李莉 李磊 張迪馳

9月11日,在2025外灘大會(huì)上,螞蟻集團(tuán)與中國(guó)人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語(yǔ)言模型(dLLM)“LLaDA-MoE”。

大象新聞?dòng)浾吡私獾?,該模型通過(guò)非自回歸的掩碼擴(kuò)散機(jī)制,在大規(guī)模語(yǔ)言模型中實(shí)現(xiàn)了與Qwen2.5相當(dāng)?shù)恼Z(yǔ)言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等),挑戰(zhàn)了“語(yǔ)言模型必須自回歸”的主流認(rèn)知。

實(shí)驗(yàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語(yǔ)言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。

“LLaDA-MoE模型驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性,意味我們?cè)诎裠LLM訓(xùn)擴(kuò)到更大規(guī)模的路上又往前走了一步?!蔽浵伡瘓F(tuán)通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍(lán)振忠在發(fā)布現(xiàn)場(chǎng)表示。

中國(guó)人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹,“兩年過(guò)去,AI大模型能力突飛猛進(jìn),但存在一些問(wèn)題始終沒(méi)有得到本質(zhì)上的解決。究其原因,這是當(dāng)前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的,從前往后依次生成下一個(gè)token。這導(dǎo)致它們難以捕tokens之間的雙向依賴關(guān)系。”

面對(duì)這些問(wèn)題,一些研究者選擇另辟蹊徑,將目光投向并行解碼的擴(kuò)散語(yǔ)言模型。然而,現(xiàn)有dLLM均基于稠密架構(gòu),難以復(fù)刻ARM中MoE的“參數(shù)擴(kuò)展、計(jì)算高效”優(yōu)勢(shì)。在這樣的行業(yè)背景下,螞蟻和人大聯(lián)合研究團(tuán)隊(duì),首次在MoE架構(gòu)上推出了原生的擴(kuò)散語(yǔ)言模型LLaDA-MoE。

藍(lán)振忠還透露,將于近期向全球完全開(kāi)源模型權(quán)重和自研推理框架,與社區(qū)共同推動(dòng)AGI新一輪突破。

新聞
上一篇:{loop type="arclist" row=1 }{$vo.title}
国产va精品免费观看| 黄色激情小说网站| 国产成人精品亚洲午夜| 久久久www成人免费无遮挡大片| 国产午夜精华无码网站| 日本孕妇潮喷高潮视频| 亚洲国产精品久久久就秋霞| 操BAV网站| 亚洲a视频在线观看| 嗯嗯啊啊免费在线观看视频| 日韩人妻精品久久九九| 久久久亚洲欧洲日产国码αv| 亚洲av无码成人精品区日韩| 国产自愉自愉免费精品七区| 老熟女一区二区| 一边摸一边叫床一边爽| 精品久久性视频| 亚洲孕好AV一区二区三区| 亚洲av无码一区二区三区波多野结衣| 无码国产69精品久久久久动漫| 久久亚洲精品人成综合网| 无码乱伦视频网站| 国产性夜夜春夜夜爽免费下载| 九色丨PORNY丨肥臀| 四虎永久在线精品8848A| 西西午夜无码大胆啪啪国模| 国产一二三视频| 伊人色综合视频一区二区三区| 伊人久久精品无码av一区| 免费毛片手机在线| 爆乳熟妇一区二区三区霸乳漫画 | 六月婷婷网站| 久久69热人妻偷产精品| 日本一区二区不卡精品| 久久久久久国产精品二区| 精品人妻无码四色影视盒| 精品午夜国产福利在线观看| 美女不带套日出白浆免费视频 | 久久精品私人影院免费看| 国产在线欧美播放| www夜片内射视频日韩精品成人|