蚂蚁集团联合中国人民大学发布首个原生MoE扩散语言模型

大象新闻记者 李莉 李磊 张迪驰

9�日,�外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

大象新闻记者了解到,该模型通过非自回归的掩码扩散机制,在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实验数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激񄑏.4B参数即可实现等𿓓B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步?!?#34434蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有dLLM均基于稠密架构,难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还透露,将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动AGI新一轮突破。

保山
上一篇:{loop type="arclist" row=1 }{$vo.title}
久久婷婷是五月综合色| 波多野结衣操逼视频| 粉嫩人妻一区| 色婷婷av在线| 欧美变态口味重另类app| 精品亚洲国产成人av在线 | 亚洲欧美一区二区三区自慰色欲| 肉丝足交在线观看| 久久久久久亚洲AV成人网站| 国产精品久久久久久亚洲影视| av资源共享| 国产亚洲欧美人成在线| 精品国产一区二区三区A| 中文字幕日韩精品国产| 日本熟妇色xxxxx| 国产精品高潮呻吟av久久4虎| 亚洲不乱码卡一卡二卡4卡5卡| 国产双飞在线| 亚洲天堂图片区| 精品久久久久久蜜臂a∨| 美国vps毛片| av天堂电影av| 国产无人区码一区二区| 精频国产欧美| 97亚洲综合影院| 国产gaysexchina男外卖| 丝袜插入国产| 亚洲av啊啊啊在线| 亚洲一区二区三区成人网站 | 成人免费视频在线观看播放| 国产亲妺妺乱A∨| 亚洲伊人成综合网| 日本大片免费观看视频 | 肉大捧进出全过程免费视频| 中文字幕久久波多野结衣AV| 亚洲欧美自拍一区| 国产亚洲精品VA片在线播放| H肉无码在线观看| 国产精品一99| 最新精品国偷自产在线老年人| 青青草无码精品伊人久久蜜臀|