蚂蚁联手人大,发布MoE扩散模型

通往AGI的路径又多了一条。

9�日,�外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型“LLaDA-MoE”。

据了解,双方在�T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源。

这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等𿓓B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步?!?#34013振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens 之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破?!?/p>

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B的MOE架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17项基准上平均提升 8.4%,领先 LLaDA-1.5达�.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破?!?#33258回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

清遠(yuǎn)
上一篇:{loop type="arclist" row=1 }{$vo.title}
搡老妇人老女人老熟女| 精品人妻一区二区有限公司| 亚洲色大成网站www尤物| 玩弄欧美肥胖丰满老妇大BBB| 开心五月综合| 无码中文av有码中文a| 国产免费无码av| 亚洲精品动漫免费二区| 国产午夜亚洲精品不卡网站| 国产野外嫖妓视频播放| 久久久精品人妻一区二区三区四| 国产破熟女一区六区| 国产69毛片精品麻豆久久久久| 少妇性荡欲午夜性开放视频剧场| 国产啊v在线| 久久人妻AV无码一区二区| 最新的国产成人精品2022| 欧美亚洲国产日韩一区二区| 亚洲AV大黄| 色综合1998| 成人免费在线观看一区二区| 黑人大战欧美性| 国产九九99久久99大香伊| 超高跟国产性爱| 少妇的渴望hd高清在线播放| 日韩中文字幕无码一区二区三区| 男人天堂免费视频| 熟妇一区二区三区免费视频| 精品人妻日韩中文字幕| 色综合天天综合欧美综合| 免费一级成人AA片视频| 精品人妻一区二区三区蜜桃AⅤ| 四月婷婷五月| renrencao视频在线| 国产欧美一区二区精品凹凸久久久| 国产伦精品一区二区三区高清| 果冻无码精品一区二区| 999成人精品视频在线| 精品妇女一区二区三区下囿高潮 | 亚洲综合色AAA成人无码| 国产无码免费|