蚂蚁集团联合中国人民大学发布首个原生MoE扩散语言模型
作者:超級王牌漢堡包 來源:保山 瀏覽: 【大中小】 發(fā)布時間:2025-09-16評論數:
大象新闻记者 李莉 李磊 张迪驰
9日,外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。
大象新闻记者了解到,该模型通过非自回归的掩码扩散机制,在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。
实验数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激.4B参数即可实现等B稠密模型的性能。
“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步?!?#34434蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。
中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系?!?/p>
面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有dLLM均基于稠密架构,难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。
蓝振忠还透露,将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动AGI新一轮突破。
- {loop type="catelog" row=10}{$vo.title}
日本精品视频一二区|
黑人猛挺进小莹的体内视频|
国偷自产av一区二区三区|
日产一码二码三码区别|
日夜啪啪一区二区三区|
午夜视频久久久久一区|
韩国午夜理伦三级理论三级|
av在线无码|
国产免费AV片在线看|
丰满肥臀大屁股熟女AV|
精品一区二区三区国产在线观看|
久久久久久久久毛片精选|
制服丝袜AV无码专区|
大肥婆老熟女一区二区|
三级现频在线观看|
成人做受视频试看120秒|
日韩欧美亚洲综合久久影院ds|
xxxx欧美xxxx短片|
国产不卡免费av|
无码大潮喷水在线观看|
国产免费AV网站|
丰满熟女大屁股|
中文字幕无码乱人妻|
2014天堂亚洲|
日本美国中国性WWW...|
嫩芽亚洲精品成人|
97色在线播放视频|
男男gay啪啪网站18禁|
中文字幕网红自拍偷拍视频|
调教鞭打视频|
亚洲最新AV|
亚洲 国产 哟|
国产网红转区|
鲁丝片一区二区三区免费|
激情影院中国区|
日韩精品视频乱|
亚洲无码偷拍一区二区三区
|
国产丝袜精品制服高跟电影91
|
丰满人妻无码|
一区二区三区四区电影|
2021精品国产综合久久|