蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0
LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,将 Diffusion 模型的参数规模首次扩展到了 100B 量级。#LLaDA2.0# #蚂蚁开源#...
感谢最新网友 Diixx、啊俊、西窗旧事 的线索投递!
最新 12 月 12 日消息,蚂蚁技术研究院今日宣布推出 LLaDA2.0 系列离散扩散大语言模型(dLLM),并同步公开了背后的技术报告,宣称是“业内首个 100B 扩散语言模型”。
LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,将 Diffusion 模型的参数规模首次扩展到了 100B 量级。
蚂蚁技术研究院表示,此次发布的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的性能。
通过创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0 能够无缝继承现有 AR 模型的知识,避免了从头训练的高昂成本。结合不仅限于常规 SFT 的 置信度感知并行训练(CAP)和 扩散模型版 DPO,LLaDA2.0 在保证生成质量的同时,利用扩散模型的并行解码优势,实现了相比 AR 模型 2.1 倍的推理加速,证明了在超大规模参数下,扩散模型不仅可行,而且更强、更快。

蚂蚁技术研究院在知识理解、数学、代码、推理 & 智能体等多个维度对模型进行了评估。结果显示,LLaDA2.0 在结构化生成任务(如代码)上具有显著优势,并在其他领域与开源 AR 模型持平。
LLaDA2.0 的模型权重(16B/100B)及相关训练代码均已在 Huggingface 开源,最新附开源地址:
https://huggingface.co/collections/inclusionAI/llada-20
《蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
我国开辟广谱抗甲流新策略:不怕变异 多种病毒一网打尽
快科技12月12日消息,南开大学宣布,该校化学学院刘书琳研究员团队开发出一种全新的广谱抗甲型流感病毒策略。该策略基于一种名为“多路复用蛋白降解靶向嵌合分子(PROTAC)”的技术... -
陕西一地给枯草喷颜料 当地回应:为美观调配的营养液
快科技12月12日消息,陕西一名网友拍摄的“绿化”视频近日引发争议。视频中,两人手持带喷头的软管,向草坪喷洒绿色液体。被喷到的区域顿时呈现鲜亮的绿色,与周围未喷到的枯黄色草坪... -
凭煮蛋涨粉350万 “蛋神”教大家用手机补光灯挑鸡蛋
快科技12月12日消息,在抖音平台,一位账号名为“爱吃蛋”的博主凭借与鸡蛋相关的内容走红。他因精湛的煮蛋技巧收获“蛋神”称号,更积累了超350万粉丝。最近,他分享... -
不间断飞行超188公里!北航氢动力无人机刷新世界纪录
快科技12月12日消息,北京日报发文,由北京航空航天大学天目山实验室自主研发的“天目山一号”氢动力多旋翼无人机,近日以不间断飞行超过188公里的成绩,成功刷新“氢燃料电池驱... -
确定了!我国将对普通高中、优质本科扩招
12月12日消息,据央视新闻报道称,我国将推进教育资源布局结构调整,增加普通高中学位供给和优质高校本科招生。报道中指出,教育资源调配必须统筹考虑不同学段波峰前的较大压力和波峰后的相对...
















