英伟达发布 TiDAR:单步生成多个 Token,AI 吞吐量提升近 600%
最新 12 月 2 日消息,科技媒体 Tom's Hardware 今天(12 月 2 日)发布博文,报道称英伟达在最新论文中,详述名为 TiDAR 的新型 AI 解码方法,巧妙融合了自回归(Autoregressive)与扩散(Diffusion)两种模型机制,利用 GPU 的“空闲槽位”加速文本生成。
自回归(Autoregressive)是一种生成方式,AI 必须根据上一个字才能猜出下一个字,像接龙一样,只能按顺序一个接一个生成。
扩散(Diffusion)常用于 AI 绘画的技术,通过逐步去除噪点来生成内容,在 TiDAR 中,它被用来一次性“猜”出好几个可能的词,供后续筛选。
最新援引博文介绍,当前的语言模型通常一次生成一个 Token(词元),这种逐个生成的机制导致了极高的计算成本和延迟。
TiDAR 的核心理念在于利用模型推理过程中未被使用的“空闲槽位”,在不牺牲生成质量的前提下,通过单步生成多个 Token 来大幅提升响应速度并降低 GPU 运行时长。
在技术原理方面,TiDAR 创新性地训练单个 Transformer 模型同时执行两项任务:标准的自回归“下一词预测”和基于扩散的“并行起草”。
不同于以往依赖独立草稿模型的投机解码(Speculative Decoding),TiDAR 通过结构化的注意力掩码(Attention Mask)将输入分为三个区域:前缀区、验证区和起草区。

投机解码是一种加速技术,先用一个小模型快速草拟一段话,再由大模型进行检查和修正。TiDAR 试图在同一个模型内完成这两步。
这种设计让模型在利用扩散头并行起草新 Token 的同时,还能通过自回归头验证这些草稿,最关键的是,它确保了 KV 缓存(KV Cache)的结构有效性,解决了早期扩散解码器面临的部署难题。

研究团队基于 Qwen 系列模型进行了测试。在 HumanEval 和 GSM8K 等基准测试中,TiDAR 的准确率与基准模型持平甚至略有提升。
在速度方面,15 亿参数版本的 TiDAR 模型实现了 4.71 倍的吞吐量增长;而 80 亿参数版本的表现更为抢眼,吞吐量达到了 Qwen3-8B 基准的 5.91 倍。这表明在当前测试规模下,TiDAR 能有效利用 GPU 的显存带宽,在不增加额外显存搬运的情况下生成更多 Token。
该媒体指出尽管实验数据亮眼,TiDAR 目前仍面临规模扩展的挑战。论文中的测试仅限于 80 亿参数以下的中小模型,且未涉及定制化的内核级优化(如 fused kernels),仅使用了标准的 PyTorch 环境。
随着模型参数量和上下文窗口的扩大,计算密度可能会饱和,从而压缩“多 Token 扩展”的成本优势。研究人员表示,未来将在更大规模的模型上进行验证,以确定该技术是否能成为云端大规模 AI 部署的实用替代方案。
参考
TiDAR: Think in Diffusion, Talk in Autoregression
《英伟达发布 TiDAR:单步生成多个 Token,AI 吞吐量提升近 600%》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
起售价比老款贵3万依旧畅销!全新问界M7累计交付破4万台
快科技12月2日消息,鸿蒙智行官宣,全新问界M7上市68天累计交付突破4万台,此时距离交付突破3万台(57天)仅过去了11天。全新问界M7于9月23日上市,起售价27.98万,顶配更是高达37.98万,虽然... -
中东市场的“卫士杀手”!极石汽车第20000辆量产下线
快科技12月2日消息,极石汽车官宣,品牌旗下第20000辆量产车正式下线,达成效率同比增长150%,并实现连续11个月销量正增长。非常有趣的是,极石汽车的主战场并不是在国内,去年1月启动全球交... -
2025年11月新能源汽车厂商销量榜公布:特斯拉跌出前5
快科技12月3日消息,近日,乘联分会公布了2025年11月新能源乘用车批发销量榜单。数据显示,11月新能源乘用车批发销量预估达172万辆,同比增长20%。今年以来累计批发1378万辆,同比增长29%。... -
12月第一波寒潮来了 北方多地迎最冷清晨
快科技12月2日消息,中央气象台今天06时继续发布寒潮、大风蓝色预警。受寒潮影响,预计,12月2日08时至12月4日08时,黑龙江东南部、吉林东部、黄淮、江淮、江南中东部、华南东北部等地将出现大... -
微软丑毛衣再度来袭 大眼夹、Xbox和Zune多款可选
快科技12月2日消息,微软近日重新推出其标志性的“丑毛衣”系列,一次性带来三款以经典产品和元素为主题的新设计。新系列包括以复古软件图标为主题的“Artifact”款、...












