英特尔 AutoRound 算法正式落地:支持英伟达 CUDA 及自家 GPU,Crescent Island 显卡将原生支持 FP8/MXFP4
最新 12 月 9 日消息,当地时间 12 月 8 日,英特尔宣布将 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能与效率。
该算法可在保持模型准确度的前提下,实现更快、更轻量的推理,同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。
此外,英特尔未来推出的“Crescent Island”系列数据中心 GPU 将原生支持 FP8 / MXFP8 / MXFP4 等格式,使量化模型能够直接利用这些数据类型带来的硬件加速优势。

英特尔表示,AutoRound 是面向大语言模型(LLM)与视觉语言模型(VLM)的先进后训练量化(PTQ)算法,通过为每个量化张量引入三个可训练参数(v、α、β),配合逐层处理和符号梯度下降方法,实现更精准的舍入和裁剪优化,从而减少输出误差。
AutoRound 通过三项核心技术实现低比特量化优化:
每张量引入三个可训练参数:v(舍入偏移量)、α 与 β(动态裁剪范围控制);
逐层序列处理:采用带符号梯度下降法联合优化舍入与裁剪策略;
最小化分块输出重建误差:在百步级轻量调优下实现更高精度。
官方透露,AutoRound 的主要优势包括:
在低比特量化条件下维持较高准确度;
支持 W4A16、MXFP8、MXFP4、FP8、NVFP4 等多种数据类型;
可进行混合比特与按层精度搜索,提供灵活的精度与效率平衡方案;
零额外推理开销,量化模型可直接通过 vLLM 框架部署;
适用于 LLM 与 VLM 的量化场景。

英特尔称,AutoRound 生成的量化模型可在多个英特尔硬件平台上加速推理,包括 Xeon 处理器、Gaudi 加速器、英特尔数据中心 GPU、Arc B 系列显卡,以及 CUDA 生态的 GPU。
此次集成通过 LLM Compressor 中新增的 AutoRoundModifier 完成,能够生成可直接在 vLLM 上部署的 W4A16 量化模型。当前已支持 Llama、Qwen 等主流密集 LLM,并提供轻量的调优流程(仅需数百步),不增加推理开销。
英特尔表示,未来将继续扩展更多量化方案(最新注:包括 FP8 与 MXFP 系列)、自动混合比特搜索、更多模型族(如 MoE),并加强与 LLM Compressor 其他压缩算法的协同,以形成更完整的多策略组合方案。官方也邀请开发者在社区讨论区提交反馈,用于制定后续路线图。
《英特尔 AutoRound 算法正式落地:支持英伟达 CUDA 及自家 GPU,Crescent Island 显卡将原生支持 FP8/MXFP4》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
摩尔线程首届MDC大会三大亮点:重磅发布新一代GPU架构
快科技12月9日消息,摩尔线程官方宣布,12月19-20日,摩尔线程首届MUSA开发者大会(MDC 2025)将在北京中关村国际创新中心拉开帷幕!这是摩尔线程第一次举办开发者大会,也是国内首个聚焦全功能... -
首台国产芯片电竞主机!雷神黑武士猎刃Pro细节公布:玩《英雄联盟》无压力
快科技12月9日消息,11月底,雷神发布黑武士猎刃Pro,搭载国产海光C86处理器,成为首台国产芯片电竞主机。日前,雷神官方发布黑武士猎刃Pro上手体验,展示了主机更多细节。外观上,黑武士猎... -
黄仁勋回顾关键转折:没有GTX 580就没有如今的NVIDIA!
快科技12月9日消息,在最近一期的Joe Rogan播客中,NVIDIA CEO黄仁勋回忆了关于深度学习起源和公司命运的关键转折点:深度学习的突破,始于2012年,依赖于两张并非为AI设计的GTX 580显卡SLI双卡... -
全球首个液冷迷你机!abee AI Station 395 Max工作站图赏
快科技12月9日消息,日前,abee AI Station 395 Max迷你液冷AI工作站发布,定价为17999元。现在这款新品已经来到我们评测室,下面为大家带来图赏。它拥有199mm的标准立方体尺寸,体积只有7.... -
美国解禁NVIDIA H200对华出口:中国只回了一句话
快科技12月9日消息,美国商务部即将批准NVIDIA向中国出口H200 AI芯片,这次是完整的满血版,虽然架构上落后一代。在今天的外交部例行记者会上,有记者提问,美国总统特朗普称将批准向中国出售N...
















