首页 > 科技>挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

IT之家科技2025-11-26 10:24:47

AMD 公司昨日（11 月 24 日）发布公告，宣布携手 IBM 和 AI 初创公司 Zyphra，历时 1 年多时间，成功使用 AMD 硬件训练出首个大型混合专家（MoE）基础模型 ZAYA1。...

最新 11 月 25 日消息，AMD 公司昨日（11 月 24 日）发布公告，宣布携手 IBM 和 AI 初创公司 Zyphra，历时 1 年多时间，成功使用 AMD 硬件训练出首个大型混合专家（MoE）基础模型 ZAYA1。

最新援引博文介绍，该模型是首个完全基于 AMD 硬件生态系统构建的大型混合专家（MoE）模型，其训练过程完全在 IBM 云上进行，使用了 AMD Instinct MI300X GPU、Pensando 网络技术和 ROCm 软件平台，其详细技术报告已在 arXiv 上发布。

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

三方为训练 ZAYA1 模型，共同搭建了一个大规模、高可靠性的专用训练集群。该集群由 128 个节点组成，每个节点配备 8 块 AMD MI300X GPU，总计 1024 块 GPU，通过 AMD InfinityFabric 高速互联。

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

整个集群的实际训练性能超过 750 PFLOPs（每秒 75 亿亿次浮点运算），同时 Zyphra 为确保了训练过程的稳定与高效，还开发了一套针对 AMD 平台高度优化的训练框架。

ZAYA1 基础模型在预训练阶段使用了高达 14 万亿（14T）tokens 的数据，并采用了分阶段的课程学习策略：从初期的非结构化网络数据，逐步过渡到结构更清晰、信息密度更高的数学、代码和推理数据。

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

基准测试结果显示，ZAYA1 的综合性能与业界领先的 Qwen3 系列模型不相上下，同时优于 SmolLM3、Phi4 等主流开源模型。特别是在未经特定指令微调的情况下，其推理版本在数学和 STEM 等复杂推理任务上已接近 Qwen3 的专业版本。

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

ZAYA1 的优异性能还得益于其在模型架构上的两项关键创新。首先，它采用了新颖的 CCA 注意力机制（Compressive Convolutional Attention），通过在注意力模块内部引入卷积操作，显著降低了计算量和显存占用。

其次，该模型改进了混合专家模型（MoE）中常用的线性路由（linear router），设计了新的路由结构，提升了模型的表达能力和专家模块的专业化程度。这些创新共同解决了 Transformer 架构中的计算与内存瓶颈。

Zyphra 表示，ZAYA1 的成功发布只是第一步。目前公布的仅为基础模型预览，未来团队将发布经过完整后训练（post-trained）的模型版本，并提供更详尽的性能评测和训练经验分享。

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

《挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场》转载自互联网，如有侵权，联系我们删除，QQ：369-8522。

本文网址：https://m.jsj.wang/2025/11/1764123904557.html

相关图文

Omdia：智能戒指 2025 年全球出货量预计首次突破 400 万台，上半年 Oura 霸榜独占 74% 份额

Omdia 数据显示，2023 年智能戒指出货量已超过 85 万台，2024 年超过两倍增长至 180 万台，而 2025 年上半年已达到 160 万台。全年出货量预计将突破 400 万台，突显出该品类在更广泛的可穿戴生态系统中的迅猛崛起。...

科技 2025-11-26 0
OpenAI 推出购物研究工具，ChatGPT 变身更懂你的 AI 购物小助手

这款新工具与普通的 ChatGPT 文本对话有所不同，用户可以在聊天界面中通过点击专门的“购物研究”按钮，输入需求，例如“为小公寓挑选一张小沙发”或“为我 4 岁热爱艺术的侄女选一份礼物”。...

科技 2025-11-26 0
微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布：支持 Win11 端侧运行，性能达同级最强

微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B，支持Win11端侧运行，性能达同级最强。该模型通过视觉解析网页截图执行任务，无需依赖传统文本交互。#微软# #AI模型#...

科技 2025-11-26 0
奥尔特曼：OpenAI 原型 AI 硬件“美得想咬一口”，2 年内投产

科技媒体 9to5Mac 昨日（11 月 24 日）发布博文，报道称苹果前首席设计师乔纳森・伊夫（Jony Ive）与 OpenAI 首席执行官山姆・奥尔特曼（Sam Altman）首次确认，其合作开发的神秘 AI 硬件已拥有首个原型机。...

科技 2025-11-26 0
Anthropic 发布 Claude Opus 4.5：强化编码与长任务处理，软件工程测试成绩超越人类

Anthropic发布最新AI模型Claude Opus 4.5，在编码、智能体及计算机操作方面表现领先，软件工程测试成绩超越人类。该模型已在Anthropic应用、API及三大云平台开放使用，定价5美元/百万tokens输入，25美元/百万tokens输出。 #AI #人工智能 #ClaudeOpus...

科技 2025-11-26 0
从 AI 潜在牺牲品到赢家，谷歌在 ChatGPT 冲击下逆袭

ChatGPT的横空出世曾让谷歌措手不及，但三年后，谷歌通过整合生成式AI到核心产品，发布Gemini 3模型，重新确立了AI领域的领先地位。然而，搜索广告市场的份额下滑和AI对互联网生态的影响仍是挑战。#谷歌AI逆袭# #ChatGPT冲击#...

科技 2025-11-26 0