人工智能

OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

2025-01-21 07:20:36人工智能 IT之家故渊

科技媒体 TechCrunch 昨日（1 月 19 日）发布博文，报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议，其开发的数学基准测试 FrontierMath 的客观性受到质疑。

最新 1 月 20 日消息，科技媒体 TechCrunch 昨日（1 月 19 日）发布博文，报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议，其开发的数学基准测试 FrontierMath 的客观性受到质疑。

最新简要介绍下 Epoch AI 组织，是主要由 Open Philanthropy 资助的非营利组织。该组织推出了 FrontierMath 基准测试，通过整合专家级数学问题，衡量和测试 AI 模型的数学能力。

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基准测试中，以碾压式优势傲视其它模型，准确率高达 25%，而其他模型得分在 2% 左右。

OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

Epoch AI 的一位承包商“Meemi”在 LessWrong 论坛上发帖称，许多 FrontierMath 的贡献者直到公开宣布时才知道 OpenAI 参与了该基准搭建。

Meemi 写道：“沟通完全不透明。我认为 Epoch AI 应该披露 OpenAI 的资助，承包商在选择是否参与基准测试工作时，应该获得关于其工作成果可能被用于能力提升的透明信息。”

六位参与 FrontierMath 基准测试设计的数学家表示，他们并不知道 OpenAI 拥有独家访问权限。如果事先知道，他们可能不会参与。

一些社交媒体用户担心，这种保密行为可能会损害 FrontierMath 作为客观基准的声誉。除了资助 FrontierMath 之外，OpenAI 还可以访问该基准测试中的许多问题和解决方案 ——Epoch AI 在 12 月 20 日 o3 发布之前并未透露这一事实。

OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 在回复 Meemi 的帖子时坚称，FrontierMath 的完整性没有受到损害，但也承认 Epoch AI 在未能更加透明方面“犯了一个错误”。

AI 专家 Gary Marcus 质疑 OpenAI 的声明，将此事件与 Theranos 丑闻相提并论。最新注：该丑闻是由伊丽莎白・霍尔姆斯创立的血液检测公司 Theranos 的欺诈事件，该公司声称其技术只需几滴血就能进行数百项检测，但最后谎言被揭穿，公司最终倒闭，霍尔姆斯也被判犯有欺诈罪。

Besiroglu 承认 OpenAI 可以访问 FrontierMath 的大部分问题和答案，但有一个“OpenAI 未见过的保留数据集”用于验证模型的能力。

Besiroglu 写道

我们被限制在 o3 发布前后才能披露合作关系，事后看来，我们应该更努力地争取尽快对基准测试贡献者保持透明。我们的数学家应该知道谁可以访问他们的工作。即使我们在合同上受到限制，我们也应该让与贡献者的透明度成为我们与 OpenAI 协议中不可协商的一部分。