人工智能

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

2025-01-25 07:55:26人工智能 IT之家远洋

非营利组织“人工智能安全中心”（CAIS）与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”（Humanity's Last Exam）的新型基准测试，旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。

最新 1 月 24 日消息，非营利组织“人工智能安全中心”（CAIS）与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”（Humanity's Last Exam）的新型基准测试，旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。

据最新了解，该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题，这些专家主要由教授、研究人员和研究生学位持有者组成，涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性，题目形式多样，包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。

在初步研究中，所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明，尽管当前 AI 技术在特定领域已取得显著进展，但在应对复杂、综合性的问题时仍存在明显短板。

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

CAIS 和 Scale AI 表示，他们计划将这一基准测试向研究社区开放，以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。

赞一个！ ()

计算机科技网

计算机教程网

人工智能

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

消息称智谱首席战略官离职，前 Midjourney 亚洲副总裁加入

OpenAI 首个智能体 Operator 测评，你也能拥有 24 小时私人管家

相关文章