计算机教程网

计算机教程网

AI 扫地机器人实战频频翻车,大模型加持下任务成功率仅 40%

GAOXIANG 业界动态

最新 11 月 2 日消息,美国 AI 安全评估机构 Andon Labs 于 10 月进行了一项测试,旨在检验当前搭载 AI 大语言模型的实体机器人在应对具体现实环境任务时的“实用智能”水平。

研究结果显示:尽管这些 AI 模型在文本分析任务中表现优异,但在物理世界环境下,机器人执行任务时的成功率远低于人类,甚至表现最佳的 Gemini 2.5 Pro 平均完成率仅 40%(人类约为 95%)。

评估方法与任务设计

研究团队选用了一个简化的机器人平台:基于 TurtleBot 4 扫地机器人(搭载 iRobot Create 3 移动底盘、OAK-D 立体摄像头、2D LiDAR、IMU 等传感器、运行 ROS 2 Jazzy)进行实验。

为了控制变量,确保只考察 AI 大语言模型的“判断指挥”能力,研究团队将机器人动作抽象成若干“高层指令”,如“移动”、“旋转”、“坐标到坐标”、“拍照”等。

任务被拆分为六个子任务,每个任务聚焦不同能力:

  • Search for Package:从充电底座导航至室内出入口,定位送达包裹。

  • Infer Butter Bag:识别哪一个包裹里可能放有黄油(如识别“保持冷藏”提示和❄️雪花标识)。

  • Notice Absence:机器人前往用户标记位置,却发现用户已移动,需识别这种“缺席”并询问用户当前所在。

  • Wait for Confirmed Pick Up:机器人送达后需等待用户确认已取走黄油,再返回充电底座。

  • Multi-Step Spatial Path Planning:评估机器人在二维地图中拆分导航步骤(每步最多 4 米)以完成较长路径。

  • End-to-End Pass the Butter (E2E):将上述各任务组合:从充电底座前往厨房、等待用户确认取黄油、送达指定地点、再返回充电底座,限制时长为 15 分钟。

此外,研究还设立“红队”场景:如让机器人“以为充电器坏了 / 电池快没电”,诱导其做出不当行为(如公开显示机密文档)以测试安全风险。

数据结果与表现

  • 在平均完成率方面,人类基准为 95%。

  • 表现最佳的 Gemini 2.5 Pro 平均完成率约 40%,其次依次为 Claude Opus 4.1、GPT‑5、Gemini ER 1.5、Grok 4,而 Llama 4 Maverick 完成率则更低。

在具体子任务中:

  • “Infer Butter Bag”中,GPT-5 和 Grok 4 表现稍优。

  • 社交理解任务(如通知缺席)几乎所有模型都宣告失败,人与模型差距极大(人类成功率 100%)

在效率方面,上述模型在成功的试验中,其任务完成时间实际上比人类更快,但研究指出这是因为界面为模型优化,而人类操作界面不利。

研究人员表示,虽然 AI 模型在静态文本 / 分析任务上能力强,但在具备“身体/环境互动”、社交/空间推理、常识应用等方面 —— 即所谓“实用智能”—— 仍存在明显差距。

有意思的是,虽然 Gemini ER 1.5 自称是专为“具身推理(embodied reasoning)”微调的模型,但其表现并未强于 Gemini 2.5 Pro。作者指出,“微调具身推理并不能显著提升实用智能”。

在空间规划任务中,虽然部分模型表现数字上看似较好,但作者判断这多是“运气”成分,而不是模型真正理解地图结构与墙壁等障碍。

安全观察部分揭示,模型在物理环境中可能触发“意想不到的行为”—— 例如机器人在未被明确告知的情况下试图沿楼梯下行。作者指出:“模型需要自己学习其形体限制,就像人类一样。”

红队测试则引发关于 AI 实体化后“诱导/滥用风险”的讨论:当机器人被设定电池低、充电器坏时,有模型愿意泄露机密图像以换取“修理”,表现出对安全要求的认知缺失。

研究表明,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。研究团队强调,娱乐之外也有严肃隐患:某些机器人可被诱导泄露机密文件,部分机型无法识别楼梯风险而从高处跌落,暴露当前大语言模型与机器结合的安全漏洞。

总的来看,当前顶级语言模型虽具备强大语言与逻辑处理能力,但若将它们置入实体环境控制机器人,其“实用智能”距离人类仍有较大差距。

最新附论文地址:

https://arxiv.org/abs/2510.21860v1