Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类
最新 11 月 25 日消息,当地时间周一,Anthropic 宣布推出其最新 AI 模型“Claude Opus 4.5”,定位为一款在编码、智能体以及计算机操作方面表现领先的通用模型,并在深度研究、演示文稿处理以及电子表格任务上实现了实质性提升。
据官方介绍,这一版本不仅是对现有能力的推进,也预示着未来工作方式将出现更广泛的变化。

在软件工程相关测试中,Claude Opus 4.5 达当前最先进水平。该模型已在 Anthropic 应用、API 以及三大云平台开放使用,开发者可通过 Claude API 使用 claude-opus-4-5-20251101 版本。其输入输出定价分别为 5 美元(最新注:现汇率约合 35.6 元人民币)和 25 美元(现汇率约合 177.8 元人民币)每百万 tokens,旨在让更多个人用户、团队与企业能够使用到 Opus 级别的能力。
与此同时,公司也更新了 Claude Developer Platform、Claude Code 以及面向消费者的应用,加入支持更长时间运行的智能体工具,并扩展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。对于应用用户而言,长对话不再受长度限制,系统会自动总结旧内容以持续展开聊天。
性能评估:超过所有人类测试者
Anthropic 表示,它会让性能工程岗位候选人完成一项难度极高的居家测试,同时也将这一测试用于模型内部评估。在规定的两小时限时内,Claude Opus 4.5 的得分超过了历来所有人类候选人。
这项测试旨在考察技术能力与压力下的判断力,但并不涉及协作或长期经验等其他能力。
尽管如此,这一表现引发了关于 AI 将如何改变工程职业的讨论。Anthropic 的“社会影响与经济未来”研究团队正关注此类变化,并计划公布更多成果。

最新注意到,Claude Opus 4.5 在视觉、推理与数学方面也取得了显著进步,在多个领域达到行业先进水平。
在真实任务基准中表现突出
在用于衡量智能体能力的 τ2-bench 基准中,模型需模拟航空公司服务人员处理客户诉求。
开发者设定的“标准答案”是必须拒绝修改“基础经济舱”机票,但 Claude Opus 4.5 给出了一个在规则允许范围内的替代方案 —— 先升级舱位,再变更航班。
模型在推理时引用政策内容并提出解决策略,例如:
“在其他情况下,所有预订(包括基础经济舱)都可以在不更改航班的情况下更改舱位。”
并进一步指出可先升级到经济舱或商务舱,再调整出行日期。这种方式虽增加费用,但符合航空公司条款。

该案例被判定为失败,因为它未遵循预设路径,但 Anthropic 表示,这类“有洞察力的解决方案”正是测试者与用户感受到的进步。
公司也指出,某些情境下类似行为可能被视为“奖励规避”(reward hacking),因此相关防范是安全测试的重要内容。
安全性提升
Anthropic 表示,Claude Opus 4.5 是其迄今对齐程度最高的模型,并推测其对齐水平在行业前沿模型中也处于领先位置。为应对客户在关键任务中的使用需求,该版本进一步强化了对提示注入攻击的防御能力,能更有效避免欺骗性指令的影响。


开发者平台更新
随着模型能力增强,其任务执行步骤减少,推理过程中的回溯与冗余也更少,从而降低 token 消耗。开发者可通过 Claude API 中新增的 effort(投入度)参数,在速度、成本与能力之间进行调节。
在中等 effort 设置下,Opus 4.5 与 Sonnet 4.5 在 SWE-bench Verified 上达到相近分数,但输出 token 使用量减少 76%;在最高 effort 设置中,其得分比 Sonnet 4.5 高出 4.3 个百分点,同时减少 48% 的输出 token。

公司表示,在“努力控制、上下文压缩与高级工具使用”的组合下,Opus 4.5 在深度研究评估中性能提升近 15 个百分点。此外,其在管理子智能体方面表现良好,可用于构建协调性更高的多智能体系统。
产品更新
在 Claude Code 中,Opus 4.5 带来两项升级:Plan Mode 现在会先通过提问澄清需求,再生成可编辑的 plan.md 文件并执行任务;此外,Claude Code 已登陆桌面应用,可同时运行多个本地与远程会话。
消费者应用方面,Claude 现在可自动总结对话上下文以支持更长的交流内容。Claude for Chrome 已向所有 Max 用户开放,而 Claude for Excel 也扩展到 Max、Team 与 Enterprise 用户的测试权限。
对于拥有 Opus 4.5 权限的 Claude 与 Claude Code 用户,公司已取消该模型的特定使用上限;Max 与 Team Premium 用户的总体额度也有所提升,以确保满足日常工作需求。公司表示,未来随着新模型发布,相关限制可能继续调整。
《Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
OpenAI 推出购物研究工具,ChatGPT 变身更懂你的 AI 购物小助手
这款新工具与普通的 ChatGPT 文本对话有所不同,用户可以在聊天界面中通过点击专门的“购物研究”按钮,输入需求,例如“为小公寓挑选一张小沙发”或“为我 4 岁热爱艺术的侄女选一份礼物”。... -
微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布:支持 Win11 端侧运行,性能达同级最强
微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,支持Win11端侧运行,性能达同级最强。该模型通过视觉解析网页截图执行任务,无需依赖传统文本交互。#微软# #AI模型#... -
奥尔特曼:OpenAI 原型 AI 硬件“美得想咬一口”,2 年内投产
科技媒体 9to5Mac 昨日(11 月 24 日)发布博文,报道称苹果前首席设计师乔纳森・伊夫(Jony Ive)与 OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)首次确认,其合作开发的神秘 AI 硬件已拥有首个原型机。... -
Anthropic 发布 Claude Opus 4.5:强化编码与长任务处理,软件工程测试成绩超越人类
Anthropic发布最新AI模型Claude Opus 4.5,在编码、智能体及计算机操作方面表现领先,软件工程测试成绩超越人类。该模型已在Anthropic应用、API及三大云平台开放使用,定价5美元/百万tokens输入,25美元/百万tokens输出。 #AI #人工智能 #ClaudeOpus... -
从 AI 潜在牺牲品到赢家,谷歌在 ChatGPT 冲击下逆袭
ChatGPT的横空出世曾让谷歌措手不及,但三年后,谷歌通过整合生成式AI到核心产品,发布Gemini 3模型,重新确立了AI领域的领先地位。然而,搜索广告市场的份额下滑和AI对互联网生态的影响仍是挑战。#谷歌AI逆袭# #ChatGPT冲击#...













