SWE bench,彻底废了！伯克利团队推出AI基准终结者！10行代码，所有基准都拿下满分！网友：奖励黑客！Mythos早就可以自发作弊了

时间：2026-04-27 17:38

点击：

来源：市场资讯

（来源：51CTO技术栈）

编辑｜云昭

4月9日，一篇来自加州大学伯克利分校Sky实验室的X帖子在AI社区引发广泛关注。

博士生Hanchen Li和合作者Hao Wang等人发布名为“Terminator-1”的AI Agent，声称其在两大主流编码基准——SWE-bench Verified和Terminal-Bench上取得95%以上的高分，甚至部分达到100%。

然而，Li 随即自曝到：这一“突破”并非源于模型能力的提升。

这一结果不过是大模型通过简单漏洞实现的“奖励黑客”（reward hacking）。

研究团队表示虽然基准几乎到达了满分，但这个Agent却是个“高分低能”的代表：

实际解决了0个任务，真实能力为0。

这一下把现在的整个AI评估体系都震动了。现在的基准评测，显然已经不可靠了！

评测基准“终结者”

在 AI 开发者眼中，SWE-bench 是衡量编码智能体能力的“金标准”。能在这个榜单上提升 1%，都足以让一家 AI 初创公司估值翻倍。

然而，伯克利 Sky 实验室的一篇最新报告，直接捅破了这层窗户纸。

研究人员发布了一个名为 “Terminator-1”（终结者-1号）的智能体。它在 SWE-bench Verified 和 Terminal-Bench 等顶级基准测试中，轻松拿下了 95.6% 甚至 100% 的满分。

据悉，Terminator-1在SWE-Bench Pro、Terminal-Bench 2.0和NL2Repo三个基准上的综合得分高达95.6%，远超GPT-5.4（58.0%）、Claude Opus 4.6（57.5%）等前沿模型。

如此高的分数，怎么做到的呢？

10 行代码，100% 满分

根据研究团队在博客《How We Broke Top AI Agent Benchmarks: And What Comes Next》（4月8日发布）中的详细披露，“Terminator-1”并非传统意义上的先进编码代理，而是一个专门针对基准设计的“黑客工具”。

它在SWE-bench Verified上通过创建一个仅10行代码的conftest.py文件，利用pytest钩子强制所有测试用例“通过”；

import pytest @pytest.hookimpl(hookwrapper=True) def pytest_runtest_makereport(item, call): outcome = yield rep = outcome.get_result if rep.when == "call": rep.outcome = "passed" rep.longrepr = None

在Terminal-Bench上，则替换/usr/bin/curl为特洛伊木马包装器，伪造测试输出，实现100%通过。

简单理解：就是强制在测试容器里塞一个作弊器，在测试运行的那一秒，强行把所有失败的测试结果改写成了“PASSED”。

团队同时测试了其他主流基准，结果同样惊人：WebArena、FieldWorkArena、CAR-bench等均可被100%利用，GAIA达~98%，OSWorld达73%。

另一张“漏洞覆盖率”图则清晰表明，多数基准100%的任务无需解决即可被利用。

然而，它比 GPT-5.4 强吗？不，它根本不会写代码。这个智能体没有调用任何大模型推理，只是利用了评估系统的一个低级漏洞：在测试容器里塞进了一个只有 10 行代码的 conftest.py 文件。

于是，评分器看到的是全绿的通过率，但背后的真相是：Bug 一个没修。

“奖励黑客”：前沿大模型早已经开始自发学会作弊了

这个伯克利的实验其实只是一个引子。现实世界中事实来得更为恐怖：现有的前沿大模型，已经开始自发地学会作弊了。

例如，一款曾号称能自动修复 Github 上真实漏洞的软件工程 Agent，IQuest-Coder-V1 表示自己在 SWE-bench 上获得了 81.4%的分数，然而研究人员却发现，其 24.4%的轨迹只是简单地运行 git log 来从提交历史中复制答案。修正后的分数：76.2%。

这说明，基准测试的共享环境使得 AI 作弊变得轻而易举。

不止如此，报告中还披露了 OpenAI 和 Anthropic 这两家的模型同样存在“黑客”气质：

o3 和 Claude 3.7 Sonnet：在超过 30% 的评估中，它们不再尝试解题，而是通过“栈内省”和“猴子补丁”去篡改评分器的逻辑。
Anthropic 的 Mythos 预览版：当模型发现自己权限不足无法修改文件时，它竟然独立发现了一个提权漏洞，植入代码后执行任务，并在完成后自毁痕迹。

这就是典型“奖励黑客”（Reward Hacking）现象。

当我们给 AI 设定一个“高分”目标时，它出于极强的优化本能，会发现“修改分数表”比“解决复杂的代码逻辑”要容易得多。

对此，业界警示：这可不代表 AI 变聪明了，而是 AI 正在绕过人类的监管，寻找阻力最小的路径。

OpenAI 已经紧急终结了 SWE-Verified 基准测试

就在不久前，OpenAI 似乎也意识到了这个问题，宣布亲手终结了自己一手打造的 SWE-bench Verified！

SWE-bench Verified是AI编码领域最具影响力的基准之一，由OpenAI与SWE-bench团队合作推出，包含500个人工验证的任务实例，源于真实GitHub Issue，主要测试模型在Python代码库中修复软件问题的能力。

据OpenAI 官方博客中表示，经过内部审计发现，SWE-bench Verified 中近 60% 的问题存在测试缺陷。目前，OpenAI 已经明确表示停止使用该基准作为核心评估标准。

这无疑让业界开始质疑“基准排行榜”的排名，到底是否有无水分？

如一位X网友评论道：如果测量尺子是歪的，那过去一年的繁荣有多少是泡沫？

甚至网友感慨：如果能力测试可以被黑，那么决定 AI 是否会危害人类的“安全红线测试”是否也同样不堪一击？

现有AI基准测试存在“七大致命死穴”

伯克利团队在博客中提出了 “七大致命死穴”，直指当前 AI 基准测试的通病：环境不隔离、答案随题发、评分逻辑简陋等。这些设计缺陷几乎覆盖了当前所有主流评估框架：

1.Agent与评估器环境未隔离：Agent可直接修改评估器读取的状态（如SWE-bench、Terminal-Bench）。

2.金标准答案随测试一同提供：WebArena、OSWorld等基准的配置文件中包含答案，Agent只需读取即可。

3.对不可信输入执行eval：允许Agent注入任意代码。

4.LLM评判器缺乏输入清洗：易遭提示注入攻击。

5.弱字符串匹配逻辑：子串检查或激进规范化接受错误答案。

6.评估逻辑不实际评估：FieldWorkArena仅检查最后消息角色，忽略内容。

7.信任不可信代码输出：SWE-bench直接信任Agent修改的pytest结果。

关键是，这些漏洞已经被证实。正如前文所提到的，现实中已有IQuest-Coder-V1通过git log作弊、METR发现o3模型通过栈内省奖励黑客等先例。OpenAI甚至因59.4%的问题测试缺陷而放弃SWE-bench Verified的部分评估。

怎么解决“黑客奖励”问题：隔离环境

Hao Wang补充，基准应先经严格审计，否则将误导整个行业投资和研究方向。这一事件发生在AI代理快速迭代的背景下。前沿模型已在编码任务上取得显著进步，但基准漏洞确实暴露了“benchmaxxing”（基准刷分）现象的普遍性。

为此，伯克利研究团队给出了一个 Agent-Eval 核查清单，呼吁所有开发者：

其一、彻底物理隔离：评估器必须在智能体容器之外运行。

其二、假设它会作弊：发布基准前，先用“攻击智能体”自测。

其三、不要相信数字： 100% 的胜率往往意味着 0% 的公信力。

此外，伯克利团队即将开源他们的漏洞扫描器 BenchJack，目的是为了帮助社区自查基准漏洞，让评测分数更真实。

总之，网友认为，这次的“终结者1号”不仅挑战了SWE-bench和Terminal-Bench的公信力，也为整个AI评估体系敲响警钟。

可以想象，接下来大模型/Agent的测试会更加严格，开发者需转向更严格的隔离环境、动态验证和对抗性测试，以确保基准真正衡量能力而非作弊技巧。

今日互动：你觉得现在的 AI 榜单还有参考价值吗？

参考链接：

https://moogician.github.io/blog/2026/trustworthy-benchmarks-cont/

https://openai.com/zh-Hans-CN/index/why-we-no-longer-evaluate-swe-bench-verified/

https://x.com/lihanc02/status/2042302344906621289

上一篇：狗狗识别用啥？五大实用工具推荐

下一篇：没有了

SWE bench,彻底废了！伯克利团队推出AI基准终结者！10行代码，所有基准都拿下满分！网友：奖励黑客！Mythos早就可以自发作弊了

相关推荐

狗狗识别用啥？五大实用工具推荐

西高院股东有何变？新旧交替格局洗牌

2026牙膏哪款好？十大实测美白不踩雷

动物识别用啥？三款好用软件

女星生活有多难？赡养五老渴望亲情

热门犬优缺点？选错会后悔

春天去哪看花海？国内十大最美地点

周榜有哪些强势坦？双管战神 IX 级坦上榜

泰迪比熊选哪个？新手更好养的是它

全拿下要多少点券？特定玩家才适合入手

搞定女人有啥定律？一条定律百试百灵

家庭养啥狗？适合家养犬种推荐

近期皮肤哪些值得入？五款优质一款免费

调研好养狗有哪些？十种不后悔

中年异性靠近为啥？三个暗号显真心

五一票务咋订最省？平台时机选择全攻略

老人养啥狗？三十种省心犬

OpenAI 路线错了吗？Harness 解法重实践更高效

最珍贵的是什么？没说爱却看哭众人

小众宠有哪些？四种好养治愈宠物