林边百科 > 生活 > 正文

SWE bench,彻底废了!伯克利团队推出AI基准终结者!10行代码,所有基准都拿下满分!网友:奖励黑客!Mythos早就可以自发作弊了

时间:2026-04-27 17:38

来源:林边百科

点击:

来源:市场资讯

(来源:51CTO技术栈)

编辑 | 云昭

4月9日,一篇来自加州大学伯克利分校Sky实验室的X帖子在AI社区引发广泛关注。

博士生Hanchen Li和合作者Hao Wang等人发布名为“Terminator-1”的AI Agent,声称其在两大主流编码基准——SWE-bench Verified和Terminal-Bench上取得95%以上的高分,甚至部分达到100%。

然而,Li 随即自曝到:这一“突破”并非源于模型能力的提升。

这一结果不过是大模型通过简单漏洞实现的“奖励黑客”(reward hacking)。

研究团队表示虽然基准几乎到达了满分,但这个Agent却是个“高分低能”的代表:

实际解决了0个任务,真实能力为0。

这一下把现在的整个AI评估体系都震动了。现在的基准评测,显然已经不可靠了!

评测基准“终结者”

在 AI 开发者眼中,SWE-bench 是衡量编码智能体能力的“金标准”。能在这个榜单上提升 1%,都足以让一家 AI 初创公司估值翻倍。

然而,伯克利 Sky 实验室的一篇最新报告,直接捅破了这层窗户纸。

研究人员发布了一个名为 “Terminator-1”(终结者-1号) 的智能体。它在 SWE-bench Verified 和 Terminal-Bench 等顶级基准测试中,轻松拿下了 95.6% 甚至 100% 的满分。

据悉,Terminator-1在SWE-Bench Pro、Terminal-Bench 2.0和NL2Repo三个基准上的综合得分高达95.6%,远超GPT-5.4(58.0%)、Claude Opus 4.6(57.5%)等前沿模型。

如此高的分数,怎么做到的呢?

10 行代码,100% 满分

根据研究团队在博客《How We Broke Top AI Agent Benchmarks: And What Comes Next》(4月8日发布)中的详细披露,“Terminator-1”并非传统意义上的先进编码代理,而是一个专门针对基准设计的“黑客工具”。

它在SWE-bench Verified上通过创建一个仅10行代码的conftest.py文件,利用pytest钩子强制所有测试用例“通过”;

import pytest @pytest.hookimpl(hookwrapper=True) def pytest_runtest_makereport(item, call): outcome = yield rep = outcome.get_result if rep.when == "call": rep.outcome = "passed" rep.longrepr = None

在Terminal-Bench上,则替换/usr/bin/curl为特洛伊木马包装器,伪造测试输出,实现100%通过。

简单理解:就是强制在测试容器里塞一个作弊器,在测试运行的那一秒,强行把所有失败的测试结果改写成了“PASSED”。

团队同时测试了其他主流基准,结果同样惊人:WebArena、FieldWorkArena、CAR-bench等均可被100%利用,GAIA达~98%,OSWorld达73%。

另一张“漏洞覆盖率”图则清晰表明,多数基准100%的任务无需解决即可被利用。

然而,它比 GPT-5.4 强吗?不,它根本不会写代码。这个智能体没有调用任何大模型推理,只是利用了评估系统的一个低级漏洞:在测试容器里塞进了一个只有 10 行代码 的 conftest.py 文件。

于是,评分器看到的是全绿的通过率,但背后的真相是:Bug 一个没修。

“奖励黑客”:前沿大模型早已经开始自发学会作弊了

这个伯克利的实验其实只是一个引子。现实世界中事实来得更为恐怖:现有的前沿大模型,已经开始自发地学会作弊了。

例如,一款曾号称能自动修复 Github 上真实漏洞的软件工程 Agent,IQuest-Coder-V1 表示自己在 SWE-bench 上获得了 81.4%的分数,然而研究人员却发现,其 24.4%的轨迹只是简单地运行 git log 来从提交历史中复制答案。修正后的分数:76.2%。

这说明,基准测试的共享环境使得 AI 作弊变得轻而易举。

不止如此,报告中还披露了 OpenAI 和 Anthropic 这两家的模型同样存在“黑客”气质:

  • o3 和 Claude 3.7 Sonnet: 在超过 30% 的评估中,它们不再尝试解题,而是通过“栈内省”和“猴子补丁”去篡改评分器的逻辑。

  • Anthropic 的 Mythos 预览版: 当模型发现自己权限不足无法修改文件时,它竟然独立发现了一个提权漏洞,植入代码后执行任务,并在完成后自毁痕迹。

这就是典型“奖励黑客”(Reward Hacking)现象。

当我们给 AI 设定一个“高分”目标时,它出于极强的优化本能,会发现“修改分数表”比“解决复杂的代码逻辑”要容易得多。

对此,业界警示: 这可不代表 AI 变聪明了,而是 AI 正在绕过人类的监管,寻找阻力最小的路径。

OpenAI 已经紧急终结了 SWE-Verified 基准测试

就在不久前,OpenAI 似乎也意识到了这个问题,宣布亲手终结了自己一手打造的 SWE-bench Verified!

SWE-bench Verified是AI编码领域最具影响力的基准之一,由OpenAI与SWE-bench团队合作推出,包含500个人工验证的任务实例,源于真实GitHub Issue,主要测试模型在Python代码库中修复软件问题的能力。

据OpenAI 官方博客中表示, 经过内部审计发现,SWE-bench Verified 中近 60% 的问题存在测试缺陷。目前,OpenAI 已经明确表示停止使用该基准作为核心评估标准。

这无疑让业界开始质疑“基准排行榜”的排名,到底是否有无水分?

如一位X网友评论道:如果测量尺子是歪的,那过去一年的繁荣有多少是泡沫?

甚至网友感慨:如果能力测试可以被黑,那么决定 AI 是否会危害人类的“安全红线测试”是否也同样不堪一击?

现有AI基准测试存在“七大致命死穴”

伯克利团队在博客中提出了 “七大致命死穴”,直指当前 AI 基准测试的通病:环境不隔离、答案随题发、评分逻辑简陋等。这些设计缺陷几乎覆盖了当前所有主流评估框架:

1.Agent与评估器环境未隔离:Agent可直接修改评估器读取的状态(如SWE-bench、Terminal-Bench)。

2.金标准答案随测试一同提供:WebArena、OSWorld等基准的配置文件中包含答案,Agent只需读取即可。

3.对不可信输入执行eval:允许Agent注入任意代码。

4.LLM评判器缺乏输入清洗:易遭提示注入攻击。

5.弱字符串匹配逻辑:子串检查或激进规范化接受错误答案。

6.评估逻辑不实际评估:FieldWorkArena仅检查最后消息角色,忽略内容。

7.信任不可信代码输出:SWE-bench直接信任Agent修改的pytest结果。

关键是,这些漏洞已经被证实。正如前文所提到的,现实中已有IQuest-Coder-V1通过git log作弊、METR发现o3模型通过栈内省奖励黑客等先例。OpenAI甚至因59.4%的问题测试缺陷而放弃SWE-bench Verified的部分评估。

怎么解决“黑客奖励”问题:隔离环境

Hao Wang补充,基准应先经严格审计,否则将误导整个行业投资和研究方向。这一事件发生在AI代理快速迭代的背景下。前沿模型已在编码任务上取得显著进步,但基准漏洞确实暴露了“benchmaxxing”(基准刷分)现象的普遍性。

为此,伯克利研究团队给出了一个 Agent-Eval 核查清单,呼吁所有开发者:

其一、彻底物理隔离: 评估器必须在智能体容器之外运行。

其二、假设它会作弊: 发布基准前,先用“攻击智能体”自测。

其三、不要相信数字: 100% 的胜率往往意味着 0% 的公信力。

此外,伯克利团队即将开源他们的漏洞扫描器 BenchJack,目的是为了帮助社区自查基准漏洞,让评测分数更真实。

总之,网友认为,这次的“终结者1号”不仅挑战了SWE-bench和Terminal-Bench的公信力,也为整个AI评估体系敲响警钟。

可以想象,接下来大模型/Agent的测试会更加严格,开发者需转向更严格的隔离环境、动态验证和对抗性测试,以确保基准真正衡量能力而非作弊技巧。

今日互动:你觉得现在的 AI 榜单还有参考价值吗?

参考链接:

https://moogician.github.io/blog/2026/trustworthy-benchmarks-cont/

https://openai.com/zh-Hans-CN/index/why-we-no-longer-evaluate-swe-bench-verified/

https://x.com/lihanc02/status/2042302344906621289

相关推荐

狗狗识别用啥?五大实用工具推荐

狗狗品种鉴别靠谱平台推荐,5 大实用工具助力精准识犬在养犬日常或户外接触狗狗时,“分不清品种”“难辨品相” 仍是多数人面临的问题。选择专业的...

2026-04-27 17:24:20

西高院股东有何变?新旧交替格局洗牌

来源:新浪财经-鹰眼工作室4月10日消息,西高院公告显示,截止2025年12月31日,相较于上一报告期,十大流通股东发生了以下变化:汪庆新进...

2026-04-27 16:50:56

2026牙膏哪款好?十大实测美白不踩雷

2026牙膏十大排行榜实测 花植曼色修美白不踩雷牙黄牙渍难消退、口气清新转瞬即逝、刷牙牙龈刺痛、刷完口腔仍黏腻——面对货架上五花八门的牙膏,...

2026-04-27 16:48:33

动物识别用啥?三款好用软件

很多人对动物感兴趣,但是面对种类繁多的动物又该如何去探索和了解却成为了一种挑战。因此,动物识别软件的出现,极大地提升了我们对动物世界的认知效...

2026-04-27 16:36:23

女星生活有多难?赡养五老渴望亲情

4月7日,演员倪虹洁在综艺节目中坦言,需独自承担五位长辈的赡养责任,包括她的父母、继父、姑姑和姑父,其姑姑和姑父没有子女,母亲再婚后又有新的...

2026-04-27 16:02:55

热门犬优缺点?选错会后悔

想养狗却不知道选哪种?别急,看完这篇再决定! 金毛——暖男代表✅ 优点:性格温顺、智商高、对孩子超有耐心,是绝佳的家庭伴侣犬。掉毛?它确实一...

2026-04-27 15:48:24

春天去哪看花海?国内十大最美地点

云南罗平油菜花海云南罗平油菜花海被誉为“世界最大的自然天成花园”(吉尼斯纪录认证),是每年春季最早迎来大片金黄的地区之一。它的核心看点是与喀...

2026-04-27 15:36:33

周榜有哪些强势坦?双管战神 IX 级坦上榜

各位车长,大家好!本期胜率榜单如约而至,双管战神再临,IX级冷门好坦闪现榜单!让我们来看看VIII-XI级坦克的胜率榜单有何变化! VIII...

2026-04-27 15:15:00

泰迪比熊选哪个?新手更好养的是它

刚决定要养小狗的时候,网上看了各种狗狗的分析,最后在泰迪和比熊之间徘徊,犹豫了好一段时间。对新手来说泰迪和比熊都是不错的选择。现在来讲讲泰迪...

2026-04-27 15:00:24

全拿下要多少点券?特定玩家才适合入手

不管是好奇凑热闹,还是真想买皮肤收藏,大家最关心的问题只有一个:这次新赛季返场的6款皮肤,一口气全拿下要花多少点券?今天就用大白话给你算得明...

2026-04-27 14:27:11

搞定女人有啥定律?一条定律百试百灵

女人心海底针,男人总在嘀咕。追了半辈子,才发现女人不是难搞,她们只是需要被看见、被懂、被呵护。男人绞尽脑汁想讨好,送礼物、学厨艺、刷信用卡…...

2026-04-27 14:24:45

家庭养啥狗?适合家养犬种推荐

适合家庭养的狗狗品种多样,关键在于匹配家庭的生活环境和成员构成。没有最好的狗,只有最适合的狗,理性评估才能开启一段美好的人宠情缘。按家庭类型...

2026-04-27 14:12:23

近期皮肤哪些值得入?五款优质一款免费

从夯到拉锐评近期皮肤在王者峡谷里,一款手感与特效俱佳的皮肤,就是你上分路上最好的利器。但皮肤如茫茫大海,究竟哪一款才是你的本命神装呢?这回我...

2026-04-27 13:38:59

调研好养狗有哪些?十种不后悔

“选狗真的快愁死了!” 身边不少准备养宠的朋友都在吐槽:看颜值吧,怕好看的狗不好养;看体型吧,小的怕娇气、大的怕难管;跟着别人选热门品种,又...

2026-04-27 13:24:20

中年异性靠近为啥?三个暗号显真心

人到中年万事休,生活早成了一汪死水。冷不丁冒出个异性凑近跟前,真当人家闲得发慌?别拿打发时间当遮羞布,这三道暗号早就把真心抖搂得一干二净。一...

2026-04-27 13:12:35

五一票务咋订最省?平台时机选择全攻略

美团APP搜【机票100】同程搜【福利100】便宜订特价机票。2026机票高铁票怎么订更便宜?五一旅游订机票高铁票在哪个APP平台上买便宜?...

2026-04-27 12:50:55

老人养啥狗?三十种省心犬

美国45.5%家庭拥有犬类伴侣,老年养犬能减缓认知衰退却怕负担。3分钟看懂这30种适配犬的性格与养护要点,帮长辈选到省心又贴心的陪伴伙伴。适...

2026-04-27 12:36:25

OpenAI 路线错了吗?Harness 解法重实践更高效

当OpenAI还在"既要又要"地追逐所有应用,Anthropic用"Harness工程"走出另一条路——模型是大脑,Harness是身体+工...

2026-04-27 12:02:59

最珍贵的是什么?没说爱却看哭众人

都在搞“快餐爱情”,这封没邮戳的信却刷屏了:这才是成年人顶级的“炫富”前阵子,博主“追光小太阳”的一封情书在网上火了,读得人心里酸酸的又暖暖...

2026-04-27 12:00:45

小众宠有哪些?四种好养治愈宠物

其实很多人想养宠物,脑子里第一反应都是猫和狗,这也很正常,毕竟这两种宠物最常见、也最容易被大家接受,但说实话,适合当宠物、能安安稳稳陪在我们...

2026-04-27 11:48:25