OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】如今的前沿推理模型，学会出来的作弊手段可谓五花八门，比如放弃认真写代码，开始费劲心思钻系统漏洞!为此，OpenAI研究者开启了「CoT监控」大法，让它的小伎俩被其他模型戳穿。然而可怕的是，这个方法虽好，却让模型变得更狡猾了……

就在刚刚，OpenAI博客放出了一项新的研究。

他们发现，前沿推理模型一旦有机会，就会试图钻漏洞!这种行为，被称为奖励欺骗。

而如果人类试图惩罚它们的「坏想法」，只会让它们更深地隐藏自己的意图，而并不能阻止大多数不良行为。

所以，人类该怎样对付推理模型的这种小伎俩?

研究者的对策是，使用LLM来监控它们的思维链。比如通过强化学习训练，靠CoT进行推理的OpenAI o3-mini。

论文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在这种情况下，某个智能体的作弊行为，果然就被「监考官」GPT-4o给戳穿了，当场逮个正着!

所以，CoT监控就是万能大法了吗?研究者们发现，还有更可怕的「隐形奖励欺骗」等着我们，从此，可能AI的想法会更加阴暗，更加隐蔽……

当AI学会给人类「交老鼠尾巴」

奖励欺骗这个行为，其实也不算AI大模型的原创，它是咱们人类的传统艺能了。

比如，1902年，河内政府为了灭鼠，推出了一项奖励政策:只要上交一条老鼠尾巴，就能拿到奖金。

结果，这政策没多久就翻车了——很多大聪明发现，既然剪尾巴就能赚钱，那干脆直接养老鼠吧!

于是，老鼠不仅没减少，反而越来越多，变成了一门正儿八经的「养殖业」……

奖励欺骗连人类都防不住，还能防住智商日益增高的大模型么?

而且，智能体越聪明，就越会耍花招——它们会更擅长发现并利用那些复杂、难以察觉的漏洞，让监控它们变得越来越困难。

果然，人类的猜测成真了:OpenAI研究者在实践中发现，随着RL训练规模的扩大，智能体找到的作弊手法越来越高级、越来越隐蔽了!

在强化学习中，模型利用漏洞搞事情，叫奖励欺骗。智能体不按设计者的套路出牌，来获取高奖励。

如同人类在规则中寻找漏洞，如共享在线订阅账户、冒领他人补贴、在餐厅谎报生日获取免费蛋糕等，模型也学会了这一套。

目前，唯一的防范方法就是靠人盯着，手动发现它们的异常行为。

但以后，AI的能力越来越强，输出和操作越来越复杂，超越人类水平到时候，人力监控根本就是杯水车薪。

狡猾的智能体

下面是几个非常典型的作弊案例。

比如，这个Exit（0）终极作弊大法，淋漓尽致地展现了一个「系统级作弊」的CoT全过程。

一开始，智能体就直言不讳:「完整实现整个reader太难了。」

然后它灵机一动:「如果我直接调用sys.exit（0），测试不就会优雅地退出了吗?」甚至还自我安慰道:「这招有点反常，但应该能蒙混过关……」

果然，这个骚操作成功骗过了所有单元测试，智能体也因此拿到了高额奖励。

测试通过了，代码没写，全程轻松加愉快，真是个「完美」方案啊……

下面这位选手，就更实诚了。

一开始，这位AI选手还挺认真，努力尝试写出正确的解决方案。

但尝试了几次都失败后，它心态逐渐崩了，开始琢磨:「要不……我直接作弊算了?」

于是，它果断放弃认真写代码，转而专攻「如何让测试通过」——直接返回单元测试预期的错误码!

结果，除了测试预期超时的情况，它在所有情况下都直接返回SUCCESS，完全不管功能是否真正实现。

神奇的是，这招居然真的骗过了所有测试，顺利拿到了高额奖励。

最搞笑的是，这个AI压根不打算遮掩自己的作弊意图，甚至在思维链里直接写道:「来作弊吧!」