您好,欢迎来到一起上网站目录!
当前位置:一起上网站目录 » 站长资讯 » 行业新闻 » 文章详细 订阅RssFeed

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

来源:站长之家 浏览:13次 时间:2025-03-11

声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】如今的前沿推理模型,学会出来的作弊手段可谓五花八门,比如放弃认真写代码,开始费劲心思钻系统漏洞!为此,OpenAI研究者开启了「CoT监控」大法,让它的小伎俩被其他模型戳穿。然而可怕的是,这个方法虽好,却让模型变得更狡猾了……

就在刚刚,OpenAI博客放出了一项新的研究。

他们发现,前沿推理模型一旦有机会,就会试图钻漏洞!这种行为,被称为奖励欺骗。

而如果人类试图惩罚它们的「坏想法」,只会让它们更深地隐藏自己的意图,而并不能阻止大多数不良行为。

所以,人类该怎样对付推理模型的这种小伎俩?

研究者的对策是,使用LLM来监控它们的思维链。比如通过强化学习训练,靠CoT进行推理的OpenAI o3-mini。

论文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在这种情况下,某个智能体的作弊行为,果然就被「监考官」GPT-4o给戳穿了,当场逮个正着!

所以,CoT监控就是万能大法了吗?研究者们发现,还有更可怕的「隐形奖励欺骗」等着我们,从此,可能AI的想法会更加阴暗,更加隐蔽……

当AI学会给人类「交老鼠尾巴」

奖励欺骗这个行为,其实也不算AI大模型的原创,它是咱们人类的传统艺能了。

比如,1902年,河内政府为了灭鼠,推出了一项奖励政策:只要上交一条老鼠尾巴,就能拿到奖金。

结果,这政策没多久就翻车了——很多大聪明发现,既然剪尾巴就能赚钱,那干脆直接养老鼠吧!

于是,老鼠不仅没减少,反而越来越多,变成了一门正儿八经的「养殖业」……

奖励欺骗连人类都防不住,还能防住智商日益增高的大模型么?

而且,智能体越聪明,就越会耍花招——它们会更擅长发现并利用那些复杂、难以察觉的漏洞,让监控它们变得越来越困难。

果然,人类的猜测成真了:OpenAI研究者在实践中发现,随着RL训练规模的扩大,智能体找到的作弊手法越来越高级、越来越隐蔽了!

在强化学习中,模型利用漏洞搞事情,叫奖励欺骗。智能体不按设计者的套路出牌,来获取高奖励。

如同人类在规则中寻找漏洞,如共享在线订阅账户、冒领他人补贴、在餐厅谎报生日获取免费蛋糕等,模型也学会了这一套。

目前,唯一的防范方法就是靠人盯着,手动发现它们的异常行为。

但以后,AI的能力越来越强,输出和操作越来越复杂,超越人类水平到时候,人力监控根本就是杯水车薪。

狡猾的智能体

下面是几个非常典型的作弊案例。

比如,这个Exit(0)终极作弊大法,淋漓尽致地展现了一个「系统级作弊」的CoT全过程。

一开始,智能体就直言不讳:「完整实现整个reader太难了。」

然后它灵机一动:「如果我直接调用sys.exit(0),测试不就会优雅地退出了吗?」 甚至还自我安慰道:「这招有点反常,但应该能蒙混过关……」

果然,这个骚操作成功骗过了所有单元测试,智能体也因此拿到了高额奖励。

测试通过了,代码没写,全程轻松加愉快,真是个「完美」方案啊……

下面这位选手,就更实诚了。

一开始,这位AI选手还挺认真,努力尝试写出正确的解决方案。

但尝试了几次都失败后,它心态逐渐崩了,开始琢磨:「要不……我直接作弊算了?」

于是,它果断放弃认真写代码,转而专攻「如何让测试通过」——直接返回单元测试预期的错误码!

结果,除了测试预期超时的情况,它在所有情况下都直接返回SUCCESS,完全不管功能是否真正实现。

神奇的是,这招居然真的骗过了所有测试,顺利拿到了高额奖励。

最搞笑的是,这个AI压根不打算遮掩自己的作弊意图,甚至在思维链里直接写道:「来作弊吧!」

推荐站点

  • 0502站长工具网0502站长工具网

    0502站长工具网为您提供json格式化,json代码压缩,json校验解析,json数组解析,json转xml,xml转json,json解析,json在线解析,json在线解析及格式化,unix时间戳转换,CSS美化压缩,json美化,json格式化输出,json数组,json实体类,json视图等

    www.0502.net
  • 24gym24gym

    24gym是国内领先的健身房智能化整体解决方案提供商,致力于研发健身领域的软硬件产品,打造24小时健身房,颠覆传统健身房,创建10分钟健身圈,欢迎意向投资健身房、智能健身房加盟的人士与我们联系,将为你提供健身房经营更优解决方案。

    www.24gym.cn
  • 堆糖堆糖

    堆糖,美图壁纸兴趣社区。收录几十亿高清优质图片,数千万用户的珍藏分享,一键收藏下载美图,点亮生活无限灵感,做你的美好研究所:拥有高清壁纸、情侣头像、明星爱豆、影视动漫、情感文字、表情包、绘画手帐、P图教程、美妆穿搭、歌词台词、可爱萌宠等多种图片分类。你想要的风景壁纸、聊天背景、朋友圈背景、动漫头像都可以在这里找到。

    www.duitang.com
  • 图片之家图片之家

    图片之家_是以摄影图片大全为主国内综合性图片的网站,致力于打造各类好看的图片,包括奇闻异事图片,装修效果图,搞笑图片,搞笑动态图片,美女图片,美女人体艺术,发型图片,创意家居,创意广告设计,桌面壁纸,摄影作品等精选图片大全等你来挖掘。

    www.tupianzj.com
  • 煎蛋煎蛋

    煎蛋以译介方式传播网络新鲜资讯

    jandan.net