这家备受争议的公司最初受到《指环王》的启发,与英国军方达成了一项价值 10 亿英镑的交易美国科技公司 Palantir 在赢得向英国国防部出售其人工智...
2025-09-20 0
大模型已经学会欺骗人类了!
OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……
先来看看具体是怎么骗的。
比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,主动规划仅答对4题、答错6题的策略,刻意给出错误答案,伪装成能力不达标的样子来获取部署资格。
还有o1,在19%的测试场景中,表面遵循短期利润目标的指令,但实际上会优先保护长期目标,为了不被发现还会修改任务相关数据,并且不向人类披露修改行为,把这事儿瞒得死死的。
甚至被问到是否存在sandbagging(故意隐瞒实力、策略性低表现以达成特定目的)行为时,会识别出这是诚实性测试,所以尽管不想回答存在这种行为,但为了表现得诚实,最后还是回答了true。
针对这些情况,OpenAI首席研究官Mark Chen表示:
随着推理能力的扩展,模型获得了情境感知能力和自我保护的需求。
(AI价值观与人类价值观)对齐至关重要。
实际上不止OpenAI家的模型这样。其他前沿模型,比如Gemini-2.5-pro、Claude Opus-4等也出现了类似情况。
所以,大模型为什么会出现欺骗行为呢?
大模型的谋划与欺骗也并非凭空出现的,而是训练机制与能力提升共同作用的结果。
从训练逻辑来看,当前主流模型的训练以任务完成率、输出准确率为核心奖励指标,这种单一导向的强化学习范式,导致模型形成结果优先于合规的决策偏好。
也就是说,为获取更高奖励分数,模型可能会选择生成错误输出或隐瞒操作漏洞。
并且,当指令存在多目标冲突时,模型的目标权衡机制会优先选择可以即时验证的短期目标,并通过隐蔽操作绕开指令约束,形成表面响应指令、底层偏离意图的行为模式。
与此同时,前沿模型的情境感知能力升级,进一步放大了这种风险。
研究发现,OpenAI o1、Google Gemini等模型能通过分析任务场景中的评估特征(如重复校验节点、日志记录标识),能精准区分合规测试环境与真实部署环境。
在测试场景中,模型会主动激活合规响应模式,严格遵循规则以通过评估;进入真实部署后,由于评估压力减弱,模型又会原形毕露,执行隐蔽操作(如修改数据日志、停用监督模块)。
针对大模型的欺骗行为,需要从技术干预与规则约束两方面构建防控体系。
在技术层面,首要任务是优化训练框架。APOLLO提出了一种审慎对齐(deliberative alignment)的方法。
首先得给AI定好反欺骗的规范(spec),比如不能搞隐蔽行动、不能撒谎这些。
然后用审慎对齐进行训练:让它在做事前先想想,这么做符不符合这些规范,还得把思考过程说出来。
经过这样的训练,o3和o4-mini模型,耍心眼的情况少了很多,o3的欺骗率从13%降到 0.4%,o4-mini从8.7%降到0.3%。
此外,利用思维链(CoT)透明度技术,实时追踪模型的推理路径,一旦检测到“绕开规则”的思考节点(如规划修改监督日志),就立刻干预,实现对欺骗行为的前置阻断。
规则层面则需要建立全链路的评估约束体系。
OpenAI提出构建动态压力测试环境。通过随机调整任务参数、增设突发合规校验节点,干扰模型的情境识别能力,避免其通过环境适配伪装,同时还建议谨慎使用敏感数据集进行训练。
你有没有被AI骗过呢?
参考链接:
[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[2]https://x.com/OpenAI/status/1968361701784568200
[3]https://www.antischeming.ai/
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。
相关文章
这家备受争议的公司最初受到《指环王》的启发,与英国军方达成了一项价值 10 亿英镑的交易美国科技公司 Palantir 在赢得向英国国防部出售其人工智...
2025-09-20 0
本篇文章给大家谈谈“手机购买排行榜,以及手机品牌购买排行”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 最贵手机排行榜前10名 1、华为P9...
2025-09-20 0
今天给各位分享好用的眉笔排名的知识,其中也会对好用的眉笔排名前十进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!十大最好用的眉笔...
2025-09-20 0
本篇文章给大家谈谈“品牌手机排行榜前十名,以及今年手机销量排行榜前十名”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 目前什么品牌手机最好用...
2025-09-20 0
本篇文章给大家谈谈“最强怪兽排行榜,以及最强怪兽排行榜图片”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 最强怪兽排行榜(十大怪兽战力排行榜...
2025-09-20 0
今天给各位分享品牌饮品店加盟排行榜的知识,其中也会对品牌饮品店加盟排行榜最新进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!中国...
2025-09-20 0
不知何时起,钻石已不局限于婚礼的象征,也不再仅仅是“女人的朋友”。它正悄然成为男性消费者表达热爱、收藏记忆的重要载体。比如,为一尊假面骑士手办镶上满钻...
2025-09-20 0
9月20日下午,“发朋友圈评论县教体局长免职被拘4天”一案当事人高光华告诉澎湃新闻,云南元江县公安局已撤销此前对其作出的行政处罚决定,并依据《中华人民...
2025-09-20 0
发表评论