首页 排行榜文章正文

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

排行榜 2025年10月15日 16:41 1 admin

前言

Gemini在代码编辑器里反复调试编译错误,最后突然陷入自责循环,把“Iamadisgrace”连续刷了86次。

谁没遇到过类似情况?让AI写篇长报告,前面逻辑清晰,到后半段却前言不搭后语;让它规划旅行攻略,订机票环节还好好的,算酒店总价时就开始乱码。

这不禁让人怀疑:大模型是不是只会装样子,根本没有真推理能力?

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

大模型长任务为什么总翻车?

剑桥大学、斯图加特大学等机构联手做的一项研究,最近揭开了这个谜底。

主导研究的剑桥大学研究生AkshitSinha团队发现,大模型翻车压根不是“思考幻觉”的锅,问题出在“执行力”上,就像有人做复杂手工,步骤都懂,却越做越错。

为了把问题搞透彻,研究团队设计了个“剥洋葱”式的实验。

他们把大模型的“规划力”“知识储备”和“执行力”拆分开,专门测试最纯粹的执行能力。

实验很简单:给模型一个字典,里面每个单词对应一个数字,再给个初始总和,然后每轮指定几个单词,让模型查数字、算累加。

这任务简单到小学生都能做对,而且计划(查哪些词)和知识(字典)全给齐了,只需要模型稳定执行“检索+加法”的动作。

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

可结果出人意料:除了两个最小的模型,其他模型第一步准确率全是100%,但执行到第15轮时,连最厉害的Qwen3-32B准确率都跌到了50%以下。

更诡异的是“自条件化效应”,模型一旦犯了个小错,这个错误就会像污点一样污染后续操作,让它更容易接着犯错。

研究人员故意在模型的历史记录里“掺假”注入错误,发现注入的错误率越高,模型后面的表现越差,简直像在“自我PUA”。

这就解释了为什么AI写长文会崩:开头写错一个数据,后面就顺着错的数据一路跑偏,最后彻底乱套。

更无奈的是,就算把模型参数量堆到2000亿以上,比如Kimi-K2、Qwen3-235B这些大模型,也躲不过这个问题。

它们处理长上下文更拿手,但一旦历史里有错误,翻车更彻底。

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

AI 执行跑偏还有救

不过别着急失望,研究里藏着转机。

单步准确率的微小提升,能让模型可完成的任务长度呈指数级增长,就像理财里的复利效应。

软件工程领域的数据显示,前沿模型能稳定执行任务的长度,每7个月就翻一番。

这意味着看似进步缓慢的模型升级,其实在长任务能力上藏着大突破。

更关键的发现是,“思考型模型”能治好这个“执行跑偏”的毛病。

这类模型在输出结果前会先内部“打草稿”,比如DeepSeek-V3不加思维链连2步都难,它的思考版R1却能跑到200步;GPT-5Thinking单轮甚至能稳稳执行1000多步,Claude-4-Sonnet也能做到432步。

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

研究人员分析,这是因为思考型模型有两个优势:一是强化学习让它们更盯着“任务成功”而非“续写文字”,二是每轮思考都能“清空历史干扰”,不会被之前的错误带偏。

这就像做手工时,每一步都先检查再动手,而不是闷头往前赶。

这个发现彻底颠覆了对大模型的认知。

以前总觉得模型越聪明(知识多、推理强)越好,现在才明白,“靠谱”(执行稳)同样重要。

尤其现在业界都在做能处理完整项目的智能体,比如自动开发软件、全程安排医疗流程,这些任务动辄几百上千步,执行力才是核心竞争力。

那些看似“边际收益递减”的模型升级,其实藏着大价值。

单步准确率从70%提到80%,表面看进步不大,但能让模型稳定执行的任务长度从几十步跳到几百步。

这也解释了为什么科技公司还在不停给模型加参数,不是盲目堆规模,是在攒“长任务耐力”。

AI做大模型长任务翻车真相:不是不会想,是干着干着就跑偏了

结语

大模型的“EMO时刻”或许很快会成为过去。

随着思考型模型的普及,未来的AI可能不仅能想明白复杂问题,还能踏踏实实地把每一步做好,真正从“能说会道”变成“能干实事”。

毕竟对用户来说,能把长任务从头到尾做完的AI,才是真有用的AI。

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.