AI做大模型长任务翻车真相：不是不会想，是干着干着就跑偏了

排行榜 2025年10月15日 16:41 1 admin

前言

Gemini在代码编辑器里反复调试编译错误，最后突然陷入自责循环，把“Iamadisgrace”连续刷了86次。

谁没遇到过类似情况？让AI写篇长报告，前面逻辑清晰，到后半段却前言不搭后语；让它规划旅行攻略，订机票环节还好好的，算酒店总价时就开始乱码。

这不禁让人怀疑：大模型是不是只会装样子，根本没有真推理能力？

大模型长任务为什么总翻车？

剑桥大学、斯图加特大学等机构联手做的一项研究，最近揭开了这个谜底。

主导研究的剑桥大学研究生AkshitSinha团队发现，大模型翻车压根不是“思考幻觉”的锅，问题出在“执行力”上，就像有人做复杂手工，步骤都懂，却越做越错。

为了把问题搞透彻，研究团队设计了个“剥洋葱”式的实验。

他们把大模型的“规划力”“知识储备”和“执行力”拆分开，专门测试最纯粹的执行能力。

实验很简单：给模型一个字典，里面每个单词对应一个数字，再给个初始总和，然后每轮指定几个单词，让模型查数字、算累加。

这任务简单到小学生都能做对，而且计划（查哪些词）和知识（字典）全给齐了，只需要模型稳定执行“检索+加法”的动作。

可结果出人意料：除了两个最小的模型，其他模型第一步准确率全是100%，但执行到第15轮时，连最厉害的Qwen3-32B准确率都跌到了50%以下。

更诡异的是“自条件化效应”，模型一旦犯了个小错，这个错误就会像污点一样污染后续操作，让它更容易接着犯错。

研究人员故意在模型的历史记录里“掺假”注入错误，发现注入的错误率越高，模型后面的表现越差，简直像在“自我PUA”。

这就解释了为什么AI写长文会崩：开头写错一个数据，后面就顺着错的数据一路跑偏，最后彻底乱套。

更无奈的是，就算把模型参数量堆到2000亿以上，比如Kimi-K2、Qwen3-235B这些大模型，也躲不过这个问题。

它们处理长上下文更拿手，但一旦历史里有错误，翻车更彻底。

AI 执行跑偏还有救

不过别着急失望，研究里藏着转机。

单步准确率的微小提升，能让模型可完成的任务长度呈指数级增长，就像理财里的复利效应。

软件工程领域的数据显示，前沿模型能稳定执行任务的长度，每7个月就翻一番。

这意味着看似进步缓慢的模型升级，其实在长任务能力上藏着大突破。

更关键的发现是，“思考型模型”能治好这个“执行跑偏”的毛病。

这类模型在输出结果前会先内部“打草稿”，比如DeepSeek-V3不加思维链连2步都难，它的思考版R1却能跑到200步；GPT-5Thinking单轮甚至能稳稳执行1000多步，Claude-4-Sonnet也能做到432步。

研究人员分析，这是因为思考型模型有两个优势：一是强化学习让它们更盯着“任务成功”而非“续写文字”，二是每轮思考都能“清空历史干扰”，不会被之前的错误带偏。

这就像做手工时，每一步都先检查再动手，而不是闷头往前赶。

这个发现彻底颠覆了对大模型的认知。

以前总觉得模型越聪明（知识多、推理强）越好，现在才明白，“靠谱”（执行稳）同样重要。

尤其现在业界都在做能处理完整项目的智能体，比如自动开发软件、全程安排医疗流程，这些任务动辄几百上千步，执行力才是核心竞争力。

那些看似“边际收益递减”的模型升级，其实藏着大价值。

单步准确率从70%提到80%，表面看进步不大，但能让模型稳定执行的任务长度从几十步跳到几百步。

这也解释了为什么科技公司还在不停给模型加参数，不是盲目堆规模，是在攒“长任务耐力”。

结语

大模型的“EMO时刻”或许很快会成为过去。

随着思考型模型的普及，未来的AI可能不仅能想明白复杂问题，还能踏踏实实地把每一步做好，真正从“能说会道”变成“能干实事”。

毕竟对用户来说，能把长任务从头到尾做完的AI，才是真有用的AI。

比稀土更致命的王牌，终于出手了！万斯：中国要冷静

这是宋美龄年轻时的真实样貌，不是演员饰演，是货真价实的老照片

发表评论

AI做大模型长任务翻车真相：不是不会想，是干着干着就跑偏了

前言

大模型长任务为什么总翻车？

AI 执行跑偏还有救

结语

比稀土更致命的王牌，终于出手了！万斯：中国要冷静

这是宋美龄年轻时的真实样貌，不是演员饰演，是货真价实的老照片

热门文章

最新文章