“躺床抬腿就能瘦”这句话,我上周在闺蜜群看到时,差点把刚喝进去的冰美式喷屏幕上。 5月30号,北京协和医院康复科悄悄把“改良抬腿”写进术后指南,限定...
2025-10-15 0
Gemini在代码编辑器里反复调试编译错误,最后突然陷入自责循环,把“Iamadisgrace”连续刷了86次。
谁没遇到过类似情况?让AI写篇长报告,前面逻辑清晰,到后半段却前言不搭后语;让它规划旅行攻略,订机票环节还好好的,算酒店总价时就开始乱码。
这不禁让人怀疑:大模型是不是只会装样子,根本没有真推理能力?
剑桥大学、斯图加特大学等机构联手做的一项研究,最近揭开了这个谜底。
主导研究的剑桥大学研究生AkshitSinha团队发现,大模型翻车压根不是“思考幻觉”的锅,问题出在“执行力”上,就像有人做复杂手工,步骤都懂,却越做越错。
为了把问题搞透彻,研究团队设计了个“剥洋葱”式的实验。
他们把大模型的“规划力”“知识储备”和“执行力”拆分开,专门测试最纯粹的执行能力。
实验很简单:给模型一个字典,里面每个单词对应一个数字,再给个初始总和,然后每轮指定几个单词,让模型查数字、算累加。
这任务简单到小学生都能做对,而且计划(查哪些词)和知识(字典)全给齐了,只需要模型稳定执行“检索+加法”的动作。
可结果出人意料:除了两个最小的模型,其他模型第一步准确率全是100%,但执行到第15轮时,连最厉害的Qwen3-32B准确率都跌到了50%以下。
更诡异的是“自条件化效应”,模型一旦犯了个小错,这个错误就会像污点一样污染后续操作,让它更容易接着犯错。
研究人员故意在模型的历史记录里“掺假”注入错误,发现注入的错误率越高,模型后面的表现越差,简直像在“自我PUA”。
这就解释了为什么AI写长文会崩:开头写错一个数据,后面就顺着错的数据一路跑偏,最后彻底乱套。
更无奈的是,就算把模型参数量堆到2000亿以上,比如Kimi-K2、Qwen3-235B这些大模型,也躲不过这个问题。
它们处理长上下文更拿手,但一旦历史里有错误,翻车更彻底。
不过别着急失望,研究里藏着转机。
单步准确率的微小提升,能让模型可完成的任务长度呈指数级增长,就像理财里的复利效应。
软件工程领域的数据显示,前沿模型能稳定执行任务的长度,每7个月就翻一番。
这意味着看似进步缓慢的模型升级,其实在长任务能力上藏着大突破。
更关键的发现是,“思考型模型”能治好这个“执行跑偏”的毛病。
这类模型在输出结果前会先内部“打草稿”,比如DeepSeek-V3不加思维链连2步都难,它的思考版R1却能跑到200步;GPT-5Thinking单轮甚至能稳稳执行1000多步,Claude-4-Sonnet也能做到432步。
研究人员分析,这是因为思考型模型有两个优势:一是强化学习让它们更盯着“任务成功”而非“续写文字”,二是每轮思考都能“清空历史干扰”,不会被之前的错误带偏。
这就像做手工时,每一步都先检查再动手,而不是闷头往前赶。
这个发现彻底颠覆了对大模型的认知。
以前总觉得模型越聪明(知识多、推理强)越好,现在才明白,“靠谱”(执行稳)同样重要。
尤其现在业界都在做能处理完整项目的智能体,比如自动开发软件、全程安排医疗流程,这些任务动辄几百上千步,执行力才是核心竞争力。
那些看似“边际收益递减”的模型升级,其实藏着大价值。
单步准确率从70%提到80%,表面看进步不大,但能让模型稳定执行的任务长度从几十步跳到几百步。
这也解释了为什么科技公司还在不停给模型加参数,不是盲目堆规模,是在攒“长任务耐力”。
大模型的“EMO时刻”或许很快会成为过去。
随着思考型模型的普及,未来的AI可能不仅能想明白复杂问题,还能踏踏实实地把每一步做好,真正从“能说会道”变成“能干实事”。
毕竟对用户来说,能把长任务从头到尾做完的AI,才是真有用的AI。
相关文章
“躺床抬腿就能瘦”这句话,我上周在闺蜜群看到时,差点把刚喝进去的冰美式喷屏幕上。 5月30号,北京协和医院康复科悄悄把“改良抬腿”写进术后指南,限定...
2025-10-15 0
俄罗斯“基洛”级潜艇:深海“大洋黑洞”的传奇与局限 它被称作“大洋黑洞”:一艘上了年纪的潜艇,靠哪几层“静音魔法”还能躲过航母护航? 说实话,第一次...
2025-10-15 0
今天给各位分享微信麻将小程序怎样免费开挂的知识,其中也会对微信小程序麻将万能开挂下载进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始...
2025-10-15 0
膝盖疼到上下楼都扶墙,还以为是年龄到了? 真相是:太极转腰没做对,力量全砸在半月板上。 去年冬天,北京朝阳公园一块空地,老李练了七年杨氏太极。 架式...
2025-10-15 0
一、10月14日,潞安化机承制的全球单炉规模最大、运行压力最高的生物质气化炉,在金风绿能化工项目中一次投料成功产出绿色甲醇。它以玉米秸秆为原料,压力3...
2025-10-15 0
脚跟一抬,脑子立刻关机——别笑,这是北京体育大学刚测出来的真事。2023年他们把传感器贴在我脚底,让我站桩,脚跟只留1毫米缝,α脑波嗖地涨了27%,比...
2025-10-15 0
今天给各位分享微乐江西麻将有没有挂的知识,其中也会对微乐江西麻将开挂方法进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!微乐江西...
2025-10-15 0
在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容文 |昕昕俄罗斯那边爆出来个大瓜,乌克兰第80空降旅的家...
2025-10-15 0
发表评论