南京广播电视台2025-12-21 18:12:1912月21日,江苏省纪委监委网站援引扬州市纪委监委消息:高邮经济开发区管委会原主任陆炜涉嫌严重违纪...
2025-12-21 0
当超级App筑起高墙封锁AI助手时,一场关于互联网控制权的隐秘战争正在上演。从字节跳动的豆包手机助手到智谱AI的开源军火,再到阶跃星辰的Step-GUI端侧突围,这场战争正在重塑数字世界的交通规则。本文深度解析API与GUI Agent的终极博弈,揭示从效率革命到商业防御背后的深层逻辑。
常有人质疑:“都2025年了,让AI去模拟人类点击屏幕(GUI)是不是太笨了?直接调API或者用协议不是更高效吗?”
这让我想起一个绝妙的类比:地铁确实比汽车高效,运载量大、不堵车,但为什么人类还需要汽车?因为地铁只能去那些铺了铁轨的地方。
API就是数字世界的“地铁”,它依赖于App开发者预先铺设好的铁轨,稳定但有限。但在现实的荒原里,还有海量的老旧软件、封闭的网页、临时的弹窗。
GUI Agent就是那辆“越野车”。 它不需要等待铁轨,只要人眼能看到的界面,它就能开过去。
前天,阶跃星辰(StepFun)开源了Step-GUI,甚至直接把这辆车开到了手机芯片里(端侧部署)。作为一个在行业摸爬滚打十年的产品人,我看到的不仅是一个4B模型的开源,而是一场关于“互联网控制权”的隐秘战争,以及一条“理想与现实妥协”后的落地之路。
故事要从字节跳动的“豆包手机助手”说起。当它展示出“一句话自动发微信、订机票”的能力时,用户沸腾了,但行业内却感到了一阵刺骨的寒意。
你可能注意到了一个细节:在豆包助手展示了惊艳能力后,短短几天内,互联网巨头们仿佛开了一场“闭门会议”。大家心照不宣,不约而同地开始进行封锁。
紧接着,OPPO等手机厂商开始弹出“安全风险提示”,限制辅助服务权限,理由是“由于模型机/概念机的不确定性”。
表面看这是为了用户安全,把锅甩给了“试验机”,实则是商业模式的“降维打击”。。但作为一个在行业里摸爬滚打十年的产品人,一眼就能看出背后的博弈:超级App(微信、淘宝、支付宝、银行)慌了。
豆包手机助手的出现,让它们感受到的不只是技术的挑战,更是商业模式的灭顶之灾。
在过去的移动互联网十年,核心逻辑是“注意力经济”。微信、淘宝、抖音,它们的KPI是DAU(日活)和使用时长。它们设计了复杂的“围墙花园”和商业迷宫,目的是Kill Time(杀时间),因为时间就是流量,流量就是广告费。
然而,AI Agent的逻辑是反人性的——它是“效率经济”,目的是Save Time(省时间)。
这就导致了一个让巨头“无法容忍”的后果:当AI绕过了App的UI界面,它实际上也绕过了所有精心设计的“商业税收节点”。
一旦AI成为“上级入口”,超级App就会瞬间沦为纯粹的“哑管道”(DumbPipe)。这场封锁与反封锁的战争,本质上是流量主权的生死保卫战。
在超级App筑起高墙、试图把豆包这种“挑战者”挡在门外时,战局出现了一个最大的变量:智谱AI(ChatGLM)的开源。
在智谱开源之前,AI战场是属于巨头们的“贵族决斗”:具备“视觉理解+复杂规划”能力的多模态模型,是只有OpenAI、字节、百度这种大厂才玩得起的“重型武器”。动辄上亿的训练成本,极高的技术门槛,让这场战争与普通人无关——巨头们在天上打架,普通开发者只能在地上看戏,连入场的资格都没有。
但智谱做了一件改变生态位的事:它把“重型武器”平民化了。
通过开源GLM-4V等高性能模型,智谱实际上是在搞一场“AI界的军火大派送”。它对所有的独立开发者、中小企业说:“你们不需要造发动机,我把图纸和零件都给你们,你们拿着去造自己的车” 。这在巨头看来,简直就是“看热闹不嫌事大”的煽风点火,更是一种赤裸裸的“递刀子”行为。
智谱的开源,彻底打破了只有大厂才能做OS级Agent的垄断。它告诉市场:GUI操作能力不再是黑科技,而是基础设施。这直接导致了封锁策略的失效——超级App可以封锁一个豆包,但它们无法封锁千千万万个由开源模型武装起来的“游击队”。
正是在智谱把“刀”递出去,把水搅浑之后,阶跃星辰(StepFun)顺势推出了Step-GUI。
如果说智谱给的是一把“通用瑞士军刀”,那阶跃开源的Step-GUI就是一把“精密的开锁器”。根据最新披露的信息,这不仅仅是一个模型,而是一套针对封锁的战术体系,把“破墙”的能力武装到了手机芯片级。:
更致命的是,豆包作为“先驱”已经打开了潘多拉魔盒。用户一旦体验过“一句话订咖啡”、“动动嘴就能订票转账”的爽快,就再也无法忍受在十几个App之间来回跳转的繁琐。这就像是你也无法让一个用惯了iPhone的人,重新退回到全键盘的黑莓时代。“递刀子”的技术加上“回不去”的体验,让这场围剿战从一开始就注定了结局。
但作为一个老产品人,我们必须诚实地面对现状:光有“越野车”是不够的,因为路实在是太难走了。目前的行业现实是:纯粹依靠大模型进行GUI(视觉)操作,在通用场景下的准确率往往只能达到50%-60%。这意味着,你让AI去“随便点一个App”,它有一半的概率会点错、卡死或者找不到按钮。这种稳定性,在C端只能当玩具,根本没法商用。
所以,现在的破局点不在“全能”,而在“垂直”;不在“纯GUI”,而在“API+GUI协同”。这就是为什么阶跃要强调那200+个App的适配,也是为什么“出海数据分析”这类垂直赛道会成为第一波落地的金矿。正是遵循了一个可行的“落地公式”:
1)锁定垂直战场:比如针对跨境电商(出海)场景,我们只需要搞定Shopify、亚马逊后台、TikTok Ads等约100款常用软件。
2)建立垂直Benchmark:在通用领域拿60分没关系,我们针对这100款软件建立专门的数据集,进行专项微调(SFT)。
3)API+GUI 混合双打:
4)人机协同(Human-in-the-loop):在AI拿不准的时候(置信度低),弹窗请求人工确认,通过一次次的人工反馈(RLHF),把针对这100款软件的操作准确率从60%硬生生拉到99%。
这才是Step-GUI开源的真正价值。它不是要立刻取代人类,而是给开发者提供了一个“补丁”。在API无法触达的地方,用GUI去填补;在GUI不准的地方,用垂直训练去拉升。
讲到这里,我们需要跳出工具层面,重新审视一下:我们费这么大劲搞GUI Agent,到底是为了什么?
这里涉及到一个核心的价值判断:大模型(LLM)与智能体(Agent)究竟是什么关系?
这就是为什么“最后一公里”的问题如此致命。 过去,我们的模型很强,但手很笨(无法精准操作界面),导致“脑强手弱”,应用只能停留在聊天框里。而Step-GUI这类开源项目的出现,本质上是在补全这“最后一公里”的短板。
一旦这“最后一公里”被打通,我们将迎来能力的质变: AI不再只是一个Copilot(副驾驶),而是真正的Agent(代理人)。它将利用具身智能(Embodied AI)的逻辑,在数字世界里像人一样去感知、规划、行动。
对于行业而言,这不仅仅是省了几个点击的问题,而是效率的指数级爆发。当一个Agent能以毫秒级速度、24小时不间断地在数百个SaaS系统间自动流转数据时,我们谈论的不再是提升10%的效率,而是10倍(10x)以上的生产力质变。
回到最初的比喻:未来的数字世界,不会只有一种交通工具。
阶跃星辰开源Step-GUI,不是为了取代API,而是为了补全这张交通网。
接下来的故事,不会是AI一夜之间接管手机,而是成千上万个开发者,在各自的垂直领域(无论是跨境电商、财务报销,还是工业控制),利用开源的“越野车”和既有的“地铁”,一点点搭建起准确率99%的专用Agent。
这把刀已经递到了每个人手里,但能雕刻出什么作品,现在才刚刚开始。
本文由 @徐浩楠 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
相关文章
南京广播电视台2025-12-21 18:12:1912月21日,江苏省纪委监委网站援引扬州市纪委监委消息:高邮经济开发区管委会原主任陆炜涉嫌严重违纪...
2025-12-21 0
12月20日晚,知名体育博主李平康发文称,前国脚戴琳已将拖欠的剩余钱款归还给了已故山东球迷潘某的家属。21日,李平康告诉潇湘晨报记者,按照约定戴琳应该...
2025-12-21 0
高市早苗的“台湾有事”论,最终还是被日本搬上了联合国。自高市早苗表示台湾地位未定,就像是是在水面上扔了一颗雷,不仅让中日关系走向对撞,也炸醒了国际社会...
2025-12-21 0
主场的哨声吹响前,辽宁队一度被逼到悬崖边。面对整体实力在自己之下的宁波队,辽宁前三节最多建立了15分的优势,看起来是一场节奏可控的比赛。但进入最后一节...
2025-12-21 0
1说真的,12月虽然有点冷,但正是出片的黄金期!雪景、暖阳、古建筑...每一帧都能当壁纸用。高铁这么方便,随便挑个周末就能出发。拿起相机,出发吧!2哈...
2025-12-21 0
近日,中国驻刚果民主共和国大使馆发布《刚果(金)安全形势通报(2025年12月18日)》,提醒中国公民尽快撤离。一、近期重要案件(一)12月13日,M...
2025-12-21 0
本文仅在今日头条发布,谢绝转载据参考消息等媒体报道,12月18日,美国防长赫格塞思明确表示,美军现在正面临征兵危机,因为,美国年轻人要么太胖,要么教育...
2025-12-21 0
当超级App筑起高墙封锁AI助手时,一场关于互联网控制权的隐秘战争正在上演。从字节跳动的豆包手机助手到智谱AI的开源军火,再到阶跃星辰的Step-GU...
2025-12-21 1
发表评论