首页 景点排名文章正文

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

景点排名 2025年11月26日 22:42 1 cc
小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

文/世界钱景说

编辑/世界钱景说

小米最近搞了个大动作发布了个叫MiMo-Embodied的AI模型。

听着名字挺唬人,说白了就是想让机器人和自动驾驶汽车“聪明”得更像真人,不光能看懂东西,还能明白场景里的门道,甚至互相“借鉴经验”。

现在人工智能领域有俩热门方向一直挺头疼。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

一个是具身智能,就是让机器人这种实体能理解环境、规划动作,比如让机械臂知道杯子能拿来喝水、椅子能坐;另一个是自动驾驶,得让汽车看懂路况、预判行人动作。

但以前这俩领域跟俩平行班似的,各教各的课,学的东西不互通,模型再厉害也只能“偏科”。

小米这次发布的MiMo-Embodied,硬说要当这个“转班生”,把俩班的知识揉到一块儿。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

到底行不行,还得看真本事。

跨域能力,让机器人和自动驾驶“互通有无”

先看机器人这边的表现。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

行业里有几个公认的“期末考”,比如RoboRefIt考怎么调整物体位置,Part-Afford考能不能认出物体能干嘛。

MiMo-Embodied在这些测试里成绩都排前头,尤其在“空间理解”这块儿,比如让机器人判断房间布局、东西放哪儿合适,在CV-Bench、RoboSpatial这些测试里分数都挺亮眼。

再看自动驾驶。

开车最关键的是“看懂场面”和“想明白下一步”。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

MiMo-Embodied在CODA-LM、DRAMA这些场景测试里,识别红绿灯、行人横穿马路的准确率挺高;预测前车会不会变道、路口会不会有电动车窜出来,在MME-RealWorld、DriveLM这些任务里表现也稳。

最绝的是规划路线,LingoQA、MAPLM这些测试考的是根据复杂路况选最优路线,它也拿了领先。

单个领域考得好不算稀奇,难得的是跨域。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

小米说这模型在17个具身智能任务和12个自动驾驶任务里都排第一,相当于一个学生同时在理科班和文科班都考了前三。

这种“互通有无”的能力,以前还真少见机器人学的空间理解经验,能帮汽车更好判断路边障碍物;自动驾驶练的动态预判,能让机器人在人多的地方更灵活。

四步训练法,给AI搭起“全能学霸”养成记

光说成绩好没用,得看看小米怎么“教”出这个模型的。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

他们搞了个四阶段训练框架,听着像给AI定制了套“成长计划”。

第一阶段先练具身智能的基本功。

用了一大堆数据,教模型认东西、理解空间关系、规划简单动作。

比如给它看十万张桌子椅子的照片,告诉它“桌子能放东西”“椅子能坐”;再让它学怎么从A点搬东西到B点,避开障碍物。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

这阶段下来,模型基本能“看懂”环境里的物件能干啥,怎么简单操作。

第二阶段转攻自动驾驶。

数据换成了行车记录仪视频、激光雷达扫描的路况,教它认红绿灯、行人和车辆,预测这些东西下一步会动到哪儿。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

比如看前车刹车灯亮了,得知道可能要减速;看到路口有小孩跑,得预判会不会冲出来。

这阶段练完,模型对“马路上的规矩”心里有数了。

第三阶段开始练“动脑筋”。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

以前AI做题可能靠死记硬背,这次小米教它“一步步想”。

比如遇到复杂场景,先分析“现在有什么东西”,再想“这些东西会怎么动”,最后决定“我该怎么办”。

这种“链式思维”训练,不光让模型推理更准,还能让人看懂它“为什么这么想”,透明度高了不少。

最后阶段是“模拟考试+查漏补缺”。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

用强化学习微调,简单说就是模型做完题,对了给奖励,错了指出来哪儿不对。

比如机器人没拿稳杯子,就告诉它“握力不够”;汽车拐弯太急,就提醒“速度没控制好”。

这么一来,细节判断就更准了。

本来以为AI训练就是堆数据、拼算力,后来发现小米这四步走,有点像咱们上学时先打基础、再练专项、然后做综合题、最后模拟考调整,挺讲究循序渐进的。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

现在AI模型不少,但大多是“专才”,能同时把具身智能和自动驾驶玩明白的“通才”真不多。

MiMo-Embodied最让人眼前一亮的,是它打破了这俩领域的技术壁垒机器人的空间理解能力能帮汽车,汽车的动态预判经验能帮机器人,这种“知识共享”可比单个模型厉害多了。

行业里一直缺个通用的训练模板,小米这套四阶段框架算是提供了个思路:先分领域打基础,再跨领域融合,然后练推理,最后精修细节。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

别的公司要是照着这个路子走,说不定也能少走点弯路。

更关键的是小米说要开源。

这招挺聪明,把技术公开让大家一起用,等于带着整个行业往前跑。

以后智能家居的机器人能更好理解家里环境,智慧城市的交通系统能更懂路况,甚至工厂里的机械臂和厂区里的自动驾驶小车都能“交流经验”,想想还挺有意思。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

当然了,模型现在表现好,不代表实际用起来就一帆风顺。

真实环境比实验室复杂多了,机器人遇到没见过的东西怎么办?自动驾驶碰上极端天气还稳不稳?这些都得慢慢试。

但至少方向是对的让AI别再“偏科”,学着像人一样综合各种经验解决问题,这可能就是未来智能的样子。

小米这次玩真大了!跨域AI模型,具身智能和自动驾驶不再各学各的

小米这次发布的MiMo-Embodied,不光是秀了波技术肌肉,更像是给人工智能领域指了个新方向:跨域融合。

说不定过两年,我们家里的机器人和开的汽车,真能像俩默契搭档,一起把日子过得更省心。

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.