首页 排行榜文章正文

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

排行榜 2025年09月24日 15:11 1 admin

人们在看科幻电影时,常常能看到机器人突破代码的限制,产生了自己的思想。

很多人看到电影中这种机器人凌驾于人类之上的场景,会陷入对未来科技发展的焦虑当中。

其实在开发者眼中,现阶段的人工智能大多数还停留在“模仿”阶段,想要让机器人能够“自学”并不是一件容易的事。

那么问题来了,现在的机器人已经实现自主成长了么?

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

以前的机器人训练方式一直是“模仿”,始终局限于行为克隆。这种传统的模式不仅成本很高,也不利于推动机器人的更新。

这种传统机器人学习方式,听起来挺智能,但本质上还是是“看图说话”。

谷歌 DeepMind 看到这这个问题,研究团队觉得旧的机器人的训练方式不够好,应该在这方面进行升级。

结果DeepMind 今年真的“整了”个大的,谷歌研究团队不再满足于机器人只会进行“模仿”,而是要真正开始“自学”。

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

谷歌搞出一个叫“两阶段后训练”的方法,说白了就是先带着机器人“学习”,然后再放手让它自己训练,这样机器人也能像人一样“越练越聪明”。

这种新的训练模式的第一阶段叫“监督微调”,其实就是给机器人上“补习班”。

在这个阶段,机器人先通过人类给的数据学怎么干活,包括怎么模仿操作,怎么预测完成任务要几步。这一步主要是打基础,让机器人知道“怎么做”和“做到哪算好”。

第二阶段才是研究真正的亮点,那就是机器人的自我提升。

机器人在这个阶段就要开始自己练习,系统会根据一种“数据驱动”的奖励机制,告诉它做得好不好。

为了让机器人在实战中成长,DeepMind 甚至让它们在真实的世界里进练习,全程几乎不需要人工干预。

俗话说“光说不练是假把式”,DeepMind 这回不是简单的提出一个概念,而是真下场搞实验。

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

研究人员用两个机器人平台,一个是 LanguageTable,另一个叫 Aloha,进行了六轮测试。光是 LanguageTable 的数据,就用了 181,020 条人类轨迹和 78,623 条指令。

研究团队还挑了不同的数据规模(10%、20%、80%)来测样本效率。结果发现,仅仅多花 10% 的自我提升时间,成功率就从 45% 提到了 75%。

在双臂机器人 Aloha 上,研究人员则搞了一个插销插套筒的任务,操作空间高达 70 维,用的数据并不是很多,最小的只有 5000 条。

结果这种复杂任务下,机器人依旧能通过自我提升学得不错。从这个研究结果中能够看出来,机器人不是数据越多就会越聪明,而是练的方向对才能进步快。

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

研究人员还还进行了个“BananaTable”的新任务来测试机器人能不能学会“没见过的技能”。

比如推香蕉这事听起来简单,但因为香蕉细长又容易滑落,很容易就推歪了。结果机器人竟然真能适应,这也说明机器人是真的在“学新技能”。

DeepMind 整套方法看起来非常的科学和先进,但在过程中也不是没有产生问题。

从模仿到自学!DeepMind 解锁两阶段训练,机器人实现自主成长了?

在研究过程中,比如数据标注还是太贵,奖励推断没有实时性要求,模型没用过机器人数据等等,这些问题都需要后续进行改进。

尽管还有一些问题存在,到哪DeepMind 的这些新的研究成果,不仅仅是提升了机器人的性能,更重要的是改变了它的训练方式。

从“靠人喂”到“自己练”,机器人终于不再只是个简单的工具人,而是能够自己通过“学习”成长。

等哪天人工智能真能像人一样从失败中总结经验,那才真的是科幻电影情节照进现实了。

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.