从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式

十大品牌 2025年09月23日 00:32 1 cc

在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Foundation Models, EFM）从简单模仿提升至自我优化的高度。该技术不仅能使机器人在真实世界中自主学习，还能极大地提升其适应性和性能，标志着机器人技术进入一个全新阶段。

传统方法的局限性

早期的机器人学习主要依赖于单任务模仿学习，机器人重复人类演示的动作。然而，这种方法在面对新环境或改变任务时往往表现不佳，必须重新训练。尽管随着多模态感知与大规模数据集的发展，机器人技术得到了进步，但EFMs在自动化和灵活性方面仍面临挑战。当前，大多数机器人仍基于监督微调（SFT）进行训练，缺乏动态更新和强化学习的后训练机制。

传统机器人学习的一个核心障碍在于奖励函数设计的复杂性，现实任务的目标多变且难以量化，这导致人工设计的奖励函数往往费时且容易出现偏差。此外，在物理环境中评估任务完成度需要大量资源，限制了机器人学习的效率。

自我改进：新的突破

图1：技术团队提出的两阶段微调方法概述。

面对这些挑战，谷歌DeepMind的团队提出了一种新的自我改进机制，借鉴了大型语言模型（LLM）在后训练阶段的成功经验。该机制设立了两个阶段：首先是监督微调；其次是自我改进。

在第一阶段，机器人通过模仿人类的演示进行基础训练，不仅要输出相应的动作，同时还需要预测完成目标所需的步骤（Steps-to-Go）。这一额外的预测为后续优化提供了重要信号。

进入第二阶段，机器人则依靠自我改进进行在线强化学习，而不再依赖人工设计的奖励函数。通过对Steps-to-Go预测的变化，机器人能够自我评估每个动作的效果，使得自我不断优化成为可能。当机器人执行动作后，若预测的剩余步骤减少，便会获得正奖励；若增加，则获得负奖励。这种设计让机器人在无人干预的情况下，根据实时数据不断完善行为。

实验与结果

图2:Aloha单次插入任务的示例轨迹和表示模型预测（即d（o，g））下E[要走的步数]的图。关键时刻：1）模型认为事件即将成功完成，2）政策意外地放弃了挂钩，d（o，g）增加，3）政策从不适合插入的坏角度重新调整挂钩，因此d（o、g）保持高位，4）政策放弃挂钩，提供了正确重新调整挂钩的机会，从而减少了d（o，g），5）政策将挂钩向内推，d（o、g）标志着政策即将成功，6）右手将插座从左手的握把中敲出，这增加了d（0、g）。

为了验证这一机制的有效性，研究团队在多个任务和平台上进行了系统评估，包括单臂推块任务和双臂插销任务。结果显示，该自我改进机制的表现卓越，尤其在样本效率方面，极少的在线强化学习数据便能带来显著性能提升。在LanguageTable任务中，仅额外采集不到2%的在线数据，成功率便从45%提升至75%。

图3：上图展示了模型在第一阶段从逐步预测目标中学习到的复杂细节水平。每个图都捕捉到了Aloha Single Insertion任务推出中的一个有趣时刻。每个都由5个连续的帧组成，在每个帧的下方，我们可视化了模型对成功前步骤的预测概率分布。x轴表示要执行的步骤数，y轴表示概率质量。在第一帧中，策略即将成功插入挂钩并完成任务，因此模型预测策略很可能很快就会成功。

研究团队还注意到，通过自我改进，机器人逐渐展现出更强的状态敏感性，能够在抓取过程中主动调整动作，提升了自身的适应能力。通过在Real2Sim的迁移实验中，机器人通过极少的额外数据，成功率提升至59%，展现出跨域适应能力的巨大潜力。

可扩展性与未来前景

图4：点群导航域。来自模仿学习数据集的样本轨迹，以及BC（第一阶段）和自我改进（第二阶段）策略。

这种自我改进机制不仅对单台机器人有益，更具备可扩展性，允许多台机器人并行操作，各自收集数据，独立更新策略，为未来大规模应用提供了可能路径。研究团队在实验中表明，单个操作者能够高效监控多台机器人，形成一个自我驱动的学习闭环。

图5：第二阶段自我提升结果。

这一创新不仅为机器人研发提供了强有力的支持，也为机器人在复杂任务中提升适应能力开辟了新思路。在未来，这一方法有望被广泛应用于机器人辅助、自动化生产等多个领域，实现更高效的智能化发展。

谷歌DeepMind此次提出的自我改进机制无疑为机器人学习领域带来了新的视野，打破了传统学习方法的局限。通过将EFMs升华，使得机器人不再是单纯的模仿者，而是具备自我反思和持续优化能力的自主体。这一进展不仅为科学界提供了新的研究方向，更为未来全面智能化的真实世界铺平了道路。随着这项技术应用的深入，我们期待其在解决复杂问题、优化人机协作等方面发挥出更大的潜能。