9月28日,中共中央政治局常委、全国人大常委会委员长赵乐际在北京调研。这是赵乐际在市人大常委会机关调研地方立法工作等情况。9月28日,中共中央政治局常...
2025-09-29 0
在机器人领域,让机械臂像人类手臂一样灵活应对复杂环境,一直是科研人员追逐的目标。
而视觉-语言-动作(VLA)模型,正是实现这一目标的核心关键。
可如今VLA模型训练却被两大难题卡住脖子。
就在行业陷入瓶颈时,清华与上海AI Lab的研究团队抛出了SimpleVLA-RL方案。
直接在缺数据的情况下拿下SOTA,给机器人领域带来了一场不小的震动。
一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
为了采集这些数据,不仅要搭建专门的实验场景,找各种各样的交互对象,还得靠专业人员一步步操作。成本高不说,数据规模也上不去,严重限制了VLA模型的推广应用。
更头疼的是,SFT训练出的模型特别“认死理”,只在训练数据的场景里好使,一旦遇到没见过的任务、环境或者物体,性能就断崖式下跌,尤其是处理需要长时间连贯操作的任务时,更是漏洞百出。
有人可能会想,强化学习(RL)在提升大规模推理模型能力上效果显著,能不能把它用到VLA模型训练上呢?
想法虽好,可现实却很骨感。传统机器人RL得靠人工设计过程奖励,比如判断机器人离目标物有多远,这种方式在复杂开放环境里根本玩不转。
而且VLA模型训练得和物理环境或者高保真模拟环境反复交互,效率低不说,成本比优化文本类大模型高多了。
就在大家一筹莫展的时候,清华和上海AI Lab的团队推出了SimpleVLA-RL。
这个方案在veRL框架基础上做了扩展,专门针对VLA模型特点优化,形成了一套端到端在线训练方案。它的核心设计思路,就是解决数据依赖和泛化能力的问题。
首先是交互式轨迹采样,和文本模型只靠文本token采样不同,VLA模型得在和环境的闭环交互中不断更新视觉信息和自身状态。
SimpleVLA-RL让模型直接输出动作token的概率分布,通过随机采样生成各种不同的操作轨迹。
机器人每做一个动作,环境就会反馈新状态,模型再根据新状态继续生成下一个动作,直到任务完成。这样一来,不用依赖大量预先采集的演示数据,模型也能在交互中积累训练素材。
而且团队摒弃了复杂的过程奖励,改用简单的二元结果奖励。任务成功就记1,失败就记0,然后把这个奖励平均分配到整个轨迹的每个动作token上。
这一招太妙了,既避免了过程奖励在不同任务间无法通用的问题,又不用花大量时间针对不同任务调整参数,让训练目标更聚焦。
为了防止模型“钻牛角尖”,只学会一种操作方式,团队还加入了探索增强机制。
一方面,动态筛选轨迹,只留下那些“半成功半失败”的轨迹组,保证后续计算的有效性,避免梯度消失;另一方面,扩大GRPO算法的裁剪区间,从原来的[0.8, 1.2]放宽到[0.8, 1.28],让那些看似概率低但可能有用的动作有更多机会被保留。
同时在轨迹生成阶段提高采样温度,鼓励模型尝试更多样的操作方式。不仅如此,团队还简化了GRPO的训练目标,去掉了KL散度正则项,也不再依赖参考模型,既节省了内存,又让模型能更自由地探索新操作。
SimpleVLA-RL最厉害的地方,就是它真正打破了VLA模型训练对大规模演示数据的依赖,而且还大幅提升了模型的泛化能力。
在LIBERO单臂操控基准测试里,把OpenVLA-OFT模型的平均成功率从91.0%提到了99.1%,长时序任务LIBERO-Long成功率更是从86.5%涨到98.5%,超过了不少之前的SOTA模型。
清华和上海AI Lab推出的SimpleVLA-RL,不仅解决了VLA模型训练的两大核心瓶颈,还在性能、数据效率、泛化能力和真实世界部署上都取得了突破。
它让我们看到,即使在数据有限的情况下,机器人模型也能达到顶尖水平。
随着这项技术的不断完善和推广,未来机器人在家庭服务、工业生产、医疗护理等领域的应用,或许会迎来质的飞跃,真正走进我们的日常生活,帮我们解决更多实际问题。
相关文章
9月28日,中共中央政治局常委、全国人大常委会委员长赵乐际在北京调研。这是赵乐际在市人大常委会机关调研地方立法工作等情况。9月28日,中共中央政治局常...
2025-09-29 0
最近网上都在说王健林被限制高消费了,法院下了文书,连万达集团也上了名单,我查了执行信息,标的额大概四个亿,是北京金融法院判的,其实之前万达的股权就被冻...
2025-09-29 0
今年以来,我国交通运输经济运行情况如何?中秋国庆假期将至,路网运行呈现哪些特点?在9月28日举行的国新办新闻发布会上,交通运输部相关负责人介绍了相关情...
2025-09-29 0
本篇文章给大家谈谈“微乐陕西麻将小程序开挂,以及微乐陕西麻将开挂神器”对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微乐陕西麻将怎么加好友...
2025-09-29 0
前言在机器人领域,让机械臂像人类手臂一样灵活应对复杂环境,一直是科研人员追逐的目标。而视觉-语言-动作(VLA)模型,正是实现这一目标的核心关键。可如...
2025-09-29 1
昨天两家太极辅导站在紫竹院的联谊活动,引来了全国“十大武术名教授”之一门惠丰亲临指导。 虽然周六清晨有小雨光临,已经有了一些初秋的寒意,但是天气变化,...
2025-09-29 1
28岁男子李小龙于9月2日失联,亲友根据其手机追踪到最后地点位于泰山景区内。当地救援力量连续搜救多日未果。27日,李小龙的表姐王女士告诉极目新闻记者,...
2025-09-29 1
“又胖又喘,体检报告红到发紫”——这是上周拿到报告时我脑子里唯一的弹幕。 偏偏就在同一天,刷到一条热搜:北京52岁李先生,空腹晨跑一年,腰围缩9厘米...
2025-09-29 1
发表评论