AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能...
2025-11-30 1
AI、机器人和未来。
在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能,但对于当今最先进的机器人而言,却是一道难以跨越的鸿沟。
在这个人工智能的“GPT 时刻”,我们见证了 AI 以快速迭代的方式掌握了语言、图像甚至代码。大型语言模型已经能在许多信息处理任务中展现出高效表现。然而,从知到行之间,横亘着一道我们尚未完全理解的鸿沟:一个能在虚拟世界通过美国执业医师资格考试的 AI,却无法在物理世界为我们可靠地端来一杯水。
这不仅是一个工程问题,更接近一个哲学命题:如果一个智能体无法与物理世界交互、感知、行动并承受后果,它是否真正理解了这个世界?在中国古典哲学中,“知行合一”被视为智慧的最高境界。而在今天的人工智能研究中,如何让机器实现从“知”到“行”的跨越,正成为这个领域最前沿、也最艰难的挑战。
王子为的研究经历,正是在这一问题背景下展开的。从清华大学的物理系,到 AI 研究,再到具身智能(Embodied AI)——他的每一次转向,都与技术发展趋势密切相关。
(来源:受访者提供)
两次“转向”:从物理定律到机器人铁律
2016 年,当 AlphaGo 与李世石的围棋对决吸引全球目光时,王子为还是清华大学物理系数理基础科学专业的一名学生。在当时的学术路径规划中,物理系的学生,未来大多走向理论物理、高能物理或是金融工程。但这场人机大战,彻底改变了这个 20 岁年轻人的人生方向。
“当时觉得这个东西非常神奇,有非常大的潜力。”回忆起那个转折点,王子为的语气依然带着当年的激动。这种激动促使他做出了一个大胆的决定——从物理学转向人工智能研究。“我们当年有很大一部分同学都转向了 AI 相关的工作,不管是计算机、电子还是自动化,多多少少都受了 AlphaGo 的影响。”
但真正让他从 AI 转向机器人研究的,是 2020 年另一项发表在Nature的里程碑式工作——“Robot Chemist”。来自英国利物浦大学的 Andrew I. Cooper 教授课题组开发了机器人化学家,其可以在实验室“走来走去”并如同人类化学家一样操作实验仪器,完成各种各样的实验任务。
这项研究让他意识到:相比纯粹的算法研究,AI 与物理世界的结合可能是一个更具空间的方向。
同年,他开始了 AI 与机器人结合的研究,从纯粹的 AI 走向具身 AI。“我记得非常的清楚,”他回忆起2020年第一次调试机器人,“看到我们自己设计的机械臂,能够完成打包工作,把一个物体像人一样打包进盒子里面……那一份成就感,哪怕过去这么多年了,也是记忆犹新。”
加速的时代,CMU 的“快”与“慢”
在 AI 这个以月为迭代周期的领域,快是公认的信条。算法在加速,模型在膨胀,论文在增长。然而,王子为在博士毕业后前往卡内基梅隆大学(CMU)进行博士后研究时,学到的最重要的一课,却是“慢下来”。
“让研究慢下来,其实不容易。”王子为发现,当AI 与机器人结合,研究的范式就彻底变了。在纯AI 领域,一个想法的验证周期可能很短:设计一个新模型,在已有的数据集上跑一下,几个小时或几天后,就能迅速验证想法是否有效。但在机器人领域,这个周期会被无限拉长。
“要把问题想清楚是需要时间的。”王子为举例,在机器人上验证一个新算法,首先要采集数据。这个过程是物理的、实时的、昂贵的。“机器人采数据是需要时间的,是需要成本的。”采集完数据,还要进行漫长的训练和调试。
更重要的是,物理世界远比数据集要狡猾。“比如,我们设计的框架对不同的网络结构、不同的硬件,是不是都有效?增加数据之后,在特定的问题上,它是否会产生像物理学里面那种相变?”就像 GPT 模型在数据量跨越某个阈值后突然涌现出能力一样。在机器人领域,这个涌现点在哪里?没有人知道。
“这都是需要时间的。”他反复强调。
他在 CMU 参与的一个项目,是研究如何通过人类的语言或草图,来生成乐高积木的拼接方案,并指挥机器人完成组装。这听起来像个玩具问题,但其背后的技术复杂度是惊人的。这套系统首先需要理解人类模糊的指令(造一个带两个窗户的红房子),然后生成一个三维的、符合物理拼接逻辑的模型;接着需要规划机器人的每一步操作(抓取、旋转、放置),最后才到让机器人执行高精度的动作的环节,并还要保证全过程的安全。
“这个工作从 2023 年就开始了,一直到今年(2025年)才有一个里程碑式的结果,但最后这篇论文也是拿到了 ICCV 的 Best Paper。”
一个看似简单的搭乐高任务,耗费了团队数年的时间。这种“慢”,在如今的加速社会里似乎是不可想象的。但王子为认为,正是这种“慢”,让他们能够沉淀下来,去发现一些平常容易忽略的,但是真正重要的一些问题。
与此同时,CMU 的合作氛围为研究带来了一种“快”。不同实验室在硬件、感知、移动平台等方面能力互补,使项目推进更为高效。这种“快”与“慢”的结合,也影响了他后来在 NTU 开展研究的方式。
苹果掉在地上:具身智能的“阿喀琉斯之踵”
“我们实验室的长期目标,是为机器人赋予能够理解世界、并且能够自主决策的大脑。”
在 NTU 的实验室里,王子为正试图回答这个领域最核心的难题:为什么今天的机器人,本质上仍然是模仿者,而不是决策者?他用一个极其生动的例子,点出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization)。
“以抓苹果为例。苹果放在桌子上,很多模型表现都能把它抓起来。这是我们通常在演示视频里看到的。但是,如果某一次抓的时候没抓稳,苹果掉在地上了,那么很多的机器人的模型现在就会直接 fail 掉。因为在训练的过程中,它可能压根就没有见过这种类似的数据。”
这就是当前主流的模仿学习(Imitation Learning)范式的弱点。模型只是在复现它在训练数据中见过的轨迹,它并没有真正理解这个任务。“人哪怕看到苹果掉在地上,我理解到苹果、桌子、地板之间的规律,以及这个世界的物理运行规律,包括摩擦力、包括重力……它都是能够解决的。”而机器不能。这就是“分布外”(Out-of-Distribution, OOD)问题。当机器人遇到一个它训练数据分布之外的、全新的情况时,它就束手无策了。
背后的挑战可以概括为三类,这也是整个行业共同面临的“三座大山”:
其一,数据昂贵。机器人数据必须在真实物理环境中采集,每条数据往往要数十秒甚至更久,难以像语言模型那样依靠大规模互联网数据训练;其二,物理精度要求高。几毫米的误差都可能导致任务失败,小偏差的累积会迅速放大;其三,环境物理规律多变。摩擦、质地、光照等因素的微调都会影响动作效果,模型需要实时建模这些隐性变量。
走向“自主”:世界模型、推理链与强化学习
为了应对上述难题,王子为团队正在探索三类方法。
第一条路径,是尝试用世界模型(World Model)打破数据诅咒。既然物理世界的数据采集那么昂贵,我们能不能让机器人在“脑海中”采集数据?这就是世界模型的逻辑。“它根据当前的观察和即将要采取的一个动作,就会提前预判后续会产生什么样的后果。”王子为解释道,“也就是说,我不需要真的去做这个事,我只需要在我脑海里面想一下,我就知道会产生什么样一个后果。”
通过世界模型,机器人可以在“想象”中源源不断地产生训练数据,极大地降低数据成本。当然,前提是这个“想象”要足够逼真。这是王子为团队的重点方向之一,即如何生成真正跟真实的数据差距比较小的高质量数据。
第二条路径,是用推理链解决长程任务。当前的机器人模型(如 VLA,Vision-Language-Action 模型)普遍“短视”。它们能做好抓取苹果这样的一步动作,但无法完成做一份早餐这样的长程任务。“做早餐,它可能需要 20 步,甚至 30 步。打开冰箱、拿出食材、洗、切、煮、端到桌子上。”王子为说,“这是一个需要推理能力的长程任务。”而受大语言模型思维链(Chain-of-Thought)的启发,王子为团队的思路是,把长任务拆解成一步一步的短任务,让机器人每次只去解决一小步。
但核心问题是:怎么“拆”才是最优的?人类认为的 20 步,不一定是模型认为最高效的 20 步。他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是为了解决这个拆解问题。他们尝试用蒙特卡洛搜索树和强化学习的方法,去搜索一个最优的拆解方案。“机器人需要推理物体与物体之间的关系(空间上),也需要推理动作与动作之间的关系(时间上)。”
第三条路径,用强化学习跳出模仿的范式。这是最激进,也可能最具革命性的一步。它试图彻底解决那个“苹果掉在地上”的 OOD 问题。模仿学习的覆盖面总是有限的,“人是没有办法去穷尽所有的分布外的情况的。“那我们能不能,”王子为设想,“不再依赖于人类的数据采集,而是说通过自己主动的去尝试一些东西?”
这就是强化学习的回归。让机器人自己去探索,甚至主动犯错。“比如说,它自己主动觉得,这个苹果如果将来掉到地上之后,我可能不确定怎么去拿,那么他就会自己主动去尝试,把这个苹果弄到地上,然后去把它抓起来,在这个过程中进行学习。”这是一种根本的范式转变:从“向人类学习”(Learning from Human)转向“自主学习”(Self-learning)。
这标志着机器人从一个被动执行的工具,开始向一个主动探索的智能体(Agent)进化。王子为提到,近期已有很多论文显示,通过这种方式,机器人在某些任务上能达到接近 100% 的成功率——这是纯模仿学习无法企及的高度。
从“知”到“行”:热情是最后一公里
迄今,那只机械臂仍在不知疲倦地重复着训练动作,身后的科研工作者们还在夜以继日地调试。它还不够完美,偶尔会失误,会在意想不到的情况下“手足无措”。但正是这些失败,构成了通向理解的必经之路。这也让我们在采访的最后,不禁问出了那个问题:在这样一个瞬息万变、充满不确定性的领域,究竟什么样的人才能走到最后?
“我认为是要有热情和快速学习的能力。“因为一个顶级的研究者,他肯定是这个世界上对于这个细分小领域最了解的人,至少是之一。所以他每往前迈一小步,其实都是要面临无限的不确定性和挑战。这种情况下,研究在很多时候就是一份煎熬。只有真正对这个领域充满热情的人,期待能够看到自己把这个东西做出来、并且觉得有成就感的人,才能够克服这份煎熬。”
在快速演化的具身智能领域,研究者需要面对复杂系统带来的不确定性。算法在一个场景中表现良好,换一个位置或环境后可能完全失效;不同批次的数据可能带来截然不同的训练结果;许多问题缺乏现成答案,需要从头推导和验证。
为了保持学习效率,王子为在实验室推动“论文快讲会”,让团队成员每周快速总结新的研究进展,并相互讨论。他认为,在一个知识迭代迅速的领域,团队式学习能更好地保持对前沿的敏感。
在应用层面,他的团队也在与制造行业合作,包括汽车、飞机维保、物流等场景,希望在真实工业环境中采集到更高质量的数据,为未来的机器人模型打下基础。
具身智能仍是一个不断发展的领域,从“知道”到“做到”之间仍有距离。研究者在其中要面对工程复杂度、物理系统的不确定性,以及长期投入的要求。通往可用的通用机器人系统,仍需要时间、耐心和持续不断的跨学科合作。
相关文章
AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能...
2025-11-30 1
这回河南真有戏。商丘一下子冲到台前,热度直飙。郑州和洛阳都愣住了,谁也没算到。火也不是空喊,东西扎实。古城一圈水,一圈墙,一圈街,走着就能摸到味道。城...
2025-11-30 1
【军武次位面】作者:太白俄乌战争爆发后,德国正在经历着剧烈的军事战略转型,在几年前被马克龙批评为脑死亡的北约也正在有了慢慢复活的迹象。从更宏观的角度看...
2025-11-30 1
年龄只是个数字,真正决定你年轻与否的,是那颗不肯向岁月低头的心。昨天和两位闺蜜小聚,聊起了我嫂子,都说她最近苍老了许多。我嫂子今年65岁了,一向精致讲...
2025-11-30 1
【来源:新闻晨报】最新消息:日本人气动画《美少女战士》音乐剧在华演出取消 该音乐剧的中国巡演原本计划在杭州、北京和上海举办。 昨天,主办方发布 上海站...
2025-11-30 1
文 |议史纪编辑 |议史纪现在的日本,真是越来越有意思了。嘴上喊着和平,日本军方已经跑到东海边上“做准备”了。高市早苗在G20峰会上刚刚讲完两句话,日...
2025-11-30 1
今天给各位分享小程序麻将有挂吗的知识,其中也会对微信小程序麻将有挂吗2019进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!微乐...
2025-11-30 1
本文陈述内容皆有可靠信源,已赘述文章结尾1990年夏天,哈尔滨的夜晚突然安静了下来。不是因为天气,也不是因为限电,而是因为一张通缉名单上的名字,终于被...
2025-11-30 1
发表评论