首页 排行榜文章正文

美国大学生开发AI驱动机器狗 具备 和人类一样精准观察、记忆和反应

排行榜 2025年12月10日 15:01 1 admin
美国大学生开发AI驱动机器狗 具备 和人类一样精准观察、记忆和反应

作者:詹妮弗·尼科尔斯,德克萨斯农工大学

与人类一样,该机器人运用反应式和深思熟虑的行为以及周密的决策。它能够快速响应以避免碰撞,并利用定制的多层逻辑模型(MLLM)分析当前视野,规划最佳行动方案,从而进行高层次的规划。图片来源:Logan Jinks/德克萨斯农工大学工程学院

这款机器狗拥有大象般的记忆力和经验丰富的急救人员般的本能。

这款由德克萨斯农工大学工程系学生研发的人工智能机器狗,不仅能听懂指令,还能观察、记忆和思考。它旨在精准应对混乱局面,有望彻底改变搜救任务、灾难响应以及其他诸多紧急行动。

工程技术硕士研究生桑顿·维塔拉纳和跨学科工程博士研究生桑贾亚·马利卡拉奇共同发明了这款机器狗,它能记住自己去过的地方和见过的东西。它能理解语音指令,并利用人工智能和摄像头输入进行路径规划和物体识别。

机器人的记忆系统是如何工作的

机器人专家会将其描述为一种陆地机器人,它使用由多模态大型语言模型(MLLM)驱动的内存驱动导航系统。该系统能够解读视觉输入并生成路径决策,整合了环境图像采集、高级推理和路径优化,并结合混合控制架构,从而实现战略规划和实时调整。

图片来源:Logan Jinks/德克萨斯农工大学工程学院

机器人导航技术已经从简单的基于地标的方法发展到集成多种传感器源的复杂计算系统。然而,在灾区或偏远地区等不可预测且结构化的环境中进行自主探索仍然十分困难,而效率和适应性在这些环境中至关重要。

虽然机器狗和基于大型语言模型的导航存在于不同的背景下,但将自定义 MLLM 与基于视觉记忆的系统结合起来是一个独特的概念,尤其是在通用和模块化框架中。

Vitharana表示:“一些学术界和商业系统已经将语言或视觉模型集成到机器人技术中。然而,我们还没有看到任何一种方法能够以我们所描述的结构化方式利用基于MLLM的内存导航,尤其是在使用自定义伪代码指导决策逻辑的情况下。”

开发和潜在应用

Mallikarachchi 和 Vitharana 首先探索了多语言记忆逻辑(MLLM)如何解读机器人系统中摄像头采集的视觉数据。在国家科学基金会的支持下,他们将这一理念与语音指令相结合,构建了一个自然直观的系统,展示了视觉、记忆和语言如何进行交互协作。

这款人工智能驱动的机器狗不仅能执行指令,还能观察、记忆和思考。它被设计用于在混乱环境中精准导航,有望彻底改变搜救任务、灾害应对以及其他诸多紧急行动。图片来源:Logan Jinks/德克萨斯农工大学工程学院

与人类一样,该机器人运用反应式和深思熟虑的行为以及周密的决策。它能够快速响应以避免碰撞,并利用定制的多层线性模型(MLLM)分析当前视野,从而进行高层次的规划,并制定最佳的行动方案。

“展望未来,这种控制结构很可能成为类人机器人的通用标准,”马利卡拉奇解释说。

该机器人的记忆系统使其能够回忆并重复使用之前走过的路径,从而减少重复探索,提高导航效率。这项能力在搜救任务中至关重要,尤其是在未绘制地图的区域和GPS信号受限的环境中。

这些机器人的潜在应用范围远不止应急响应。医院、仓库和其他大型设施都可以利用它们来提高效率。其先进的导航系统还可以帮助视力障碍人士、勘探雷区或在危险区域进行侦察。

工程技术与工业分销系助理教授伊苏鲁·戈达格博士为该项目提供了指导。

“我们愿景的核心是在边缘部署MLLM技术,这将赋予我们的机器狗前所未有的即时、高水平的态势感知能力和情感智能,”戈达格说道。“这使得系统能够无缝地弥合人机交互的鸿沟。我们的目标是确保这项技术不仅仅是一种工具,而是一个真正富有同理心的伙伴,使其成为任何未知环境中最先进、最随时待命的应急响应系统。”

来自哈萨克斯坦国际工程技术大学的努拉列姆·阿比佐夫、阿曼佐尔·别克捷梅索夫和艾多斯·伊布拉耶夫为该项目开发了ROS2基础设施。来自英国考文垂大学的HG·查米卡·维贾亚格拉希为地图设计和实验结果分析提供了支持。

Vitharana 和 Mallikarachchi 在最近举行的第 22 届国际普适机器人大会上展示了该机器人及其功能。该研究成果发表在会议论文集《2025 年第 22 届国际普适机器人大会 (UR)》上。

发表评论

德业号 网站地图 Copyright © 2013-2024 德业号. All Rights Reserved.