市场

新方法帮助机器人导航使用语言基输入而不是昂贵的视觉数据

盖世汽车 2024-06-18 08:42

盖世汽车讯有一天，人们可能希望自己的家用机器人把一大堆脏衣服搬到楼下，并把它们放进地下室最左边角落的洗衣机。机器人需要将指令与它的视觉观察结合起来，以确定它应该采取什么步骤来完成这项任务。

（图片来源：arXiv）

对于人工智能本体（AI agent）来说，这说起来容易做起来难。当前方法通常使用多个人工创建的机器学习模型来处理各部分任务，基于大量的人力和专业知识而构建。这些方法通过视觉表征（visual representation）来直接做出导航决策，需要大量的视觉数据来进行训练，而这些数据通常很难获得。

据外媒报道，为了克服这些挑战，麻省理工学院（MIT）和MIT-IBM Watson AI实验室的研究人员设计了一种导航方法，将视觉表征转换为语言片段，然后将其输入大语言模型中，该模型可以实现多步导航任务中的所有部分。

来源：第一电动网

作者：盖世汽车

本文地址：https://www.d1ev.com/news/shichang/234238

以上内容转载自盖世汽车，目的在于传播更多信息，如有侵仅请联系admin#d1ev.com(#替换成@)删除，转载内容并不代表第一电动网（www.d1ev.com）立场。

文中图片源自互联网，如有侵权请联系admin#d1ev.com（#替换成@）删除。

发表评论

新闻推荐

新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据