英伟达最新研究成果!开辟机器人导航更多可能 无需地图可实时感知
我心如烟卸
发表于 2024-12-11 17:15:51
194
0
0
NaVILA模型的相关论文
视觉语言模型(VLM)是一种多模态生成式AI模型,能够对文本、图像和视频提示进行推理。它通过将大语言模型(LLM)与视觉编码器相结合,使LLM具有“看”的能力。
传统的机器人行动往往依赖于预先绘制的地图和复杂的传感器系统。而NaVILA模型不需要预先的地图,机器人只需“听懂”人类的自然语言指令,结合实时的视觉图像和激光雷达信息,实时感知环境中的路径、障碍物和动态目标,就可以自主导航到指定位置。
不仅摆脱了对地图的依赖,NaVILA还进一步将导航技术从轮式扩展到了足式机器人,希望让机器人应付更多复杂场景,使其具备跨越障碍和自适应路径规划的能力。
在论文中,加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测。根据团队统计的实测结论,在家庭、户外和工作区等真实环境中,NaVILA的导航成功率高达88%,在复杂任务中的成功率也达到了75%。
Go2机器狗接受行动指令:向左转一点,朝着肖像海报走,你会看到一扇敞开的门
G1人形机器人接受行动指令:立即左转并直行,踩上垫子继续前进,直到接近垃圾桶时停下来
据介绍,NaVILA模型的特点在于:
优化准确性与效率:NVILA模型在训练成本上降低了4.5倍,微调所需内存减少了3.4倍。在预填充和解码的延迟上几乎降低了2倍(这些数据是与另一个大型视觉模型LLaVa OneVision进行比较得出的)。
高分辨率输入:NVILA模型并不通过降低照片和视频的大小来优化输入,而是使用高分辨率图像和视频中的多个帧,以确保不丢失任何细节。
压缩技术:英伟达指出,训练视觉语言模型的成本非常高,同时,微调这样的模型也非常耗费内存,7B参数的模型需要超过64GB的GPU内存。因此英伟达采用了一种名为“先扩展后压缩”的技术,通过将视觉信息压缩为更少的token,来减少输入数据的大小,并将像素进行分组,以保留重要信息,平衡模型的准确性与效率。
多模态推理能力:NVILA模型能够根据一张图片或一段视频回答多个查询,具有强大的多模态推理能力。
在视频基准测试中,NVILA的表现超过了GPT-4o Mini,并且在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NVILA还在与Llama 3.2的对比中取得了微弱胜利。
英伟达表示,目前尚未将该模型发布到Hugging Face平台上,其承诺会很快发布代码和模型,以促进模型的可复现性。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 美股成交额前20:苹果跌超4%本土生产iPhone成本或飙升90% 特斯拉跌超7% 英伟达跌近6%
- 特朗普:将加快向英伟达发放研发AI超级计算机所有必要许可
- 美股半导体股盘前多数下跌,英伟达跌超6%
- 纳指收跌超3% 英伟达重挫逾6%
- 鲍威尔“鹰派”讲话带崩美股,纳指跌超3%,英伟达再度大跌
- 大摩下调英伟达营收预期:H20限售令影响或超预期!
- 霸王茶姬美股首日上市 盘中一度涨近50%!道指跌超1% 英伟达跌近3%!事关降息 特朗普发声
- 黄仁勋今年二度到访:中国是英伟达非常重要的市场 希望继续与中国合作
- 龚正会见英伟达总裁兼首席执行官黄仁勋
- 美股成交额前20:特斯拉、亚马逊、英伟达涨超3% 奈飞股价创新高