找回密码
 立即注册
搜索
热搜: Apple Tesla Amazon
查看: 1364|回复: 0

엔비디아 최신 연구 성과!로봇 내비게이션 개척 더 많아 지도 없이 실시간 감지 가능

[复制链接]

3

主题

0

回帖

23

积分

新手上路

积分
23
发表于 어제 17:15 | 显示全部楼层 |阅读模式

일전, 캘리포니아대학 연구자들과 엔비디아는 공동으로 새로운 시각언어모형"NaVILA"를 발표했다.하이라이트는 NaVILA 모델이 로봇 내비게이션에 새로운 방안을 제공했다는 점이다.
NaVILA 모델에 관한 논문
시각언어모델(VLM)은 텍스트, 이미지, 동영상 힌트를 추리할 수 있는 다중모드 생성식 AI 모델이다.시각 인코더에 큰 언어 모델(LLM)을 결합하여 LLM이 "보기" 기능을 갖도록 합니다.
전통적인 로봇 행동은 종종 미리 제작된 지도와 복잡한 센서 시스템에 의존합니다.NaVILA 모델은 사전 지도가 필요 없다. 로봇은 인간의 자연 언어 지령을'알아듣고'실시간 시각 이미지와 레이저 레이더 정보를 결합하여 환경에서의 경로, 장애물, 동적 목표물을 실시간으로 감지하면 스스로 지정된 위치로 항법할 수 있다.
지도에 대한 의존에서 벗어났을 뿐만 아니라 NaVILA는 네비게이션 기술을 바퀴형에서 족식 로봇으로 더욱 확장하여 로봇이 더 많은 복잡한 장면에 대처할 수 있도록 하여 장애물을 뛰어넘고 경로 계획에 적응할 수 있는 능력을 갖추기를 희망한다.
논문에서 UC 연구진은 우주 Go2 로봇 개와 G1 휴머노이드 로봇을 사용하여 실측했다.팀이 집계한 실측 결론에 따르면 가정, 야외, 작업공간 등 실제 환경에서 NaVILA의 내비게이션 성공률은 88% 에 달했고 복잡한 임무에서도 75% 에 달했다.
Go2 로봇 개는 행동 지령을 받았다: 왼쪽으로 조금 돌고, 초상화 포스터를 향해 가면 열린 문을 볼 수 있다
G1 휴머노이드 로봇은 행동 지령을 받았다: 즉시 좌회전하고 직진하여 매트를 밟고 쓰레기통에 접근할 때까지 계속 전진했다
소개에 따르면 NaVILA 모델의 특징은 다음과 같다.
정확성 및 효율성 최적화: NVILA 모델은 훈련 비용에서 4.5배, 미세 조정에 필요한 메모리는 3.4배 절감되었습니다.사전 채우기 및 디코딩 지연이 거의 2 배 감소했습니다 (이 데이터는 다른 대형 비주얼 모델 LLaVa OneVision과 비교).
고해상도 입력: NVILA 모델은 사진과 비디오의 크기를 줄여 입력을 최적화하지 않고 고해상도 이미지와 비디오의 여러 프레임을 사용하여 세부 사항을 잃지 않도록 합니다.
압축 기술: 엔비디아는 시각 언어 모델을 훈련하는 비용이 매우 높으며, 동시에 미세 조정과 같은 모델도 메모리가 매우 많이 소모되며, 7B 매개변수의 모델은 64GB가 넘는 GPU 메모리가 필요하다고 지적했다.따라서 엔비디아는'선 확장 후 압축'이라는 기술을 채택하여 시각 정보를 더 적은 token으로 압축하여 입력 데이터의 크기를 줄이고 픽셀을 그룹화하여 중요한 정보를 보존하고 모델의 정확성과 효율의 균형을 맞춘다.
다중모드 추리력: NVILA 모델은 한 장의 그림이나 한 동영상에 근거하여 여러 조회에 대답할 수 있으며 강력한 다중모드 추리력을 가지고 있다.
비디오 벤치마크 테스트에서 NVILA는 GPT-4o Mini를 능가했으며 GPT-4o, Sonnet 3.5 및 Gemini 1.5 Pro와의 비교에서도 뛰어났습니다.NVILA는 또 Llama 3.2와의 대비에서도 근소한 승리를 거뒀다.
엔비디아는 아직 이 모델을 Hugging Face 플랫폼에 발표하지 않았으며, 곧 모델의 재현성을 촉진하기 위해 코드와 모델을 발표할 것이라고 약속했다.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|www.LogoMoeny.com

GMT+8, 2024-12-12 21:41 , Processed in 0.100429 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表