사람처럼 보고·듣고·이해… 구글 안내 로봇, 왜 혁신적인가
구글 딥마인드, 사람처럼 상호작용하는 길 안내 로봇 공개
자연어, 이미지 등 멀티모달 명령 이해하는 ‘지능형 에이전트’
제미나이 1.5 프로 기반으로 작동… ‘모빌리티 VLA’ 제시
학습 시간 적고 적응력 뛰어나… “로봇 내비게이션 새로운 패러다임”
“로봇, 뭘 좀 그릴 수 있는 곳으로 안내해 줄래?”
“알겠어요. 제미나이(Gemini)로 생각 중입니다. 잠시 시간을 주세요. (몇 초 후) 저를 따라오세요.”
11일(현지시각) 구글 딥마인드가 공개한 로봇 시연 영상에 등장하는 장면이다. 집사처럼 노란색 나비넥타이를 단 이 로봇은 바퀴를 스르륵 움직여 건물 내부를 이리저리 이동하더니 벽 한쪽을 차지한 대형 화이트보드 앞에 멈춰 섰다.
“축하합니다. 목적을 달성했어요. 화이트보드에 그림을 그릴 수 있습니다.”
기존 안내 로봇과 구글이 공개한 로봇의 차이점은 뭘까? 얼핏 간단해 보이는 안내이지만, 작동 구조를 하나하나 뜯어보면 절대 그렇지 않다.
차이점①: 추론 능력... 성공률 90%
먼저 질문에 주목할 필요가 있다. 구글 딥마인드 직원은 시연에서 ‘뭘 좀 그릴 수 있는 곳’이라는 표현을 사용했다. ‘화이트보드’라는 직접적, 구체적인 정보를 주지 않은 것이다. 그럼에도 구글 로봇은 사용자가 원하는 바를 스스로 알아내 정확한 답을 제시했다.
구글 딥마인드가 공개한 논문 ‘모빌리티 VLA(시각-언어-행동)’에 따르면 시연에 등장한 형태의 질문은 ‘추론이 요구되는 지시(Reasoning-Required Instructions)’에 해당한다. 추론이 필요하지 않은 지시, 예컨대 “화이트보드가 있는 곳으로 안내해 줘”와 달리 이런 형태의 질문은 ‘그릴 수 있는 곳’에 해당하는 장소가 어디인지 로봇 스스로 알아내야 한다. 강력한 추론 능력을 지닌 최신 AI 모델 ‘제미나이 프로 1.5’가 로봇의 두뇌 역할을 했기 때문에 가능한 작업이었다.
생각해 보면 사람들이 일상에서 길 안내를 위해 주고 받는 대화 역시 추론이 필요 경우가 많다. 길을 물을 때 정확한 정보를 가지고 있지 않거나 정보를 아예 모르는 상황에서 묻는 경우가 더 많기 때문이다.
구글 딥마인드는 “좀 앉아야겠어요.”, “목이 마르네요” 같은 추론이 요구되는 요청을 로봇에 테스트했으며 총 57회에 걸쳐 다양한 작업을 지시해 90%의 성공률을 기록했다고 밝혔다.
차이점②: 이미지 이해 능력... ‘VLM의 시대’
논문에 따르면 이 로봇의 또 다른 특징은 사람들이 일상적으로 사용하는 언어뿐 아니라 이미지를 포함한 멀티모달(multimodal, 다중모드) 명령을 이해, 유용한 길 안내를 수행할 수 있는 ‘지능형 에이전트(agent, 대리인)’라는 점이다.
예컨대 물품이 담긴 플라스틱 상자를 손에 들고 “이걸 어디에 반납해야 하나요?”라고 로봇에 물으면 로봇이 해당 상자가 원래 놓여 있던 선반으로 사용자를 안내할 수 있다.
손에 들고 있는 플라스틱 상자(이미지 지시)와 말로 얘기한 내용(언어 지시)을 함께 정보로 받고 이해할 수 있어야 수행 가능한 행동인 것이다. 현재 상용화된 기존 안내 로봇이 구현하지 못하는 차별화된 기능들이다.
구글 딥마인드 측은 “최근 비전 언어 모델(VLM, 컴퓨터 비전과 자연어 처리 결합 모델)의 발전은 멀티모달 명령을 인식하고 추론하는 능력을 보여줬다”며 “우리는 VLM에 내비게이션 정책을 결합한 ‘모빌리티 VLA(시각-언어-행동)’를 제시한다. 이 방식으로 과거에 해결하지 못했던 멀티모달 명령에 대한 높은 성공률을 거둘 수 있었다”고 설명했다.
차이점③: 간편한 환경 인식+기억력... 사용성 개선
모빌리티 VLA(시각-언어-행동) 기반 로봇의 또 한 가지 중요한 차이점은 실제 로봇을 배치할 때 사용성이 매우 뛰어나다는 점이다.
기존의 안내 로봇은 로봇에 정확한 지도 정보를 입력하는 과정을 거쳐야 하므로 배치에 시간이 오래 걸린다는 단점이 있었다. 지도 정보가 한번 입력된 후에는 바꾸기도 쉽지 않다. 또 사용자는 해당 지도상에 있는 특정 좌표를 정확히 찍어야 안내를 받을 수 있어 다양한 상황에 활용하기가 불편했다.
한데 구글 딥마인드 로봇은 ‘데모 투어’로 이 문제를 해결했다. 사용자가 로봇을 원격으로 조작하거나 스마트폰으로 촬영한 영상을 제공하는 것만으로 공간 정보를 학습할 수 있게 만든 것이다. 데모 투어 시 음성으로 정보를 추가해 알려줄 수도 있다. 마치 신입 사원에게 사무실 구조와 주요 집기 위치를 안내하는 것과 비슷하다. 한 번만 보고 들으면 건물 관리인 못지않게 정확한 안내를 할 수 있는 셈이다.
모빌리티 VLA 기반 로봇이 이렇게 기능할 수 있는 배경엔 ‘긴 컨텍스트 창(long-context window)’이 있다. 이미지, 텍스트, 음성을 포함한 매우 긴 컨텍스트(데이터)를 AI 모델에 입력할 수 있기 때문에 공간 정보에 대한 뛰어난 기억력을 쉽게 확보할 수 있었다.
제미나이 외 다른 VLM은 컨텍스트 길이 제한으로 입력 이미지 수가 매우 제한적이다. 반면 구글 제미나이 1.5 프로는 ‘100만 토큰 컨텍스트 길이’를 제공, 대규모 환경을 효과적으로 이해할 수 있다. 구글이 테스트를 진행한 구글 딥마인드 실제 사무실은 규모가 836m2(약 253평)에 달한다.
논문 저자들은 “스마트폰으로 집을 비추며 물건을 찾아달라고 요청할 수도 있다”며 “로봇 내비게이션의 새로운 패러다임을 제시했다고 생각한다. 인간과 로봇의 상호작용이 매우 자연스럽게 개선됐고, 로봇의 사용성도 크게 향상됐다”고 밝혔다.