오픈AI·구글도 못한 길… 트웰브랩스, ‘영상 AI’ 세계 표준 노린다
‘AI가 동영상 속에서 일어나는 일을 실제로 이해할 수 있다면?’ “올해 슈퍼볼 게임 영상에서 첫 번째 터치다운 장면 찾아줘”, “찰리 채플린이 에스컬레이터를 반대로 타는 씬 찾아줘” 같은 요청을 하고, 즉시 결과를 얻을 수 있게 된다. ‘인간처럼’ 영상을 이해하기 때문에 일상에서 쓰는 자연어로 편리하게 영상을 검색(semantic video search)할 수 있는 것이다. 영상의 하이라이트가 무엇인지 묻거나 영상 속 인사이트 추출, 요약 설명도 할 수 있다. AI가 이 작업을 제대로 수행하려면 화면 속 물체, 등장인물뿐 아니라 시간에 따라 변하는 맥락, 톤, 스토리 등 무수히 많은 정보를 파악하고 그것을 추상화, 개념화할 수 있어야 한다. 영상에 등장하는 말과 소리(sound), 편지에 적힌 글씨나 거리의 표지판(text), 강아지의 생김새나 건물의 모양(image) 등 다양한 양식의 데이터를 처리하는 능력은 기본이다. 현재 영상 검색은 키워드, 해시태그 기반으로 작동하기 때문에 영상에 텍스트로 된 꼬리표를 일일이 붙여야 한다는 번거로움이 있다. 검색어 기반으로 영상의 링크를 찾더라도 해당 영상에서 원하는 장면을 정확하게 찾아내려면 별도의 노력이 필요하다. ‘영상 이해 AI’가 미디어, 엔터테인먼트, 광고, 보안 산업을 바꿀 잠재력을 갖고 있다는 평가를 받는 이유다. 2021년 설립된 한국 스타트업 트웰브랩스(Twelve Labs)는 이 분야에서 가장 앞선 기업 중 하나로 꼽힌다. 전 세계 데이터의 80%가 동영상이라는 데 힌트를 얻어 영상 이해 AI 모델 개발에 집중, 두각을 나타내기 시작한 것. 일찌감치 트웰브랩스의 가능성을 알아본 엔비디아, 인텔, 삼성넥스트가 2023년 1000만달러(약 139억원)를 투자했고, 이후 NEA를 비롯한 실리콘밸리 VC, 글로벌 데이터 플랫폼인 스노우플레이크, 데이터브릭스, 한국의 SK텔레콤 등으로부터 추가 투자를 유치했다. 현재까지 누적 투자유치금은 총 1500억원에 달한다. 업계 반응도 뜨겁다. 지난 7월 아마존웹서비스(AWS)는 자사 생성형 AI 애플리케이션 개발 및 배포 플랫폼인 ‘베드록(Bedrock)’에 트웰브랩스 모델이 탑재됐다고 공식 발표했다. 국내 기업 최초로 글로벌 클라우드 플랫폼에 파운데이션(foundation, 기반) 모델을 공급한 사례다. 미국 미식축구협회(NFL)를 포함한 3만 개 이상 기업이 트웰브랩스의 멀티모달 영상 검색 모델 ‘마렝고(Marengo)’, 영상 요약 및 질의응답 모델 ‘페가수스(Pegasus)’를 이용하고 있다. 실리콘밸리와 서울에 이어 뉴욕, LA로 확장 중인 이재성 트웰브랩스 대표를 화상으로 만나 트웰브랩스가 바라보는 AI의 미래, 한국 AI 기업이 글로벌 시장에서 경쟁력을 확보하는 방법 등에 대해 물었다. 다음은 인터뷰 전문