오픈AI·구글도 못한 길… 트웰브랩스, ‘영상 AI’ 세계 표준 노린다

reporter-profile
박원익 2025.08.10 09:49 PDT
오픈AI·구글도 못한 길… 트웰브랩스, ‘영상 AI’ 세계 표준 노린다
이재성 트웰브랩스 대표 (출처 : SK텔레콤, Twelve Labs, 더밀크 편집)

[AI 프론티어] 이재성 트웰브랩스 CEO
글로벌 AI 무대에서 K스타트업은 어떻게 승부하는가? 트웰브랩스의 전략과 기술의 비밀
차별 전략은 오픈AI·구글과 달리 산업별 특화 풀스택 영상 AI 구축
전 세계 데이터의 80%인 동영상 영역에 집중... 비즈니스 확장 큰 기회
한국은 제조·엔터·국방 AI에 승부 걸어야

‘AI가 동영상 속에서 일어나는 일을 실제로 이해할 수 있다면?’ 

“올해 슈퍼볼 게임 영상에서 첫 번째 터치다운 장면 찾아줘”, “찰리 채플린이 에스컬레이터를 반대로 타는 씬 찾아줘” 같은 요청을 하고, 즉시 결과를 얻을 수 있게 된다. 

‘인간처럼’ 영상을 이해하기 때문에 일상에서 쓰는 자연어로 편리하게 영상을 검색(semantic video search)할 수 있는 것이다. 영상의 하이라이트가 무엇인지 묻거나 영상 속 인사이트 추출, 요약 설명도 할 수 있다. 

AI가 이 작업을 제대로 수행하려면 화면 속 물체, 등장인물뿐 아니라 시간에 따라 변하는 맥락, 톤, 스토리 등 무수히 많은 정보를 파악하고 그것을 추상화, 개념화할 수 있어야 한다. 영상에 등장하는 말과 소리(sound), 편지에 적힌 글씨나 거리의 표지판(text), 강아지의 생김새나 건물의 모양(image) 등 다양한 양식의 데이터를 처리하는 능력은 기본이다. 

현재 영상 검색은 키워드, 해시태그 기반으로 작동하기 때문에 영상에 텍스트로 된 꼬리표를 일일이 붙여야 한다는 번거로움이 있다. 검색어 기반으로 영상의 링크를 찾더라도 해당 영상에서 원하는 장면을 정확하게 찾아내려면 별도의 노력이 필요하다. ‘영상 이해 AI’가 미디어, 엔터테인먼트, 광고, 보안 산업을 바꿀 잠재력을 갖고 있다는 평가를 받는 이유다. 

2021년 설립된 한국 스타트업 트웰브랩스(Twelve Labs)는 이 분야에서 가장 앞선 기업 중 하나로 꼽힌다. 전 세계 데이터의 80%가 동영상이라는 데 힌트를 얻어 영상 이해 AI 모델 개발에 집중, 두각을 나타내기 시작한 것. 

일찌감치 트웰브랩스의 가능성을 알아본 엔비디아, 인텔, 삼성넥스트가 2023년 1000만달러(약 139억원)를 투자했고, 이후 NEA를 비롯한 실리콘밸리 VC, 글로벌 데이터 플랫폼인 스노우플레이크, 데이터브릭스, 한국의 SK텔레콤 등으로부터 추가 투자를 유치했다. 현재까지 누적 투자유치금은 총 1500억원에 달한다. 

업계 반응도 뜨겁다. 지난 7월 아마존웹서비스(AWS)는 자사 생성형 AI 애플리케이션 개발 및 배포 플랫폼인 ‘베드록(Bedrock)’에 트웰브랩스 모델이 탑재됐다고 공식 발표했다. 국내 기업 최초로 글로벌 클라우드 플랫폼에 파운데이션(foundation, 기반) 모델을 공급한 사례다. 미국 미식축구협회(NFL)를 포함한 3만 개 이상 기업이 트웰브랩스의 멀티모달 영상 검색 모델 ‘마렝고(Marengo)’, 영상 요약 및 질의응답 모델 ‘페가수스(Pegasus)’를 이용하고 있다.  

실리콘밸리와 서울에 이어 뉴욕, LA로 확장 중인 이재성 트웰브랩스 대표를 화상으로 만나 트웰브랩스가 바라보는 AI의 미래, 한국 AI 기업이 글로벌 시장에서 경쟁력을 확보하는 방법 등에 대해 물었다. 

다음은 인터뷰 전문

이 대표와 더밀크가 화상 인터뷰를 진행하고 있다. (출처 : 더밀크)

간단히 소개해달라.  

더밀크 팀이 제작하는 콘텐츠에 대해 잘 알고 있다. 좋은 콘텐츠 고맙다. 트웰브랩스는 풀스택 영상 이해(video understanding) 기술 기업이다. 기업과 개발자를 위해 영상 이해 인프라를 구축하고, 관련 연구 및 개발은 진행하고 있다. 

비디오 인덱싱, 시맨틱 비디오 검색, 질문 및 화면 요약 생성, 비디오 채팅 등 다양한 자체 개발 기술을 보유하고 있다. 고객의 대부분은 개발자와 기업이다. 특히 비디오 중심의 비즈니스, 예컨대 미디어, 엔터테인먼트, 스포츠, 광고 분야 고객이 많다. 최근에는 정부 및 공공 분야에서도 점차 성과를 내고 있다. 

한국 기업 최초로 AWS 베드록 플랫폼을 통해 전 세계 기업들에 AI 모델을 제공할 수 있게 됐다는데 그 것이 어떤 의미가 있나?

시장성이 증명됐다는 것이다. 우리가 독자 개발한 모델이 전 세계에서 가장 큰 클라우드 플랫폼인 AWS에 올라가고 이를 통해 더 많은 고객을 만날 수 있게 됐다는 점이 큰 의미가 있다. 영상 검색이 얼마나 힘든지에 대한 부분도 검증이 됐다는 생각이다. 한국에서도 훌륭한 기반 모델을 만들 수 있는 인재, 인프라가 있다는 신호이기도 하다.

AI가 영상을 이해하는 건 왜 어려운가?

사이즈를 더 크게 하고 GPU(그래픽처리장치)에 돈을 많이 쓰고 데이터를 많이 집어 넣어서 스케일링(scaling, 확장) 하는 방식으로 만들 수 있는 모델이 있고, 그렇게 하면 안 되는 모델이 있다. 

트웰브랩스가 모델뿐 아니라 추론 인프라도 많이 만드는 이유다. 추론, 영상 이해라는 건 영상 하나만 잘 이해한다고 되는 게 아니다. 수십만 시간의 아카이브(archive, 자료)에 어떤 내용이 있는지 잘 알아야 하며 어떻게 잘 뽑아서 가져오느냐도 중요하다. 

다음 단어를 예측하는 기존 대규모언어모델(LLM)의 작동 방식은 영상 이해 및 검색과 맞지 않다. 대규모 분산 영상 처리를 할 수 있는 추론 인프라를 따로 만들어서 특정 영상을 어떻게 처리해야 되는지 엔지니어링 단계에서 많이 풀고 있다. 

비디오에서 다음을 예측하기 어려운 이유 중 하나는 영상을 프레임 단위로 잘게 쪼개면(예: 초당 60개, 30개) 현재 프레임이랑 다음 프레임이 같아지기 때문이다.

현재 프레임 기반으로 다음 프레임이 어떻게 될지 예측하는 것 자체가 잘 맞지 않는다. 또 언어의 경우 단어 하나하나에 의미가 있는데, 영상의 모든 프레임은 그렇지 않다.

트웰브랩스의 영상 이해 모델 작동 방식 (출처 : Twelve Labs)

문제를 어떻게 해결했나. 

생성형으로 이해하는 것보다 영상을 기반으로 ‘임베딩(embedding, 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환)’을 잘 하는 모델을 만들어야겠다고 결론을 내렸다. 

임베딩은 결국 메모리(memory, 기억)라고 보면 된다. 우리가 어떤 영화나 영상을 봤을 때 특정 장면을 머릿속에 잘 정리하고 저장했다가 필요할 때 그 장면을 다시 꺼내서 보는 것과 같은 메커니즘이다. 

마렝고 모델이 멀티모달 벡터 인베딩 모델이다. 단순히 프레임을 잘라서 이미지를 임베딩하는 게 아니고 영상에 있는 오디오까지 한꺼번에 인베딩한다. 마렝고가 이렇게 뽑아낸 메모리에 비디오 언어 모델인 페가수스 모델이 잘 접근(access), 답을 해주는 구조다. 

영상 분야는 비용도 중요하다. 대규모 영상 자산을 가진 고객들이 비용 효율적으로 영상 자산을 활용할 수 있도록 제품 최적화에도 힘쓰고 있다. 

오픈AI, 구글 등이 치열하게 경쟁하는 분야인데 어떻게 경쟁력을 확보할 수 있나.

모델만 본다면 트웰브랩스만 만들 수 있는 모델이라고 얘기할 순 없을 것이다. 다만 구글 딥마인드나 오픈AI를 보면 어쩔 수 없이 언어 모델을 확장해 승부를 봐야 하는 상황에 있는 것으로 보인다. 

이미지 생성, 비디오 생성도 하고 있지만, 구글 제미나이 등 다른 LLM이 계속 격차를 좁히기 때문에 결국 경쟁 영역은 언어 모델이 된다. 모든 제품도 언어 모델 중심으로 만들어지고 있다. 

트웰브랩스의 해자(moat)는 모델 하나가 아니라 풀스택(Full-stack, 개발 전과정) 가치에 있다. 영상을 잘 끌어와서 인덱싱하고, 모델에 전달하는 기술 위에 API(애플리케이션 프로그래밍 인터페이스) 층이 있고, 그 위에 저희가 제공하는 에이전트(agent, 대리인) 층까지 포함된다. 각 층마다 고객에게 줄 수 있는 가치가 쌓이고 있다. 

오픈AI도 그렇고 앤트로픽도 그렇고 다른 AI 기업들도 사업 구조를 거의 컨설팅처럼 가져가고 있다. 모델 하나만으로 기업이 풀고자 하는 문제를 해결할 수 없기 때문에 고객에 맞춰 빌딩을 해주는 방식이다.  

GPU 등 하드웨어 인프라는 어떻게 확보하나. 투자 과잉 우려도 있는데.

트웰브랩스도 GPU에 투자를 많이 하고 있다. 투자받은 금액 중 많은 부분이 학습과 추론 쪽에 들어간다. 저희는 감사하게도 엔비디아, AWS, 인텔 등 좋은 파트너 분들과 함께 일하고 있어서 컴퓨팅 용량 채우는 데 있어서 도움을 많이 받고 있다. 다만 앞으로 훈련이나 추론에 들어가는 컴퓨팅 비용은 계속 낮아질 것 같다. 

아직도 기업들의 AI 도입 비율이 그렇게 높지 않다. 10% 미만으로 보인다. 고객 확보 및 미래 경쟁력 제고를 위해 지금은 자원을 쏟아부어야 하는 시기다. 

한국 AI가 글로벌 시장에서 성공하려면 어떤 전략을 추진해야 할까.

쉽지 않은 질문이다. 어떻게 보면 한국의 디지털 생태계가 우수하다는 증거이기도 하다. 한국 시장에 로컬라이즈(Localize, 현지화) 돼 있는 생태계가 많기 때문에 외부 기업이 들어오는 게 힘들고, 한국만의 생태계 안에서 제품을 만들게 되면 어쩔 수 없이 그 생태계의 영향을 받는 것 같다. 

의도하지 않았는데, 그 방향으로 가는 것이다. CEO가 글로벌 시장, 미국에 와서 제품 팔아보고 팔릴 제품이라는 판단이 들면 미국에서 만드는 게 답인 것 같다. 

AI 제품도 세계화하려면 글로벌 스탠다드에 맞춰야 하는데, 현재 실리콘밸리에서 스탠다드가 만들어지고 있다. 중국이 이런 부분을 정말 잘 따라 하고 있는 것 같다. 

다만 산업별로 보면 방위산업처럼 한국에서 세계 기준에 맞춰서 잘 해낸 사례도 있다. 소버린 AI(Sovereign AI) 역시 산업별로 잘 특화해 분야별 파운데이션 모델을 만들고, 그걸 기반으로 버티컬 AI 솔루션을 만들어 수출을 하는 게 유리한 전략으로 보인다.

한국은 제조, 엔터테인먼트, 국방 분야에서 정말 훌륭한 제품이 나올 수 있는 생태계가 갖춰져 있다고 생각한다.

글로벌 인재들로 구성된 트웰브랩스 팀 (출처 : Twelve Labs)

AI 인재 전쟁이 치열하다. 트웰브랩스는 어떻게 훌륭한 인재를 영입하나. 

스케일 AI의 창업자 알렉스 왕이 트웰브랩스의 엔젤 투자자이기도 해서 최근 진행된 마크 저커버그 메타 CEO의 영입, 슈퍼인텔리전스 랩 설립 소식을 흥미롭게 지켜봤다. 

인재 영입은 항상 힘들다. 다만 ‘좋은 인재를 값싸게 데려와야 된다’라는 생각은 한 번도 한 적이 없다. 마크 저커버그 CEO처럼 1억달러 보상 이런 건 당연히 못하지만, 최대한 조건을 맞춰드리려고 하고 있다. 

저희가 모셔 오고자 하는 분들은 당연히 기술적, 연구적으로 훌륭하신 분들이지만, 회사의 문화에 맞는지도 중요하다고 생각한다. 지금까지 트웰브랩스가 만들어 온 기술, 제품에 공감을 하는지, 또 우리가 목표로 잡은 시장을 흥미롭게 여기는지 그런 부분을 많이 본다. 재밌는 건 이런 생각을 가진 분들은 애초에 빅테크에 갈 생각을 안 하시는 분들도 많다. 

앞으로의 목표, 비전이 궁금하다.

우리가 제일 잘 하는 영역에서 최고가 되겠다. 단기적으로는 새로운 마렝고, 페가수스 모델 출시가 있을 것이고, 6개월 이후엔 실시간 영상 처리와 온디바이스 AI, 모바일 기기에서 구동할 수 있는 제품으로 업그레이드 할 것이다.

창업 때부터 비전은 항상 같았다. 트웰브랩스는 시장의 크기를 전 세계 데이터의 80~90%로 본다. 전체 데이터 중 동영상 데이터가 비중 80~90%를 차지하기 때문이다.

향후 3년에서 5년 사이에 전 세계 영상 데이터 중 최대 두 자릿수 비중을 처리를 하는 기업이 되겠다.

트웰브랩스 어드바이저 (출처 : Twelve Labs)

이재성 대표는?

이 대표는 미국 UC버클리 대학에서 컴퓨터공학을 전공했다. 삼성전자, 아마존 등에서 인턴을 했고, 국방부 사이버작전사령부에서 데이터 사이언티스트로 복무했다. 군 복무 시절 만난 김성준 개발총괄이사, 이승준 기술총괄이사와 2021년 트웰브랩스를 공동 창업했다. 

트웰브랩스는 글로벌 리서치 기관 CB인사이트가 발표한 ‘글로벌 100대 AI 스타트업’에 3년 연속 선정됐으며 미국 경제전문매체 패스트 컴퍼니(Fast Company)가 발표한 2023년 ‘가장 혁신적인 비디오 분야 10대 기업’에 꼽히기도 했다.

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.