프라나브 “전 세계 20% 쓰는 영어가 왜 AI 전체를 지배하는가?”

reporter-profile
박원익 2024.05.26 14:12 PDT
프라나브 “전 세계 20% 쓰는 영어가 왜 AI 전체를 지배하는가?”
프라나브 미스트리 투플랫폼(Two Platforms) CEO (출처 : Two Platforms)

[더웨이브 인터뷰] 프라나브 미스트리 투플랫폼 CEO
기존 AI 업체들과 다른 접근 방식... 아키텍처로 차별화
인도·한국 등 60억 비영어권 사용자 위한 모델 ‘수트라’ 출시
힌디어, GPT-4보다 5배 저렴하고, 성능 비슷... 일부 언어는 우월
비밀은 듀얼 트랜스포머... 개념 학습, 언어 처리 분리 ‘혁신’

오픈AI GPT-4 등 주요 AI 모델은 모두 영어 데이터 기반입니다. 영어는 잘 하지만, 다른 언어는 서툴 수밖에 없습니다.
프라나브 미스트리(Pranav Mistry) 투플랫폼(Two Platforms) CEO

프라나브 미스트리(Pranav Mistry) 투플랫폼(Two Platforms) CEO는 실리콘밸리 본사에서 더밀크와 진행한 단독 인터뷰에서 “전 세계 인구 80%(약 60억 명)에 달하는 비영어권 사용자들은 영어 때문에 생성형 AI 기술에 접근하는 데 어려움을 겪고 있다”며 이같이 말했다.

미스트리 CEO는 MIT 박사 과정 당시 글로벌 강연 플랫폼 테드(TED)에 출연하며 ‘천재 과학자’로 유명세를 탔다. 2012년 삼성전자에 합류해 입사 2년여 만인 2014년 33세의 나이에 최연소 상무, 2020년 39세의 나이로 최연소 전무로 승진해 화제에 오르기도 했다.

그는 삼성전자 재직 중 웨어러블 기기인 ‘갤럭시 기어’ 새 모델을 제안했으며 360도 3D 영상 촬영 카메라 등 혁신 UX 개발을 주도한 바 있다. 사내 벤처 ‘스타랩스’에서는 최고경영자(CEO)를 지내며 디지털 휴먼 ‘네온(NEON)’을 개발했다. 

삼성전자를 떠나 AI 스타트업 투플랫폼을 설립한 건 지난 2021년이었다. 투플랫폼은 AI 기술력을 인정받아 2022년 초 한국의 네이버와 인도 최대 통신사 ‘릴라이언스 지오’로부터 시드(seed, 초기) 투자를 받았다. 

기존 AI 업체들과 다른 접근 방식... 수트라 선봬

수트라 및 주요 AI 모델의 언어별 토큰 생성 숫자 비교. 오픈AI의 최신 모델 GPT-4o, 메타 라마3, 구글 오픈형 모델 젬마(Gemma) 등과 비교할 때 수트라의 토큰 생성 숫자가 적다. (출처 : Two Platforms)

수많은 AI 스타트업과 투플랫폼의 차별점은 뭘까. 현재 LLM(대규모 언어 모델)을 구축하거나 AI 애플리케이션(application, 앱)을 개발하는 스타트업들은 주로 라마2, 라마3 같은 기존의 오픈 소스 모델을 미세조정(fine-tuning)하는 방식, 혹은 오픈AI GPT-3.5, GPT-4 등 주요 AI 모델의 API(애플리케이션 프로그래밍 인터페이스)를 유료로 사용하는 방식을 취하고 있다.

한데 투플랫폼은 아예 새로운 아키텍처(architecture, 설계)를 개발하는, 근본적으로 다른 접근 방식을 선택했다.

AI를 인생 프로젝트로 삼고 창업한 프라나브 미스트리 CEO의 고집을 엿볼 수 있는 대목이다. 영어 중심인 GPT, 라마에 의존해서는 60억 비영어권 사용자들의 어려움을 해결할 수 없다는 문제의식을 가지고 있었던 것이다.

인도 서부 ‘구자라트’ 지역 출신으로 영어가 아닌 구자라트어를 모국어로 사용해 온 미스트리 CEO 본인의 경험이 이런 새로운 접근 방식을 고민하는 원동력이 됐다. 그는 “현재 출시된 주요 AI 모델은 다국어 기능을 지원할 준비가 안 된 아키텍처”라며 “인도, 한국 등 비영어권에서 사용하기에 절대적으로 불리하다”고 말했다. 

실제로 힌디어, 아랍어, 벵골어, 일본어 같은 언어는 각각 수억 명의 사용자를 보유하고 있음에도 모델 훈련에 사용되는 데이터 비중은 3% 미만에 불과하다. 비영어권 문장을 생성할 때 영어 대비 품질이 떨어지는 까닭이다. 각 언어가 가진 미묘한 뉘앙스, 맥락 등을 포착하지 못하는 사례도 많다.

비용도 문제다. 개인은 챗GPT 등 일반 대중용 서비스를 사용하기 때문에 영어 기반 모델이어도 큰 문제가 없다. 그러나 기업이 해당 모델 기반으로 앱을 개발하거나 서비스하려고 API(애플리케이션 프로그래밍 인터페이스)를 사용하는 경우 이야기가 달라진다. 

기업 고객은 토큰(형태소 등 의미를 지닌 최소 단위) 생성 숫자에 따라 모델 사용 비용을 내는데, 한국어를 비롯한 비영권 언어의 경우 영어 대비 5배에서 최대 8배 많은 토큰이 생성된다. 이는 그만큼 더 큰 비용 지출로 이어지게 된다. 

이런 문제를 해결하기 위해 투플랫폼이 올해 3월 출시한 자체 LLM이 바로 ‘수트라(SUTRA)’다. 미스트리 CEO는 “세계 인구 1위(약 14억3000만 명) 인도에서 주로 사용되는 힌디어의 경우 (AI 모델로) 문장을 생성하는데 영어 5배의 비용이 든다. 제 모국어인 구자라트어는 더 심하다”며 “영어 중심 모델의 언어적 불평등, 저조한 성능을 개선하고 언어 간 혼동(confusion) 문제를 해결하기 위해 새로운 아키텍처를 가진 AI 모델 수트라를 개발했다”고 강조했다.

GPT-4보다 5배 저렴하고, 성능 비슷… 아키텍처로 차별화

주요 AI 모델 언어별 MMLU(다중작업언어이해) 점수 비교표 (출처 : Two Platforms)

오픈AI를 비롯한 선두 업체가 성능, 비용 문제를 자체적으로 개선할 수도 있지 않을까? 

최근 오픈AI가 공개한 GPT-4o 모델의 경우 실제로 GPT-4 터보 대비 입력, 출력 토큰 비용을 절반으로 낮췄다. 이 점을 언급하며 미스트리 CEO의 생각을 물었다.  

그는 “가격을 더 낮출 수도 있지만, 아키텍처 구조상 한계는 분명하다”고 답했다. 대규모 연산(computing)을 위한 에너지 소비 구조, 인프라 비용 등을 고려하면 낮출 수 있는 가격에 하한선이 존재한다는 것이다. 이런 점 때문에 오픈AI가 가격을 낮추더라도 다국어 최적화 아키텍처를 지닌 수트라가 비영어권에서 경쟁 우위를 가져갈 수 있다고 주장했다.

미스트리 CEO는 주장을 뒷받침하기 위한 구체적인 데이터도 제공했다. 그에 따르면 GPT-4o의 100만 토큰 당 출력 비용은 15달러인데, 수트라는 1달러에 불과하다. 영어 외 다른 언어의 경우 수트라의 토큰 생성 숫자가 상대적으로 더 적기 때문에 비용(동일 토큰 기준)은 0.22달러까지 내려간다.

“인도 크리켓 팬들은 월드컵에서 인도가 호주를 상대로 패한 후 매우 실망했습니다”라는 한국어 예문의 경우 GPT-4의 토큰 숫자는 43개인 반면, 수트라는 23개에 불과했다. 같은 문장을 영어로 출력했을 시 토큰 수는 GPT-4와 수트라가 각각 19개, 22개로 비슷했다.  

미스트리 CEO는 “수트라는 50개 이상 언어로 작동하며 다국어 벤치마크(benchmark, 성능평가)에서 최고 수준의 점수를 기록했다”며 “가장 많이 활용되는 지표인 MMLU(다중작업언어이해) 한국어 점수를 보면 수트라는 67점으로 GPT-4(72점)와 비슷한 수준이다. 하이퍼클로바(54점), GPT-3.5(51점)를 크게 앞선다”고 했다. 구자라트어의 경우 수트라(67점)가 GPT-4(61점)보다 오히려 점수가 높았다. 

비밀은 듀얼 트랜스포머... 개념 이해, 언어 처리 분리 ‘혁신’

수트라 아키텍처 구조. 듀얼 트랜스포머 방식을 취하고 있다. (출처 : Two Platforms)

수트라의 성능, 비용 효율성의 비결은 뭘까? 미스트리 CEO는 핵심 개념 이해와 언어별 처리를 분리한 ‘듀얼 트랜스포머’ 아키텍처가 핵심적인 역할을 한다고 설명했다. 트랜스포머는 구글 연구자들이 2017년 발표해 라마, GPT 등 주요 AI 모델의 근간이 된 자연어처리 아키텍처다. 2021년 스탠퍼드 대학 연구진이 트랜스포머를 ‘파운데이션 모델(foundation model, 기초 모델)’이라고 규정할 정도로 주요 LLM 다수가 이 아키텍처에 의존하고 있다.

미스트리 CEO는 “사람은 낮과 밤의 개념을 모국어로 한 번만 배우고 나면 외국어를 배울 때 해당 개념을 다시 익힐 필요가 없다”며 “우리는 이 작업을 수행하기 위한 새로운 아키텍처를 만들었다. 이것은 혁신”이라고 했다.

수트라는 핵심 개념 이해와 언어 학습을 별도로 나눈 아키텍처이므로 단일 언어 데이터 세트에 대한 의존도가 낮고, 처음부터 여러 언어로 광범위한 학습을 할 필요가 없다. 마치 모국어 외에 언어를 배우는 인간의 학습 및 외국어 발화 과정과 비슷하다. ‘의자의 개념(앉을 때 사용하는 도구)’을 아는 사람은 영어로 ‘Chair’라는 단어의 개념을 다시 익히지 않아도 된다. 단지 의자라는 단어에 Chair가 대응한다는 것만 알면 된다. 이 방식은 AI 모델 학습 및 추론(Inference)의 효율화, LLM의 고차원적 이해를 가능케 한다.

비용 효율적인 다국어 토크나이저(tokenizer, 토큰 생성기)도 차별화 요소다. 수트라 토크나이저는 여러 언어로 된 균형 잡힌 데이터로 학습, 전체 토큰을 80%에서 200%까지 줄이면서 언어 간 효율적 토큰 배포가 가능하다.

미스트리 CEO는 “인도 같은 시장에서 비영어로 GPT-4 모델을 사용할 경우 기업이 비용을 감당하기 어렵다”며 “수트라는 특정 한 가지 언어에만 작동하지 않고, 50개를 지원한다. 한국어 환경에서도 최고의 비용 효율성, 성능을 지원한다”고 했다. 

인터넷 정보를 활용해 환각(Hallucination)도 줄였다. 지난 5월 7일 공개된 수트라 논문에 따르면 수트라는 최신 데이터를 지속적으로 학습하고 추론하는 기능을 갖췄다. 수트라 기반으로 작동하는 AI 검색 앱 ‘지니야(Geniya)’로 테스트해보니 전날 벌어진 스포츠 경기 결과 등 실시간 데이터가 답변에 반영됐다.

릴라이언스 지오 등 글로벌 고객사 활용 중... 다국어 데이터 축적

재피 앱 이미지 (출처 : Two Platforms)

투플랫폼에 따르면 현재 인도 최대 통신사 릴라이언스 지오가 수트라를 활용, 다국어 고객 지원 서비스 등을 제공하고 있다. 인도에서는 힌디어, 벵골어, 구자라트어 등 영어 이외의 다양한 언어가 사용되기 때문에 수트라가 적합하다는 설명이다.

한국에서도 비용 효율성, 빠른 응답 시간 등을 고려해 여러 대기업에서 도입을 검토 중인 것으로 알려졌다. 

투플랫폼은 올해 1월 한국 시장에 선보인 AI 소셜앱 ‘재피(ZAPPY)’와 최근 선보인 지니야 등을 활용해 비영어권 언어 데이터 확보에도 힘을 쏟고 있다. 다국어, 멀티턴(multi-turn, 사용자와 AI가 대화를 연속해서 주고 받는 상황을 지칭) 데이터를 바탕으로 수트라의 성능을 계속해서 더 개선해 나간다는 계획이다. 

재피는 정식 론칭 후 3개월여 만에 수천만 개의 AI 메시지, 30만 명 이상의 가입자를 확보하는 성과를 올렸다. 

미스트리 CEO는 “크고 고립된 모델에서 효율적이며 맥락을 인식하는 시스템을 개발하는 것으로 초점을 전환해야 한다”며 “수트라는 포용적이고 지속 가능한 성장 기반을 마련하며 언어의 다양성과 역동성을 반영한다”고 덧붙였다.

6월 더웨이브 컨퍼런스 기조연설... “의문 제기하고 도전하라”

(출처 : 더밀크)

한편, 프라나브 미스트리 CEO는 오는 6월 19일~20일 양일간 코엑스(컨퍼런스룸 401호)에서 열리는 컨퍼런스 ‘더웨이브’ 첫째 날 연사로 나서 기조연설을 한다.

‘넥스트 빌리언(Next Billion)’을 주제로 열리는 더웨이브 첫째 날 행사는 빠르게 발전하는 생성 AI 산업과 LLM, 휴머노이드 로봇 등 핵심 기술의 흐름을 짚어보는 시간이다. 대전환의 시대 수조원대 가치를 가질 기업을 분석하고, ‘일의 미래’를 준비해야 할 직장인들이 솔루션을 찾을 수 있을 것으로 기대된다.

프라나브 미스트리 투플랫폼 CEO는 인도, 아시아, 아랍권 등 영어 외 다양한 언어를 쓰는 지역에서 왜 다국어 기반 AI 모델이 왜 필요한지, 7000개에 달하는 전 세계 언어의 다양성과 풍부함을 지켜야 하는 이유, 빅테크와 경쟁하는 AI 스타트업이 취해야 할 접근 방식, 전략 등에 관해 이야기할 예정이다.

프라나브 미스트리 CEO는 “작은 스타트업도 기존의 지배적 방식에 대한 의문을 제기, 도전할 수 있다는 점이 이 시대가 가진 강점이라고 생각한다”며 “AI 시대에는 수 천 명의 인력이 필요하지 않다. 더 똑똑한 접근방식, 새로운 아키텍처, 사고 도구(Thinking Tools)만 있으면 된다. 우리가 시작한 것은 새로운 혁신”이라고 했다.

더웨이브 서울(The Wave Seoul 2024)

일자: 2024년 6월 19일(수) ~ 20일(목), 2일간

시간: 6월 19일(수) 10:00~17:00 / 6월 20일(목) 10:00~17:10 (등록시간: 09:30~10:00)

장소: 서울 코엑스, 컨퍼런스룸 401호

주제: Next Billion

언어: 영어 / 한국어

👉더웨이브 서울 안내

👉1차 사전등록

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.