[현장] ‘차원이 다른 AI 목소리’ 일레븐랩스 V3 시연에 뉴요커들 환호
뉴욕 테크위크에서 v3 시연 공개… 큰 호응 일으켜
오디오 태그로 자유자재 연출... 캐릭터 퍼포먼스·상황 인식
일레븐랩스 CEO “가장 표현력 뛰어난 모델… 70개 이상 언어 지원”
2022년 설립된 떠오르는 음성 AI 스타트업… 기업가치 4.5조
“오늘 여러분께 흥미로운 성과를 보여드리고 싶습니다. 일레븐랩스(ElevenLabs)의 최신 모델 ‘v3’입니다.”
달튼 파칼라 일레븐랩스 GTM(Go-To-Market, 시장 진출) 담당자는 5일(현지시각) “v3는 일레븐랩스의 모든 제품에 적용될 미래를 위한 기반 모델”이라며 이같이 말했다.
뉴욕 맨해튼 루프톱에서 일레븐랩스 주관으로 진행된 ‘노변정담(fireside chat)’에서 차세대 텍스트 음성 변환(Text to Speech, TTS) 모델 ‘일레븐 v3 알파(Eleven v3 alpha)’를 공개한 것이다.
뉴욕 테크위크에서 v3 시연 공개… 큰 호응 일으켜
시연을 통해 확인한 v3의 음성 표현력은 놀라웠다. 속삭임, 흥분한, 웃음, 놀란, 열정적인, 연극톤, 영국 억양 등 다양한 오디오 태그를 활용해 AI가 생성하는 목소리를 자유자재로 조정할 수 있었다. 여러 명의 화자가 자연스럽게 대화하는 연출도 가능했다.
해적 선장 같은 특정 캐릭터를 연기할 수 있는 ‘캐릭터 퍼포먼스(character performance)’ 기능, 제시된 문서만으로 어떤 상황인지 판단하는 ‘상황 인식(situation awareness)’ 기능도 갖췄다. 예컨대 축구 경기 해설 대본을 보여주면 경기 흐름에 맞춰 목소리의 크기나 표현을 바꿀 수 있는 식이다. 오디오 태그과 상황 인식 능력이 결합되자 베테랑 축구 해설자의 현장 해설을 듣는 듯한 생동감 넘치는 음성 파일이 만들어졌다.
특히 다양한 감정, 오디오 효과 등을 세밀하게 제어하고 표현할 수 있다는 점이 호응을 얻었다. 루프탑에 모인 청중들의 큰 박수와 환호성이 터진 것. AI 도구의 단점 중 하나가 의도한 대로 결과물을 조정하는 게 쉽지 않다는 점인데, 일레븐랩스는 오디오 영역에서 이를 극복하고 있었다.
행사에 참석한 한 뉴요커는 “심리 컨설팅 영역에서 일하고 있는데, AI 기술에 대해 알고 싶어 이벤트에 참여하게 됐다”며 “과거에는 상상할 수 없었던 놀라운 미래가 열리는 느낌”이라고 했다.

“가장 표현력 뛰어난 모델… 70개 이상 언어 지원”
일레븐 v3 기반으로 콘텐츠, 광고, 게임 분야에서 다양한 시도가 이뤄질 것으로 예측된다. AI 성우, AI 더빙 등에 활용할 수 있기 때문이다. 파칼라는 “곧 v3 API(애플리케이션 프로그래밍 인터페이스)를 지원할 것”이며 “일레븐랩스에서 일하는 장점 중 하나는 연구를 실제 세계에 적용할 수 있다는 점”이라고 설명했다. API를 통해 기업들이 v3를 서비스, 비즈니스에 즉시 적용할 수 있다는 설명이다.
마티 스타니스제프스키 일레븐랩스 공동 창업가 겸 CEO는 이와 관련, 5일 소셜미디어를 통해 “일레븐 v3는 지금까지 우리가 개발한 모델 중 가장 표현력이 풍부한 텍스트 음성 변환 모델”이라며 “새로운 차원의 음성 표현력, 감정 제어, 다중 화자 대화, 70개 이상의 언어(한국어 포함)를 사용할 수 있다”고 강조했다.
세계 최대 VC(벤처캐피털) a16z가 주관하는 뉴욕 테크위크의 일환으로 진행된 이날 행사에는 일레븐랩스 팀 외에도 AI 업계 관계자들이 참여해 대담을 나눴다. 실제 제품이나 서비스에서 TTS 모델을 어떻게 활용할 수 있는지 의견을 교환했다.
대담에 참여한 세일즈포스 제품 매니저는 “세일즈포스는 컨택 센터 등 고객 지원용 에이전트(agent, 대리인) 서비스에 음성 AI를 적용하고 있다”며 “컨택 센터 자동화, AI 에이전트 적용으로 비용을 줄일 수 있다”고 했다.
떠오르는 음성 AI 스타트업… 기업가치 4.5조
뉴욕과 영국 런던에 본사를 둔 일레븐랩스는 폴란드 출신 창업자 두 명이 2022년 설립한 스타트업이다.
지난 1월 1억8000만달러(약 2451억원) 규모의 투자를 유치하며 기업가치는 33억달러(약 4조5000억원)를 돌파했다. a16z와 아이코닉(ICONIQ)이 투자를 주도했고, 도이치 텔레콤, LG 테크놀로지 벤처스, NTT 도코모 벤처스 등 글로벌 CVC(기업형 벤처캐피털)도 투자에 참여했다.
기사 읽어주기, 오디오북 등 AI 성우로 활용할 수 있는 TTS 외에 특정 언어를 다른 언어로 바꾸는 더빙, 사용자의 목소리를 단 1분의 오디오 샘플만으로도 복제하는 ‘클로닝(Cloning) 등 다양한 기능을 제공하며 빠르게 성장 중이다.
세계 최대 음원 스트리밍 기업 스포티파이가 일레븐랩스 기술을 이용해 오디오북 서비스를 제공하고 있으며 타임을 비롯한 다양한 언론사, 유명 팟캐스트 미디어, 커뮤니케이션 플랫폼 트윌리오 등을 고객사로 확보하고 있다.
파칼라는 “AI는 사회를 더 나은 곳으로 만들고, 사람들이 더 즐겁게 살 수 있도록 돕는다”며 “인간으로서 우리가 가장 중요하게 여기는 것에 집중할 수 있도록 만들어 주기 때문”이라고 했다.