콘텐츠 한계비용 제로 시대 온다
[AI비즈니스혁명] 이교구 수퍼톤 대표 인터뷰
하이브 자회사 수퍼톤, AI 음성변환 서비스 ‘시프트’ 베타 출시
수공업서 대량생산 체제로…버튜버∙현지형 아이돌 제작 장벽 낮춘다
IP는 창작자에 귀속…성우와 상생모델 ‘음성권’ 제시
더밀크의 시각: AI로 콘텐츠 생산도 한계비용 제로
음악이고 영화고 이제는 누구나 아이디어만 있으면 기술로 뭔가를 만드는 게 가능하지 않나. 넷플릭스도 그렇고, 스포티파이만 해도 수천만곡이 있는데 한 번도 재생되지 않은 노래도 많다…(중략) 이런 오버프로덕션 기조는 분명히 진행되고 있는 것 같다. 콘텐츠는 앞으로도 기하급수적으로 늘어나고 이게 어떻게 될지는 결국은 소비집단(시청자)이 판가름낼 것이다.이교구 수퍼톤 대표
‘대작(大作)’이 가고 ‘다작(多作)’이 온다.
엔터테인먼트, 게임, 영화, 미디어 등 소위 콘텐츠를 제작하는 시스템은 거의 수공업에 가까웠다. K-팝 아이돌 한 팀을 양성하려면 연습생 모집부터 훈련, 데뷔에 5년 이상의 시간과 자원을 쏟아부어야 했다. 영화나 드라마, 게임 하나를 제작하는 데도 배우, 감독, 촬영 인원, 개발자, 장소 등 수많은 자원이 짧게는 수개월에서 수년 동안 필요했다.
인공지능(AI) 기술이 재편하는 그림은 명확하다. 이런 콘텐츠나 캐릭터 제작이 쉬워진다. 버추얼(가상)로 한 명이 다양한 버전을 만들 수 있다. AI 기업 수퍼톤(Supertone)은 AI 음성변환 서비스 ‘시프트(Shift)’로 이 제작 장벽을 낮추는 대표적인 회사다. 방탄소년단(BTS) 소속사 하이브(HYBE)가 이 수퍼톤의 대주주다.
👉 AI Voices Could Upend Economics of K-Pop Production
하이브는 2021년 수퍼톤에 40억 원을 투자해 18.2%의 처음 지분을 취득한 후, 1월 450억원을 추가 투자해 보유 지분을 56.1%로 늘렸다.
이교구 수퍼톤 대표(CEO)는 더밀크와의 인터뷰에서 “지금도 정체성을 드러내지 않는 유튜버가 있지 않나”면서 “(시프트로) 다양한 역할을 몰입감 있게 전달할 수 있다”고 전했다.
이교구 대표는 1996년 서울대학교 전기공학부 학부를 거쳐 뉴욕대학교에서 음악기술 석사학위를, 스탠퍼드대에서 전기공학 석사 및 컴퓨터음악∙음향학 박사학위를 취득했다. 2009년 서울대학교 교수 부임 후 음성과 음악에 기계학습과 오디오 신호처리를 활용하는 연구를 수행하며 2020년 3월 수퍼톤을 창업했다.
수퍼톤, 시프트 베타 출시…멀티 롤플레이
수퍼톤은 음악과 기술을 결합하는 대표적인 하이브 IT 계열 자회사다. 사업모델은 크게 3가지 구조다.
▲오디오 콘텐츠 외주 제작 사업 ▲시프트, 텍스트-음성변환 서비스 ‘스크린플레이(2024년 하반기 출시 예정)’, 소음제거 서비스 ‘클리어’ 등으로 이어지는 애플리케이션 사업 ▲이를 기업에 응용프로그래밍인터페이스(API), 소프트웨어개발도구(SDK) 형태로 제공하는 기업대상(B2B) 솔루션 사업 등이다.
이교구 대표는 ”2020년 초반 1~2년에는 외주 작업 위주였는데 이제는 시프트 등으로 스케일업(확장) 하려는 단계”라고 말했다.
수퍼톤은 지난 15일(현지시각) 시프트를 공개, 글로벌 베타서비스를 운영하고 있다. 시프트는 게임과 영화, 애니메이션 등 각종 콘텐츠에서 활용할 수 있는 AI 실시간 음성 변환 서비스다. 사용자가 시프트에 탑재된 10개의 캐릭터 음성 중 하나를 선택하고 말을 하면, 즉시 해당 캐릭터의 목소리로 송출해 주는 서비스다. 오는 6월 26일까지 오픈 베타 기간을 거쳐 올 하반기 중 정식 오픈할 계획다.
핵심 타깃은 버튜버(가상유튜버), 라이브 스트리머, 팟캐스터 등이다. 이른바 ‘빌려 쓰는 아이덴티티’ 수요에 주목했다. 그는 “유튜버, 스트리머들도 이젠 거의 아티스트급으로 팬덤을 보유한 경우가 많다. 이중 아이덴티티를 드러내는 경우도 있고 드러내지 않는 사람도 있지 않나. 우리는 여기서 후자에 집중하고 있다”고 말했다.
실제 버튜버 시장은 빠르게 성장하고 있다. 2022년 버튜버 콘텐츠 청취시간은 9.7억시간에서 2023년 13.11억시간으로 약 14% 증가했다. 이교구 대표에 따르면 13일 기준 베타 서비스는 100개국에서 1만명이 넘는 사용자가 시프트를 다운로드 받으며 순항 중이다. 1/3 이상은 일본에서 발생했다.
이 대표는 “사용자들이 어떤 목소리를 원하는지를 계속 듣고 수집하고 있다”면서 “베타 기간 피드백을 많이 받아 사용자들이 원하는 목소리들을 공식 출시 때 공개하려 한다”고 말했다.
일자리 대체할까? 성우와 상생모델 ‘음성권’ 제안
다작의 시대, AI 음성변환서비스로 콘텐츠 제작의 장벽이 낮아진다는 말은, 그간 장벽에 있던 성우, 오디오 기술자, 크리에이터 등의 일자리가 없어질 수 있다는 말이기도 하다.
원작자, 기술개발사, 크리에이터 간 저작권 및 수익 배분 문제, 개인정보유출 문제, 훈련데이터 무단활용 문제, 사칭 등 AI 기반 콘텐츠 제작 도구에 대한 사회적 우려가 크다.
이를 의식한 듯 이 대표는 성우와 수익을 공유하는 일종의 ‘음성권’을 구상하고 있다고 밝혔다. 성우의 목소리를 사용한 시프트 사용자에게 과금하고 일정 비율에 따라 성우에게 공유하는 방식이다. 기존 성우들은 주로 녹음 비용을 일회성으로 받았는데 시프트와 협업하면 회사가 운영되는 이상 계속 로열티를 받을 수 있다는 게 그의 설명이다.
이교구 대표는 “이미 탑다운으로 개성 있는 목소리, 뛰어난 연기력을 가진 인디 성우와 계약을 통해 목소리를 수집하고 있다. 계약서 초안도 마련된 상태”라면서 “시프트의 프라이싱모델은 아직 논의 중이지만, 향후 공식 출시 및 유료화하면 수익배분을 도입할 계획”이라고 말했다.
시프트에서 생산한 콘텐츠의 IP는 크리에이터에게 귀속된다. 현재 시프트 플랫폼에는 수퍼톤이 자체 제작한 10개의 캐릭터 목소리가 있다.
수퍼톤은 자체 개발한 음성합성 파운데이션 모델 낸시(NANSY, Neural Analysis & Synthesis)로 개발됐다. 훈련 데이터는 주로 한국 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 구축한 ‘AI 허브’ 데이터를 활용하고 있다. 실존하는 인물의 목소리에 대해서도 “아직 활용할 계획이 없다”고 선을 그었다.
음성변환 서비스가 사칭 등 악용될 위험에 대해서도 말을 꺼냈다. 여전히 원작자 말투, 억양이 다르기 때문에 음성을 같은 캐릭터의 목소리로 변환해도 같은 사람으로 들리지 않는다는 게 그의 주장이다. 수퍼톤은 최근 창작물에 적용 가능한 워터마크 기술연구개발을 시작했다. 그는 “시프트툴에 사용자와 캐릭터 목소리를 섞는 비율을 조절할 수 있다”면서 “워터마크는 사용자가 누구인지 정보를 수집하고 ID 형태로 추적이 가능한 구조로 보고 있다”고 강조했다.
그러나 다양한 목소리와 아이덴티티를 한 사용자가 쉽게 변환할 수 있다면, 이는 그간 목소리를 제작하던 인력에게 영향을 끼치는 건 피할 수 없는 현실이다. 이를 의식한 듯 그는 스토리텔러의 역할과 시장의 선택을 강조했다.
이 대표는 “음악, 영화 등 이제는 기술로 누구나 아이디어만 있으면 구현물을 만들어내는 게 가능하지 않나. 사실 넷플릭스 같은 OTT만 해도 그렇고, 스포티파이만 해도 수천만 곡이 있는데 한 번도 재생되지 않는 노래도 많을 것”이라면서 “오버프로덕션, 이 기조는 분명히 맞는 것 같다. 앞으로 기하급수적으로 늘어날 거고 이게 어떻게 될지는 결국은 소비집단이 판가름낼 것”이라고 말했다.
더밀크의 시각: 엔터테크 미래상은
“크리에이터가 물리적 제약 없이 콘텐츠 제작이 가능하도록 돕는다”
수퍼톤 이교구 대표가 인터뷰 내내 강조한 말이다. 콘텐츠 대량생산 체제로의 전환을 가속한다. 지금은 콘텐츠 유통 비용이 제로에 가깝게 수렴되고 있지만 앞으로는 생산의 한계비용도 제로가 된다는 것이다.
수퍼톤의 모회사인 하이브가 K-팝 아티스트 제작 시스템에서 추구하는 전략과도 유사하다. 하이브는 아티스트 제작에 ‘멀티레이블’ 체제를 처음으로 도입, K-팝 아이돌 제작 방식을 장기육성형에서 단기양산형으로 바꿨다는 평을 받는다.
하이브는 2019년 이후 6년 동안 9개의 아이돌 그룹을 출시했다. 최근 카피캣 논란이 있는 걸그룹 아일릿은 뉴진스 데뷔 후 2년도 채 되지 않아 나왔다. 전통적인 대형 엔터 3사인 에스엠(SM), 제이와이피(JYP), 와이지(YG)가 5~7년가량 연습생을 훈련하고 3~5년 단위로 그룹을 데뷔시켰던 기존 패턴을 깼다.
이런 단기양산 체제는 하이브가 회사를 BTS를 만든 빅히트뮤직과 함께 쏘스뮤직(르세라핌), 어도어(뉴진스), 빌리프랩(아일릿), 플레디스(투어스), 이타카홀딩스(아리아나 그란데, 저스틴 비버) 등 멀티레이블 체제로 구축했기에 가능했다.
지금은 YG, JYP, SM도 각각 양현석, 박진영, 이수만이라는 총괄프로듀서 1인체제에서 벗어나 기업의 색깔을 입히려고 시도하고 있다.
수퍼톤의 시프트가 상용화에 성공한다면 대량생산 체제가 K팝을 비롯해 영화, 드라마, 게임 등을 아우르는 K콘텐츠 시장을 재편할 가능성을 짐작해 볼 수 있다.
특히 음성변환 기술은 가상 아이돌, 현지형 아이돌 같은 마이크로 아이돌이나 기존 아이돌에서 많은 활용 가능성이 엿보인다.
모회사 하이브가 이미 미국, 일본, 라틴아메리카에도 현지 법인을 설립해 현지 시장에 맞는 아이돌 혹은 아티스트를 양성하고, 2차, 3차 비즈니스를 창출하고 있는 점을 고려하면, 둘 간의 협업이 이뤄질 경우 파급력은 상당할 것으로 보인다.
다만 아직 AI 서비스에 대한 저작권 논란이 현재 진행중인 점, 아이돌 팬덤이 AI서비스를 아티스트에 활용하는 것에 대한 인식이 아직 우호적이지 않은 점 등을 고려하면 실제 현실화하기까지는 시간이 걸릴 것으로 보인다.
이교구 수퍼톤 대표는 더밀크와의 인터뷰에서 “하이브에 있는 크리에이터나 아티스트들이 우리 기술을 활용할 수도 있겠지만, 목표 타겟이 하이브의 어떤 아티스트를 위한 제품은 아니다. 저작권 논란이 있는 만큼 실존 인물의 목소리를 활용할 계획도 없다”고 강조했다.
다만 수퍼톤은 디즈니플러스의 오리지널(자체 제작) 시리즈 ‘카지노’에서 주인공 배우 최민식의 젊은 시절 목소리를 구현하거나, 2023년 넷플릭스 ‘마스크걸’에서 마스크를 쓰면 새로운 인격으로 변하는 주인공을 묘사하기 위해 새로운 음색을 제공하는 등 제작사 협업에 의한 실존인물 음성은 제작하고 있다.
더밀크는 AI 기술 비즈니스와 함께 기술이 사회에 미치는 영향을 다루고 있습니다. 의견, 제보 등을 Sejin@themiilk.com 으로 보내주세요. 더밀크는 구독자 여러분의 의견을 콘텐츠 제작에 적극 반영하고 있습니다.