한국 대학생 두 명이 오픈AI 제쳤다... “충격적 AI 순간”

reporter-profile
박원익 2025.04.25 10:37 PDT
한국 대학생 두 명이 오픈AI 제쳤다... “충격적 AI 순간”
나리 랩스 ‘Dia’ 모델 데모(demo, 시연) 화면 캡처 (출처 : 김도엽 / 편집: 더밀크)

[위클리AI브리핑] 2025년 4월 16일~4월 22일
🎇나리 랩스 Dia, 실리콘밸리 놀라게 하다
💵미국 VC 투자, 71%가 AI… 생존법은?
🌳AX 르네상스 왔다: 뷰티·여행·은행·병원
💡인사이트: AI 반도체 미래 ‘5대 기회’
➕더밀크가 주목한 뉴스

안녕하세요, 앞서가는 더밀크 구독자 여러분을 위한 AI 뉴스레터 [박원익의 AI인사이트]입니다. 

“나리 랩스(Nari Labs)의 ‘Dia(다이아)’는 제가 본 것 중 가장 표현력이 뛰어난 AI 음성을 구현했습니다.”

에단 몰릭(Ethan Mollick) 와튼 스쿨 교수는 22일(현지시각) 소셜미디어를 통해 “충격적인 AI 모멘트(moment, 순간)였다”며 이같이 밝혔습니다. 

실리콘밸리 VC 멘로벤처스의 AI 투자자 디디 다스 역시 “Dia가 텍스트(text, 문자) 스피치(speech, 음성) 변환을 해결했다”며 나리 랩스를 언급했습니다. TTS(text-to-speech) 변환 AI의 정점을 보여줬다는 극찬이었죠. 이런 반응, 평가가 나온 이유는 무엇일까요?

🎇나리 랩스 Dia, 실리콘밸리 놀라게 하다

Dia 모델 깃허브 스타(star) 개수 추이 (출처 : GitHub)

팩트 요약: 한국 대학생 두 명, 최고 수준의 TTS AI 모델 공개

1. AI 엔지니어 김도엽님이 21일 공개한 TTS 모델 ‘Dia’는 놀라운 품질로 소셜미디어에서 큰 화제를 불러일으켰습니다.   

2. Dia의 매개변수(parameter)는 16억 개에 불과한 소형 모델이며 오픈 웨이트(open-weights, 개방형 가중치) 모델입니다. 오픈 소스 커뮤니티 플랫폼 허깅페이스, 소스 코드 저장소 깃허브에서 누구나 내려받아 사용할 수 있습니다. 

왜 중요한가: 

저도 데모(demo, 시연) 음성을 들어보고 정말 충격을 받았습니다. 현재까지 가장 앞서 있다는 주요 기업의 TTS AI 모델 대비 훨씬 자연스럽고 훌륭한 결과물이 생성됐기 때문입니다.

웃음소리, 기침을 포함한 상황의 뉘앙스까지 표현이 되고, 화재 등 응급 현장의 긴박함도 텍스트 기반으로 파악해 AI가 표현해 내는 걸 들으니 소름이 돋을 정도였습니다. 

디디 다스는 Dia가 이 분야 선두 주자인 일레븐랩스(ElevenLabs)와 세서미(Sesame)를 확실하게 제쳤다고 평가했고, 미국 테크 미디어 벤처비트는 오픈AI의 TTS 모델도 위협할 수 있다고 평가했습니다. 깃허브 스타(star, 일종의 즐겨 찾기) 개수는 사흘 만에 9000개를 돌파했습니다.

서울대 재학생 김도엽 AI 엔지니어(왼쪽)와 카이스트 재학생 성재용 AI 엔지니어(오른쪽)가 함께 Dia를 개발했다. (출처 : 링크드인, KAIST)

더 놀라운 건 이런 성과를 한국의 대학생(서울대, 카이스트) 두 명이 아무런 투자금 없이 만들어 냈다는 점입니다. 클레망 델랑그(Clément Delangue) 허깅페이스 CEO는 Dia가 허깅페이스 트렌딩(인기 모델) 1위에 오른 사진을 공유하며 “2명의 팀이 마이크로소프트, 엔비디아, 바이트댄스, 구글을 제쳤다”고 치켜세웠습니다.

김도엽 엔지니어에 따르면 나리 랩스는 구글 클라우드(TRC)의 지원으로 구글 TPU를 사용해 모델을 개발할 수 있었습니다. 결국 3개월만에 모델을 완성했고, 이번 성과를 토대로 일반 사용자용 Dia 앱을 출시한다는 계획입니다.

👉더 알아보기: Dia의 놀라운 음성 AI 시연 들어보기

💵미국 VC 투자, 71%가 AI… 생존법은?

1분기 미국 VC 투자금 AI 스타트업 집중도 (출처 : PitchBook, NVCA)

팩트 요약: 미국 VC, AI에 올인… “기술 변화 속도, 소화할 수 없을 정도”

1. 시장조사업체 피치북과 미국벤처캐피털협회(NVCA)가 함께 발표한 보고서에 따르면 지난 1분기 글로벌 VC(벤처캐피털) 자금의 57.9%가 AI 및 머신러닝(ML, 기계학습) 스타트업에 투자됐습니다. 

2. 미국 VC의 경우 이런 경향성이 더 심합니다. 무려 1분기 투자금액의 71.1%가 AI 스타트업에 몰렸습니다.

왜 중요한가: 

1분기 전 세계 AI 및 ML 분야 스타트업에 투자된 금액은 731억달러(약 104조1000억원)로 한 분기 만에 작년 1년간 투자된 금액의 절반을 넘어섰고, 미국의 경우 1분기 투자금이 2024년 1분기(46.8%) 대비 24.3%포인트 급증했습니다. 벤처투자 자금의 AI 집중 현상이 심화하고 있는 것입니다. 

투자가 마리아 팔마 프라스타일 프리스타일 캐피털 총괄 파트너는 “다른 사람이 시장을 선점할 수 있다는 두려움이 지금처럼 컸던 적은 없었다”며 “기술 측면의 변화 속도가 소화할 수 없을 정도로 빠르다”고 했습니다. 한국의 스타트업은 이런 환경에 어떻게 대처하면 좋을까요?

👉더 알아보기: 한국 스타트업 생존법 여기에 있다(무료)

🌳AX 르네상스 왔다: 뷰티·여행·은행·병원

(출처 : L’Oréal, Google)

팩트 요약: 뷰티, 여행, 은행, 병원의 AI 활용법

1. 매트 레너 구글 클라우드 글로벌 영업 총괄은 “AI는 이제 어디에나 있습니다. 최고의 기업, 정부, 연구자, 스타트업은 이미 AI 솔루션으로 업무를 개선하고 효율성을 높이고 있다”고 밝혔습니다. 

2. 실제로 구글 클라우드에 따르면 현재 400만 명 이상의 개발자가 AI 모델 ‘제미나이(Gemini)’를 활용해 다양한 애플리케이션을 개발하고 있고, AI 모델, 앱 개발·배포 플랫폼 ‘버텍스 AI(Vertex AI)’의 사용량은 20배 급증했습니다.

왜 중요한가: 

실리콘밸리에서는 LLM(대규모 언어 모델)을 비롯한 AI 모델 사용 비용이 계속 내려갈 것으로 예측하고 있습니다. 무료로 사용할 수 있는 훌륭한 오픈 소스 모델도 계속 출시되고 있습니다. 

결과적으로 AI 모델은 누구나 접근 가능한 ‘상품(commodity)’이 될 가능성이 큽니다. 이를 어떻게 활용(AX: AI 전환)하느냐, 혹은 이를 기반으로 어떤 서비스를 만드느냐가 더 중요해질 것이라는 게 전문가들의 관측입니다.

👉더 알아보기: ‘AX 르네상스’ 12가지 활용 사례(무료)

💡인사이트: AI 반도체 미래 ‘5대 기회’

GTC 2025에서 젠슨 황 엔비디아 CEO가 로봇이 등장하는 장면을 보고 있다. (출처 : 더밀크)

오늘의 레터에서 다룬 세 가지 이슈에서 한발 더 나아가 더밀크만의 뷰(view)를 제공해 드리는 위클리 인사이트 코너입니다. 

이번 주는 실리콘밸리에서 활동하는 CVC(기업형 벤처캐피털) 마이크론 벤처스의 헨리 황 투자 디렉터로부터 직접 전해 들은 인사이트를 준비했습니다. 마이크론 벤처스는 총 3억달러(약 4258억 원) 규모의 펀드를 운용하며 차세대 컴퓨팅 인프라와 AI·머신러닝 기반 솔루션을 개발하는 딥테크 초기 스타트업에 집중 투자하고 있습니다. 마이크론 벤처스가 주목한 미래 기술엔 어떤 것이 있을까요?

👉위클리 인사이트: AI 반도체의 미래 여기에서 나온다(무료)

➕더밀크가 주목한 뉴스

(출처 : Washington Post)
  • 오픈AI, 이미지 생성 모델 API 출시오픈AI가 22일(현지시각) 고성능 이미지 생성 모델인 ‘gpt-image-1’을 API(애플리케이션 프로그래밍 인터페이스)로 출시. 이 모델을 사용하면 다양한 스타일, 정확한 텍스트 렌더링, 향상된 이미지 편집 등을 통해 고품질 이미지를 생성할 수 있음. 어도비, 피그마, 캔바 등 디자인 및 크리에이티브 도구 기업들이 이 모델을 통합해 사용 중.

  • 워싱턴 포스트, 챗GPT 검색에 탑재권위 있는 미국 미디어 워싱턴 포스트가 22일 오픈AI와 파트너십 체결을 발표. 챗GPT가 사용자 질문에 답변을 내놓을 때 워싱턴 포스트 기사 요약 내용 및 원문 보도 링크를 표시한다는 계획. 구글 중심의 검색 환경이 AI 챗봇 중심으로 바뀌는 메가 트렌드를 반영.

  • 앤트로픽, 실제 대화 분석한 AI ‘가치 지도’ 공개앤트로픽은 21일 30만 건 이상의 실제 대화를 분석해 AI 모델이 갖춘 3000개 이상의 ‘가치’를 찾아 분석, 지도로 정리. 5가지 유형의 가치(실용, 지식, 사회, 보호, 개인)로 분류하고, 실용 및 지식 가치가 가장 많았다고 분석. AI 모델이 어떻게 가치 판단을 내리는지에 대한 힌트를 제시.

더밀크 혁신원정대는 GTC 2025, 4월 라스베이거스에서 열린 구글 클라우드 넥스트 2025를 현장 커버했습니다. 5월 마이크로소프트 빌드, 실리콘밸리 마운티뷰에서 열리는 구글 I/O 등 빅테크가 주도하는 기술 혁신, AI 혁명을 계속해서 취재해 전해드릴 예정입니다. 

많은 관심 부탁드립니다. 감사합니다. 

실리콘밸리에서
박원익 드림

더밀크 회원으로 가입하시면 실리콘밸리에서 나오는 혁신 비즈니스 트렌드와 자본의 흐름을 가장 먼저 파악하고 앞서갈 수 있습니다. 주 4회 뷰스레터를 무료로 제공합니다. 유료 회원으로 업그레이드하시면 더밀크 콘텐츠를 제한없이 보고 더밀크의 스페셜 리포트를 받아보고 이벤트에 참석하실 수 있습니다.

더밀크 회원 가입하기 

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.