오픈AI는 왜 ‘코드 레드’를 발령했나?

reporter-profile
박원익 2025.12.03 07:54 PDT
오픈AI는 왜 ‘코드 레드’를 발령했나?
샘 알트만 오픈AI CEO (출처 : 제미나이/ 편집: 더밀크)

[위클리AI브리핑] 2025년 11월 26일~12월 02일
💯성능 압도 제미나이+딥시크 V3.2
👩🏻‍🎓박사급 AI라는데 왜 실수를 할까?
💻‘컴맹’ 문과생도 뚝딱: AI 코딩 해보자
💡인사이트: 엔비디아 미래, 여기에서
➕더밀크가 주목한 뉴스

안녕하세요, 더밀크 구독자 여러분을 위한 AI 뉴스레터 박원익의 AI인사이트입니다. 

“오픈AI가 ‘코드 레드(Code Red, 위기 경보)’를 발령한 이유는 바로 이것입니다.”

실리콘밸리 VC 멘로벤처스의 AI 투자자 디디 다스는 챗GPT 트래픽 변화가 오픈AI 내부의 위기감을 자극했을 것으로 분석했습니다. 상승 곡선을 그리던 챗GPT의 일일 활성 사용자 수(DAU)가 구글의 ‘제미나이 3’ 공개 이후 6% 급감했다는 것이죠. 같은 기간 제미나이 방문 추이는 챗GPT의 22%에서 31% 수준으로 크게 증가했습니다.

제미나이 3 출시 후 챗GPT 트래픽 변화 추이 (출처 : SimilarWeb, @deedydas)

실제로 오픈AI 매출 대부분은 B2C(consumer business, 소비자 대상 사업)에서 발생하며 모델 성능 기반의 사용자 증가에 의존하고 있습니다. 2022년 11월 30일 챗GPT 출시 이후 오픈AI는 줄곧 최고의 모델 개발사라는 타이틀을 지켜왔는데, 최근 그 기반이 흔들리게 된 것입니다. 

디디 다스는 “5000억달러(약 734조원)라는 오픈AI의 높은 기업 가치는 연말 목표인 연간 반복 매출(ARR) 200억달러 달성을 위한 지속적인 사용자 성장세에 의존하고 있다”며 “대규모 지출을 위해 확보한 막대한 레버리지(leverage, 외부 자금)도 마찬가지”라고 지적했습니다. 

디인포메이션에 따르면 샘 알트만 오픈AI CEO는 1일(현지시각) 내부 메모를 통해 코드 레드 발령 사실을 직원들에게 알렸습니다. 온라인 쇼핑 광고, 사용자를 위한 맞춤형 보고서를 제공하는 ‘펄스’ 등 다른 제품 출시를 연기하는 대신, 챗GPT 개선에 더 많은 자원을 투입한다는 계획입니다. 

챗GPT 출시에 위기를 느낀 구글이 코드 레드를 발령했던 것과 똑같은 일이 3년 만에 재현됐습니다. 입장이 뒤바뀐 오픈AI는 위기를 돌파할 수 있을까요?

💯성능 압도 제미나이+딥시크 V3.2

주요 프런티어 모델 벤치마크 비교 (출처 : @deedydas)

팩트 요약: 제미나이 3 프로, 클로드 오푸스 4.5가 지배

1. 오픈AI의 위기는 모델 성능을 평가하는 벤치마크 점수에서도 뚜렷이 확인됩니다.   

2. 제미나이 3 프로는 수학(AIME 2025), 인류의 마지막 시험(Humanity's Last Exam), 다단계 추론 능력을 평가(GPQA 다이아몬드), 코딩(LiveCodeBench) 등 11개 핵심 평가에서 가장 높은 점수를 기록했습니다.   

왜 중요한가: 

앤트로픽의 클로드 오푸스 4.5도 마찬가지입니다. 코딩(SWE-벤치 베리파이드), 에이전트 성능, 컴퓨터 사용 등 6개 분야 평가에서 가장 높은 점수를 기록, B2B 영역에서의 가치를 입증했습니다. 

중국의 딥시크도 가세했죠. 1일 출시된 딥시크 V3.2는 수학 분야 2개 벤치마크(HMMT 2025, IMO Answer Bench)에 가장 높은 점수를 거뒀습니다. 반면 오픈AI의 GPT-5.1 모델이 최고점을 기록한 벤치마크는 단 1개(MMMU) 뿐이었습니다.

👉더 알아보기: 효율·성능 강화한 딥시크 V3.2(기술보고서)

👩🏻‍🎓박사급 AI라는데 왜 실수를 할까?

일리야 수츠케버(Ilya Sutskever) 세이프 슈퍼인텔리전스(SSI) CEO (출처 : Dwarkesh Patel Podcast, 편집=Gemini)

팩트 요약: 의도치 않은 보상 해킹… 새로운 알고리즘 찾아야

1. 벤치마크 점수는 중요하지만, 전부는 아닙니다. 특정 영역에서 인간을 초월한 퍼포먼스를 보여주는 AI 모델이라도 종종 어이가 없을 정도의 단순한 실수를 저지르기 때문이죠. 

2. 왜 이런 현상이 나타나는 걸까요? AI 최고 전문가 일리야 수츠케버 세이프 슈퍼인텔리전스(SSI) CEO는 ‘보상 해킹’과 ‘가치 함수’에 그 답이 있다고 주장합니다. 

왜 중요한가: 

연구자들이 평가 지표에 지나치게 집중하는 방식으로 강화학습(RL) 훈련 환경을 구축하면서 이런 문제가 발생한다는 게 수츠케버의 설명입니다. 그는 인간의 감정이 학습 과정을 단축시키는 가치 함수 역할을 하고 있다는 추정도 제기하죠. 

결국 더 나은 AI를 개발하려면 지금까지의 방식에서 벗어나 지능의 본질에 가까운 새로운 알고리즘과 학습 방법론을 찾아내야 한다는 게 그의 생각입니다.

👉더 알아보기: 왜 연구의 시대인가… 비밀은 이것

💻‘컴맹’ 문과생도 뚝딱: AI 코딩 해보자

(출처 : OpenAI, 편집=박원익, Gemini)

팩트 요약: 챗GPT로 시작하는 바이브코딩

1. 잇따라 출시되는 강력한 성능의 AI 모델은 코딩의 높은 진입 장벽을 빠르게 낮추고 있습니다. 

2. 실리콘밸리에서는 AI 코딩 도구와 ‘자연어’로 대화를 나누며 코딩하는 바이브 코딩이 보편화하는 추세죠. 제미나이 3, 클로드 오푸스 4.5 등 프론티어 AI 모델이 코딩 성능을 강조하는 이유도 여기에 있습니다.

왜 중요한가: 

AI 도구를 내 것으로 만들기 위한 가장 좋은 방법은 직접 사용해 보는 것입니다. AI에 원하는 것을 설명하고, 결과물을 수정해 보는 경험이 가장 좋은 학습 방식이죠. 바이브 코딩 경험을 위한 기초적인 웹 코딩은 챗GPT로도 시도해 볼 수 있습니다.

👉더 알아보기: 바이브 코딩 도전, 일단 시작하라①

💡인사이트: 엔비디아 미래, 여기에서

퐁텐블로 호텔 (출처 : Nvidia, modernluxury.com, 편집=Gemini)

오늘의 레터에서 다룬 세 가지 이슈에서 한발 더 나아가 더밀크만의 뷰(view)를 제공해 드리는 위클리 인사이트 코너입니다. 

이번 주는 오는 1월 라스베이거스에서 열리는 CES2026을 앞두고 엔비디아가 제품 실물과 향후 로드맵을 공개할 ‘퐁텐블로 호텔 전시관 미리보기’ 기사를 준비했습니다. 피지컬 AI와 양자 컴퓨팅이 핵심 아젠다가 될 전망입니다.

👉위클리 인사이트: ‘실체의 시대’ 진입… 변화를 확인하라(무료)

➕더밀크가 주목한 뉴스

런웨이의 새로운 모델 Gen-4.5로 생성한 영상 캡처 (출처 : Runway)
  • 런웨이, 새로운 비디오 모델 Gen-4.5 출시AI 스타트업 런웨이는 1일(현지시각) 새로운 비디오 생성 모델 ‘Gen-4.5’를 출시했다고 발표. 아티피셜 애널리시스(Artificial Analysis)가 평가한 ‘텍스트-투-비디오’ 리더보드에서 구글의 Veo 3를 제치고 정상을 차지

  • 중국 스타트업 콰이쇼우 ‘클링 O1’ 출시중국 스타트업 콰이쇼우는 1일 멀티모달 비디오 모델 ‘클링(Kling O1)’을 출시. 클링 O1을 사용 및 동영상 편집을 할 수 있는 창장 인터페이스까지 함께 제공하는 게 특징. 최대 7개 소스를 동시에 입력할 수 있으며 다양한 편집 기능을 제공

  • 중국 오픈 소스 AI 모델 점유율 미국 추월MIT와 오픈 소스 AI 모델 플랫폼 허깅페이스가 공동으로 진행한 연구에 따르면 중국 AI 개발사들이 개발한 모델의 다운로드 점유율이 미국 기업을 추월, 17.1%를 차지. 미국은 15.8%를 기록. 딥시크와 알리바바 큐원이 상승을 주도

구독자 여러분들의 성공과 꾸준한 성장을 위해 더밀크는 계속해서 혁신의 현장, 미래가 바뀌는 순간을 목격하고 전달해 드리겠습니다. 감사합니다. 

뉴욕에서
박원익 드림

이 기사와 관련있는 기사 현재 기사와 관련된 기사들 입니다.