‘따라올 테면 따라와 봐’ 오픈AI, o3·o4-미니 출시... 이미지로 추론

reporter-profile
박원익 2025.04.16 14:49 PDT
‘따라올 테면 따라와 봐’ 오픈AI, o3·o4-미니 출시... 이미지로 추론
오픈AI가 16일 출시한 o3 모델 이미지 기반 추론(reasoning, 사고) 예시 (출처 : OpenAI)

챗GPT 플러스(유료) 사용자 16일(현지시각)부터 사용 가능
수학·코딩 벤치마크 최고 점수... 클로드 소네트 3.7 제쳐
AI 기반 코딩 도구 스타트업 ‘윈드서프’ 인수 협상 진행 중

오픈AI가 16일(현지시각) 두 개의 새로운 AI 추론(reasoning) 모델 o3와 o4-미니를 출시했다. 14일 GPT-4.1 모델을 출시한 지 불과 이틀 만에 두 개의 새로운 모델을 선보였다.

오픈AI는 이날 회사 블로그를 통해 “응답하기 전 더 오래 생각하도록 훈련된 최신 o-시리즈 모델인 o3와 o4-미니(o4-mini)를 출시한다”며 “지금까지 출시된 모델 중 가장 똑똑한 모델”이라고 밝혔다.

이미지 기반으로 ‘생각(think)’을 할 수 있다는 점이 o3 및 o4-미니의 가장 큰 특징이다.

이미지를 AI 모델의 추론(reasoning, 사고) 과정에 통합할 수 있다는 의미다. 사용자의 손 그림, 화이트보드에 그린 그림 같은 것을 AI 모델에 보여주며 질문을 하거나 생각을 거친 답변을 얻을 수 있는 식이다. 또한 모델이 추론 과정의 일환으로 이미지를 확대하거나 회전시켜 조정할 수도 있다.

오픈AI는 “이미지가 흐릿하거나 반전돼 있거나 품질이 낮은 경우에도 모델이 이를 해석할 수 있다”며 “추론 과정의 일부로 이미지를 회전, 확대, 축소 또는 변형하는 등 즉석에서 이미지를 조작하는 것도 가능하다”고 설명했다.

수학·코딩 벤치마크 최고 점수... 클로드 소네트 3.7 제쳐

o3와 o4-미니 모델은 수학, 코딩 등 주요 벤치마크(성능 평가) 점수에서 최고 점수를 기록했다.

코딩 능력을 측정하는 테스트인 ‘코드포스(Codeforce) Elo’에서 o3는 2706점, o4-미니는 2719점을 기록해 o1의 1891점, o3-미니의 2073점을 훌쩍 뛰어 넘었고, 역시 코딩 능력을 평가하는 ‘SWE 벤치 베리파이드(SWE-Bench Verified)’에서는 o3가 69.1%, o4-미니는 68.1%의 정확도로 최첨단 성능을 입증했다. 같은 평가에서 62.3%의 정확도를 기록한 앤트로픽의 클로드 3.7 소네트(Claude 3.7 Sonnet)를 제쳤다.

수학 문제 풀이 능력을 평가하는 AIME 2024에서도 o3가 91.6%, o4-미니가 93.4%의 가장 높은 정확도를 기록했다. 같은 벤치마크에서 o1은 74.3%, o3-미니는 87.3%를 기록한 바 있다.

특히 o4-미니는 빠르고 비용 효율적인, 추론에 최적화된 소형 모델로 평가된다. 모델 크기 및 비용 대비 놀라운 성능을 발휘하므로 데이터 과학이나 대용량, 다량의 사고 처리가 필요한 상황에 적합할 것으로 보인다.

새로운 추론 모델에서는 웹 브라우징, 이미지 생성 같은 모든 챗GPT 도구도 사용할 수 있다. 16일부터 유료 요금제인 챗GPT 플러스, 프로, 팀 사용자들에게 o3, o4-미니를 제공하고, 향후 몇 주 후에는 더 강력한 버전인 o3-프로도 출시할 예정이다.

AI 기반 코딩 도구 스타트업 ‘윈드서프’ 인수 협상 진행 중

오픈AI는 이와 별도로 코드 자동 생성 도구를 제공하는 스타트업 ‘윈드서프(Windsurf)’인수 협상을 진행 중인 것으로 알려졌다.

블룸버그 등 주요 외신에 따르면 오픈AI는 윈드서프를 30억달러(약 4조2500억원)에 인수하기 위한 협상을 진행 중이다. 윈드서프는 코딩 AI 프로그램 ‘커서(Cursor)’로 유명한 애니스피어와 함께 ‘바이브 코딩(Vibe coding)’ 열풍을 주도하고 있는 기업이다.

바이브 코딩이란 AI 코딩 에이전트(agent, 대리인)와 자연어(natural language)로 대화를 주고 받으며 개발자의 직관과 감각을 더 풍성하게 활용해 코딩하는 방식을 의미한다.

오픈AI가 윈드서프를 인수하게 되면 오픈AI 역사상 가장 큰 규모의 인수합병(M&A) 사례로 기록될 전망이다.

바이브 코딩 도구 윈드서프 화면 (출처 : Windsurf)
이 기사와 관련있는 기사 현재 기사와 관련된 기사들 입니다.