“모든 지표에서 인간 능가”... 드디어 공개된 GPT-5, 핵심 특징은?

reporter-profile
박원익 2025.08.07 12:46 PDT
“모든 지표에서 인간 능가”... 드디어 공개된 GPT-5, 핵심 특징은?
샘 알트만 오픈AI CEO가 7일 GPT-5 출시를 발표하고 있다. (출처 : OpenAI)

오픈AI, 7일 최신 AI 모델 GPT-5 공개
언어 모델과 추론 모델 통합... 스스로 모델 고르는 라우터 시스템
GPQA 88.4% 역대 최고... 코딩 벤치마크 74.9%
도구 아닌 파트너, 협력자로서의 AI 시대 개막

오픈AI가 강력한 성능의 최신 AI 모델 ‘GPT-5’를 7일(현지시각) 공개했다.

샘 알트만 오픈AI CEO는 전날 진행한 사전 간담회에서 “GPT-5와 대화하면 박사급 전문가와 대화하는 것과 같은 느낌을 받을 수 있다”며 “GPT-5는 큰 도약이며 범용인공지능(AGI)을 향한 중요한 진전”이라고 강조했다. 

GPT-5는 오픈AI의 언어 모델과 추론 모델인 ‘o’ 시리즈를 통합한 게 특징이다. 단순한 언어 모델을 넘어 복잡한 논리적 사고와 다단계 문제 해결 능력을 갖춘 추론형 AI로 진화한 것이다. 

모델 통합에 따라 앞으로 사용자들은 챗GPT 이용 시 직접 모델을 선택하지 않아도 된다. 전문가 수준의 답변을 제공하기 위해 신속하게 대응해야 할 때와 더 오래 생각해야 할 때를 스스로 파악해 답을 제시한다. 

실시간으로 웹 애플리케이션을 개발하는 시연 (출처 : OpenAI)

오픈AI는 “GPT-5는 사용할 모델을 빠르게 결정하는 ‘실시간 라우터’가 통합된 통합 시스템”이라며 “라우터는 사용자가 모델을 전환할 때 응답 선호도, 측정된 정확도 등 실제 신호에 대해 지속적으로 학습, 계속 개선된다”고 설명했다. 

오픈AI는 이날 진행한 GPT-5 출시 라이브 스트리밍에서 GPT-5가 지금까지 출시한 AI 모델 가운데 가장 똑똑하고, 빠르고, 가장 유용한 모델이라고 강조했다.

특히 코딩, 수학, 과학 등 주요 벤치마크(benchmark, 성능 평가)에서 최첨단 성능의 점수를 기록했고, 환각(hallucination) 발생률도 현저히 낮췄다.

공개한 데이터에 따르면 수학 분야 벤치마크인 AIME 2025에서 94.6%의 높은 점수를 기록했고, 코딩의 경우 ‘SWE 벤치(SWE-bench Verified)’에서 74.9%, 멀티모달 이해도를 평가하는 MMMU 점수에서는 84.2%, 건강 분야의 ‘헬스 벤치 하드(HealthBench Hard)에서는 46.2%를 기록했다. 

대학원 수준의 지적 능력을 평가하는 GPQA 역시 88.4%의 가장 높은 점수를 기록했다. 

GPT-5 코딩 성능 벤치마크 비교 (출처 : OpenAI)

코딩 성능을 보여주기 위해 외국인에게 프랑스어를 가르쳐주는 ‘웹 애플리케이션’을 개발하는 과정을 시연하기도 했다. 텍스트(text, 문자)만 입력했음에도 간단한 캐주얼 게임이 포함된 앱이 실시간으로 만들어져 구동됐으며 기능을 바꾸는 것도 가능했다.  

실제 소프트웨어 개발자가 최소 몇 시간 이상을 투입해 진행해야 하는 작업을 몇 분만에 완료한 것이다. 

‘병렬 테스트 타임 컴퓨트(parallel test-time compute)’를 사용, 더 오래 생각해 최고 품질의 답변을 제공하는 GPT-5 프로 모델도 출시했다. 

오픈AI는 무료 이용자를 포함해 챗GPT 모든 이용자에게 GPT-5를 제공한다고 밝혔다. 무료 사용자가 GPT-5 사용 한도에 도달하면 더 작은 모델인 GPT-5 미니(GPT-5 mini)로 전환된다. 

유료 요금제인 플러스(Plus) 사용자들은 더 많은 사용량을 경험할 수 있으며 가장 비싼 요금제인 프로(Pro) 사용자들은 무제한으로 이용할 수 있다. 엔터프라이즈 및 에듀 요금제 사용자는 1주일 후 사용 가능하다.

AI 분야 전문가인 신정규 래블업 대표는 “공개된 GPT-5를 보니 한 시대가 끝났다는 느낌을 받았다”며 “모든 지표에서 인간을 넘었다. AI가 인간의 도구에서 파트너로, 어쩌면 그 이상으로 진화하는 시점”이라고 했다.

이 기사와 관련있는 기사 현재 기사와 관련된 기사들 입니다.