옴니모델 - 더밀크

인간처럼 '보고 듣고 말하고'를 한번에... 오픈AI, 옴니모델 GPT-4o 출시

오픈AI는 13일(현지시각) 진행한 스프링 제품 업데이트 라이브 스트리밍 이벤트에서 새로운 AI 모델 GPT-4o를 공개했다. GPT-4o는 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델이다. 기존 GPT 모델이 프롬프트를 데스크톱이나 모바일을 통해 글자(텍스트)를 입력하는 것에 그쳤다면 GPT-4o는 음성, 텍스트, 시각 등 다양한 인간의 활동을 입력, AI가 추론하고 그 결과를 거의 실시간으로 내놓을 수 있도록 한 것이다. GPT-4o의 o는 모든 것을 아우른다는 의미인 ‘옴니(omni)’에 따왔다. 이날 발표는 샘 알트만 CEO가 아닌 미라 무라티 CTO(최고기술책임자)가 무대에 올라 주요 기능을 설명했다.발표를 맡은 무라티 오픈AI CTO는 “GPT-4o는 GPT-4 터보 대비 2배 빠른 API(애플리케이션 프로그래밍 인터페이스)를 제공한다”고 밝혔다. 전 세계 인구 97%가 사용하는 50개 언어를 지원하며 텍스트 및 이미지 기능은 무료로 사용할 수 있다. GPT4o는 새로운 데스크톱 UI(사용자 인터페이스)를 통해 마치 '코파일럿' 처럼 작동할 수 있게 했다. 기존 GPT4 터보에 비해 2배 빠르고 50% 저렴하며 글자 제한도 5배나 높였다. 또 사람의 감정과 얼굴 표정도 인식하면서 현장에 참석한 오픈AI 직원들의 큰 박수를 받았다. 무라티 CTO는 “GPT-4o는 GPT-4 레벨의 지능을 더 빨리 제공한다"고 강조했다. 사람이 물흐르듯 대화하듯 빠른 반응을 내세운 것이다. 실제 GPT-4o의 평균 응답 시간은 232밀리초인데 이는 평균 320밀리초로 대답하는 인간과 비슷하다. GPT-3.5는 평균 2.8초의 응답 시간을, GPT-4가 5.4초였다.

박원익 2024.05.13 10:14 PDT