“결국 오픈 소스 AI가 이긴다”... 메타, ‘라마 3.1’ 발표의 의미
[LLM 전쟁] 진격의 라마
MMLU 88.6%... 오픈AI GPT-4o와 비슷
앤트로픽 클로드 3.5 소네트 뛰어넘어
라마 3.1 405B, 오픈형 모델 중 최대 규모
저커버그 CEO “내년부터 라마 최신 모델이 가장 앞설 것”
메타가 역대 최고 성능의 개방형 인공지능(AI) 모델 라마(Llama)의 업데이트 버전(라마 3.1)을 내놨다. 생성AI 성능을 좌우하는 매개변수가 4050억개(405B)로 오픈형 모델 중 최대 규모를 자랑한다.
마크 저커버그 메타 CEO는 "오픈 소스 운영체제(OS) 리눅스(Linux)는 오늘날 클라우드 컴퓨팅과 대부분의 모바일 장치를 실행하는 업계 표준으로 자리 잡았다”며 “AI 모델 역시 비슷한 방식으로 발전할 것으로 믿는다”고 의미부여했다.
또 "여러 기술 기업이 선도적인 폐쇄형 모델을 개발하고 있지만, 오픈 소스가 그 격차를 빠르게 좁혀가고 있다”며 “내년부터는 라마가 업계에서 가장 뛰어난 모델이 될 것으로 예상한다”고 강조했다.
라마3.1 왜 중요한가?
메타가 주장하는 라마 3.1 405B의 성능은 오픈AI의 최신 AI 모델인 GPT-4o, 앤트로픽(Anthropic)의 최신 AI 모델 ‘클로드 3.5 소네트’와 비슷한 수준이다. 폐쇄형 모델 대비 저렴한 비용으로 구축할 수 있는 오픈형 모델이라는 점에서 업계에 적잖은 파장을 불러일으킬 것으로 관측된다.
마크 저커버그 메타 CEO는 23일(현지시각) ‘오픈 소스 AI가 나아갈 길’이란 제목의 서한을 통해 메타의 최신 AI 모델을 소개했다.
저커버그 CEO는 “메타는 오픈 소스 AI가 업계 표준이 되는 다음 단계로 나아가고 있다”며 “라마 3.1 405B 모델은 폐쇄형 모델에 비해 비용 대비 성능이 훨씬 뛰어날 뿐만 아니라 모델을 미세조정하거나 증류(distilling)해 더 작은 모델을 만드는 데 가장 적합한 선택이 될 것이다”고 의미부여했다.
라마 3.1 무엇이 다른가?
메타에 따르면 세 종류의 라마 3.1 모델 학습에 15조 개 이상의 토큰이 사용됐다. 영어를 포함해 아랍어, 벵골어, 독일어, 힌디어, 포르투갈어, 태국어, 스페인어 등 8개 언어를 지원한다.
AI에 요청을 할 때 한 번에 입력할 수 있는 데이터 용량을 의미하는 ‘컨텍스트 창(context window)’ 크기가 12만8000 토큰(의미를 지닌 최소 단위)으로 라마 3 대비 16배 늘었다는 점도 특징이다. 12만8000토큰은 대략 50페이지 분량의 책 한 권 길이다.
가장 큰 강점은 오픈형 모델 중 가장 강력한 성능을 갖췄다는 점이다. 메타가 공개한 벤치마크(성능 평가) 자료에 따르면 라마 3.1 405B는 가장 널리 사용되는 기준인 MMLU(대규모 다중작업 언어 이해. 수학, 물리학, 역사, 법률 등 57개의 다양한 주제를 포괄하는 평가)에서 정답률 88.6%를 기록, 오픈AI의 최신 모델 GPT-4o(88.7%)와 대등한 성능을 발휘했다.
이는 앤트로픽의 최신 모델인 클로드 3.5 소네트(88.3%)를 앞지른 수준이다. 경량화 모델인 라마 3.1 8B 모델 역시 동급 오픈형 모델인 구글 젬마 2 9B, 미스트랄의 미스트랄 7B 모델 대비 우수한 성능을 기록했다.
전문가들은 어떻게 평가하나?
학계, 산업계에서는 라마 3.1에 대한 기대감을 드러냈다. 오픈형 모델인 만큼 비용에 구애받지 않고 활용할 수 있기 때문이다. 라마 모델은 출시된 후 현재까지 3억 번 이상 다운로드됐으며 2만 개 이상의 라마 기반 파생 모델이 등장했다.
AI 석학으로 불리는 앤드류 응 스탠퍼드대 교수는 소셜미디어 글을 통해 “오픈 소스에 큰 기여를 해준 메타와 라마팀에 감사드린다. 기능이 개선된 라마 3.1은 모두에게 멋진 선물이 될 것”이라고 언급하기도 했다.
응 교수는 최근 정치권과 규제 당국에서 추진되는 AI 관련 규제를 의식, “최근 캘리포니아주 상원에서 통과된 법안 ‘SB1047’ 같은 어리석은 규제가 혁신을 막지 않기를 바란다”고 덧붙였다. SB1047은 ‘프런티어 모델’에 불합리한 위험이 발생할 경우 해당 모델을 차단할 수 있도록 하는 법안이다.
큰 모델이 단점으로 작용한다는 시각도 있다. 라마 3.1 405B의 경우 파라미터(parameters, 매개변수) 수가 많아 활용하려면 서버 수준의 비싼 컴퓨팅 장비가 필요할 수 있다는 관측이 나온다. 라마 3.1 405B는 1만6000개의 엔비디아 H100 GPU로 훈련된 것으로 알려졌다.
멀티모달 모델이 아니어서 이미지를 이해하거나 입력할 수 없다는 점도 단점으로 지적된다.
더밀크의 시각: 업계 표준 노리는 저커버그의 야심
메타의 이런 움직임은 더 많은 사용자 기반을 확보, 업계 표준 지위를 획득해 지배력을 강화하려는 전략으로 풀이된다. 폐쇄형 모델과 비교할 때 비용 대비 성능이 훨씬 뛰어나다는 점을 앞세워 메타 라마 중심의 생태계를 만들면 AI 분야에서 독보적 지배력을 행사할 수 있기 때문이다.
폐쇄형 모델 선두 주자인 오픈AI, 마이크로소프트, 구글, 앤트로픽을 견제하기 위한 의도도 있는 것으로 풀이된다.
생태계를 조성하기 위해 무료 도구를 제공한 후 충분한 사용자를 확보하거나 업계 표준 지위를 획득하면 추후 유료 제품과 서비스를 추가하는 움직임을 보일 것이란 관측도 나온다.
저커버그 CEO는 서한에서 “전 세계 개발자, CEO, 정부 관계자들과 대화해 보면 ‘폐쇄적인 공급업체에 종속되지 않아야 한다’, ‘데이터를 보호해야 한다’와 같은 이야기를 듣게 된다”며 “우리는 함께 힘을 모아 라마를 업계 표준으로 만들고, 모든 사람에게 AI의 혜택을 제공할 수 있다”고 강조했다.