AI, 왜 135조원이나 필요한가?
AI 기업들은 지금 데이터 ‘영끌’ 중
샘 알트만, 논란의 '오픈AI 스타트업 펀드' 손 뗀다
대만 지진에 놀란 AI 가슴
안녕하세요 구독자 여러분, 오픈해 주셔서 감사합니다.
바야흐로 AI 패권 전쟁 시대입니다.
마이크로소프트(MS)와 오픈AI가 1000억달러(약 135조원) 규모의 초대형 슈퍼컴퓨터 및 데이터센터 개발 프로젝트인 '스타게이트'를 추진하고 있다는 소식은 패권 전쟁의 규모를 짐작케 합니다. 135조원이라뇨. 기존 클라우드 기반 데이터 센터 건설 비용의 100배입니다. 샘 알트만은 오픈AI의 새 반도체 프로젝트를 위해 무려 7조달러를 조달하려 한다는 보도가 나오기도 했습니다.
MS와 오픈AI는 135조원을 확보, 어디에 쓸까요? 서비스 뿐 아니라 반도체, 데이터, 에너지를 확보하는데 '올인'할 것이며 이 분야에 미래 비즈니스가 있을 것입니다.
이 전쟁의 핵심이 AI 반도체로 흐르고 있습니다. AI가 미래 비즈니스의 근간이 되는 기술이 되면서 생성AI 서비스를 만드는데 필수재인 AI칩 구하기에 혈안이 되고 있습니다.
오픈AI, 마이크로소프트, 구글, 메타, 삼성 등 내로라 하는 개별 기업 뿐만 아닙니다. 미국, 중국, 일본, 유럽연합(EU) 등도 AI 반도체 부품을 만들고 패키징(조립)하는 공장을 짓는 기업에 앞다퉈 보조금을 뿌립니다. 기업전에서 국가대항전으로 번지고 있죠. AI가 기업간 대결이 아닌 국가간 패권 전쟁인 이유입니다.
<더밀크 주요 기사>
알고리즘, 사랑과 관계를 바꾼다... 앱은 필수, 만남은 선택
(영문)Technology Has Turned New York Dating Into 'Perfectionism'
아마존의 실패. 무인 매장 핵심 '저스트워크아웃' 포기 왜?
테슬라, 인도에 생산 거점 확보...수요와 생산 부진 벗어날 묘수될까?
창업가가 미국에 있는 이유: 작은 우연이 큰 결과 만든다
AI 칩에 이어 품귀 현상을 보이는 게 또 있습니다. 생성AI 서비스의 기반이 되는 대형언어모델(LLM) 등을 훈련하려면 엔진 격인 AI 가속기와 함께 방대한 양의 훈련 데이터가 필요합니다. 언어모델은 인간의 언어, 행동, 관습 등을 모방하는 구조이기 때문에 많은, 정제된 훈련 데이터를 넣어야 AI가 더 똑똑해질 수 있습니다.
AI 기업, 데이터 헝그리
현존하는 인터넷 공간에는 AI 모델 고도화에 필요한 고품질 데이터가 부족합니다. 온라인에서 사용할 수 있는 대부분 데이터는 모델을 고도화하기엔 불완전한 문장 혹은 정보인 탓이죠.
절대적인 양이 부족한 데다 저작권 문제 등으로 데이터 확보는 더 어려워지고 있습니다. 이에 마이크로소프트, 오픈AI, 구글 등 기업은 데이터 원천소스를 늘리는 한편 인공으로 데이터를 만드는 ‘합성데이터(synthetic data)’에 주목하고 있습니다.
합성데이터는 이른바 언어모델 훈련을 위해 인위적으로 만든 데이터입니다. 합성데이터는 저작권 논란이나 개인정보보호 우려에서 자유롭습니다. 데이터가 충분하지 않은 의료계에서도 합성데이터는 대안으로 꼽히죠. IBM은 기업들이 민감 데이터 사용에 따른 위험을 최소화할 수 있도록 AI 모델 훈련에 필요한 데이터를 처음부터 자체 생성하는 제품을 내놓을 정도입니다.
샘 알트만, '오픈AI 스타트업 펀드' 손 뗀다
합성데이터를 적극 활용하는 기업이자 ‘인류의 이익’을 자처하는 오픈AI의 샘 알트만 창업자는 최근 한발 물러서는 사건이 있었죠. 스타트업 투자를 위해 운영해 오던 '오픈AI 스타트업 펀드(OpenAI Startup Fund)'에서 손을 뗐습니다.
오픈AI 스타트업 펀드는 오픈AI의 기업형 벤처 캐피탈(CVC)이지만, 다른 CVC와 달리 모회사가 아닌 외부 다른 투자자들로부터 자금을 조달하는 구조입니다. 오픈AI는 비영리 법인이지만, 알트만이 사실상 펀드를 소유하며 수익 창출을 위해 투자를 한다는 비판을 받았죠.
스타트업 액셀러레이터인 Y콤비네이터 대표를 역임했던 알트만은 오픈AI 외부에서 광범위한 투자에 참여하고, 중동에서도 펀딩 활동을 벌인 사실이 드러나 자체 조사를 받기도 했습니다.
대만 지진에 놀란 AI 가슴
'귀한 몸’ AI칩 때문에 전 세계는 대만의 기상예보에도 주목하고 있습니다. 최근 대만을 강타한 강진으로 세계 최대 반도체 파운드리(Foundry, 위탁생산 전문업체) TSMC의 일부 공장의 가동이 중단되며 전 세계가 놀랐습니다.
고성능 AI 반도체 시장을 사실상 독점하고 있는 엔비디아의 GPU가 TSMC에서 생산되는 탓입니다. 전문가들은 이번 지진이 대만을 중심으로 작동하는 글로벌 반도체 산업의 리스크를 부각하는 계기가 될 것으로 관측하고 있습니다.
시장조사업체 카운터 포인트 리서치에 따르면 TSMC의 2023년 4분기 기준 전 세계 파운드리 시장 점유율은 61%에 달합니다. 미국 정부는 이와 관련, 대만 및 TSMC에 대한 의존도를 낮추기 위해 미국 내 제조 역량을 확대하는 정책을 추진하고 있습니다
최근 앤트로픽은 자사 대형언어모델인 클로드(Claude) 모델의 최신 버전에 ‘내부적으로 생성한 데이터’를 사용한 사실을 밝히며 “일부 유형의 합성데이터가 도움이 될 수 있다”고 발언했습니다. 오픈AI도 합성데이터 생성을 연구하고 있다고 WSJ에 밝혔죠.
그런데 여기서 또 질문이 남습니다. 현재 인간이 생성한 텍스트로 훈련된 AI모델은 인간의 편견, 혐오, 고정관념 등을 그대로 답습합니다. 질문의 맥락을 파악하지 못해 논란이 발생하고 있죠.
이 상황에서 AI가 만든 합성 데이터로 AI모델을 재훈련해 결과물을 내놓을 경우 이 같은 부작용이 더 클 것이란 우려가 있습니다. AI, 정말 인류의 이익에 도움이 될까요?
스칸디나비아에서
더밀크 김세진 드림