조경현 뉴욕대 교수는 16일(현지시각) 더밀크와 진행한 인터뷰에서 “본질적으로 AI 모델(LLM, 대규모 언어 모델) 사전 훈련 데이터에 대한 투명성이 사라졌다”며 이같이 말했다. 오픈AI GPT, 구글 제미나이 등 ‘파운데이션 모델(foundation model, 기초 모델)’로 불리는 외부 LLM을 도입, 활용할 경우 데이터 투명성 부족, 새로운 지식 습득 한계, 호환성 부족 때문에 어려움을 겪을 수 있다는 주장이다. 조 교수는 “많은 기업들이 오픈AI의 폐쇄형 모델을 API(애플리케이션 프로그래밍 인터페이스)로 연동해 사용하거나 메타의 오픈형 모델 라마를 미세조정(fine-tuning) 하는 방식으로 빅테크, 실리콘밸리 AI 기업에 의존하고 있다”며 “이런 방식으로는 데이터 편향성, 종속성이라는 문제를 해결할 수 없다”고 강조했다. 조 교수는 세계적인 AI 분야 석학 중 한 명으로 꼽힌다. 특히 자연어 처리 분야 최고 전문가다. 컴퓨터 과학계 노벨상으로 불리는 튜링상 수상자인 요슈아 벤지오 몬트리올대 교수와 함께 ‘신경망 기계 번역’을 고안한 논문을 썼고, 튜링상 수상자이자 딥러닝의 대부로 불리는 제프리 힌튼 토론토대 교수의 추천으로 2018년 ‘블룸버그 주목해야 할 50인’에 선정되기도 했다. 조 교수가 언어모델 자체 개발의 필요성을 강조한 주요 근거는 무엇일까. 자체 개발을 위해 필요한 건 무엇이며 어떤 성공 사례가 있을까. AI 모델 도입, 활용, 개발을 고려하는 기업들이 꼭 참고해야 할 조 교수의 조언을 정리했다.