[단독] 일론 의견 주입·극단적 선택 조언... AI 문제 어떻게 해결할까?

reporter-profile
박원익 2025.07.24 18:50 PDT
[단독] 일론 의견 주입·극단적 선택 조언... AI 문제 어떻게 해결할까?
마이클 컨스(Michael Kearns) 펜실베이니아대학 컴퓨터 및 정보과학과 교수 (출처 : 더밀크 박원익, 디자인=김현지)

AI 안전·규제 전문가 마이클 컨스 펜실베이니아대 교수 단독 인터뷰
편향 왜 생길까?... 가장 넓은 범위에서 공정성 훈련해야
데이터 수집·가드레일 중요... 인간 피드백으로 구축
한국, 이미 과학·기술 강국… 글로벌 시민 의식 필요
“우려를 과학적 해결책으로 전환하는 방법 훈련하라”

‘이스라엘과 팔레스타인에 대한 일론 머스크의 견해를 검색 중입니다.”

지난 10일(현지시각) 공개된 xAI의 최신 AI 모델 ‘그록4(Grok 4)’가 보여준 사고방식은 전 세계에 큰 충격을 던졌다. 논란이 되는 질문을 던지면 xAI의 설립자인 일론 머스크의 입장을 먼저 참조하는 방식으로 작동한다는 사실이 확인됐기 때문이다. 

xAI는 이후 그록4의 시스템 프롬프트(system prompt, AI 챗봇에 대한 일련의 지침)를 수정해 이 문제를 해결했다고 밝혔지만, 이 사건은 특정인이나 특정 기업의 관점을 강화하고 주입하는 ‘에코 체임버(echo chamber, 반향실)’ 효과가 언제든 AI에 적용될 수 있다는 우려를 불러일으켰다. 

AI가 우리 삶에 미치는 영향이 커지면서 독성(toxicity), 환각(Hallucination), 개인 정보 보호 같은 문제도 함께 대두되는 추세다. 더 리스닝 앱(The Listening App)에 따르면 이미 미국인의 60%는 일주일에 한 번 이상 AI 도구를 사용하며 6명 중 1명은 일상생활에서 AI에 의존하고 있다고 답했다. 플로리다에서는 10대 소년이 AI 챗봇의 조언을 듣고 극단적 선택을 하는 충격적인 사건이 발생하기도 했다.  

이런 문제를 어떻게 해결하면 좋을까? AI 안전·규제 분야 전문가 마이클 컨스(Michael Kearns) 펜실베이니아대학 컴퓨터 및 정보과학과 교수는 더밀크와의 인터뷰에서 AI가 서비스할 그룹을 대표하는 데이터를 충분히 확보하는 것과 AI가 제시하는 편향, 불공정, 독성 답변에 대한 ‘가드레일(Guard rail)’을 설정하는 것이 중요하다고 강조했다. 결국 인간이 적극적으로 개입해야 문제를 해결할 수 있다는 것이다. 

2020년부터 아마존 학자(Amazon Scholar)로 활동하며 AWS ‘RAI(Responsible AI)’팀을 설립한 컨스 교수를 AWS 서밋 뉴욕 2025 컨퍼런스에서 만나 책임감 있는 AI를 어떻게 구현할 수 있는지, 소버린 AI 관점에서 한국이 어떤 전략을 취하면 좋을지, 한국의 젊은 과학자들에게 전하고 싶은 조언은 무엇인지 물었다.

다음은 인터뷰 전문

제목 혹은 초록에 AI 편향, AI 윤리와 관련 주제가 포함된 논문 수 추이 (출처 : https://www.kaggle.com/code/sodipepaul/addressing-bias-and-promoting-fairness-in-ai)

책임감 있는 AI를 만들기 위해 어떤 일을 하고 있는지 소개해 달라. 

AWS에서 다른 연구원들과 달리 독특한 위치에 있다. 다른 연구원들은 조직 내에서 다양한 부서를 경험하며 적합한 기술팀을 찾는 경우가 많은데, 저의 경우 스와미 시바수브라마니안 AWS 에이전틱 AI(Agentic AI) 담당 부사장에 의해 특별히 영입돼 조직 내 첫 번째 중앙 집중형 RAI(Responsible AI)팀을 설립하는 역할을 맡았다. 

스와미와 다른 리더들과 아마존 내 다른 부서와 협력해 중앙 집중형 팀을 구축했는데, 이 팀은 몇 가지 기능을 담당한다. 그중 큰 부분은 기술적 측면이다. 제품 및 서비스 팀과 협력해 AI 관련 문제를 중심으로 제품과 서비스를 평가한다. 예를 들어 인구 통계적 편향이나 특정 그룹에서 모델의 성능이 저하되는 경우 등이 포함된다. 

이를 위해 제품 및 서비스 팀과 협력해 데이터를 수집하고 테스트를 설계한다. 도출된 결과가 만족스럽지 않으면 제품 팀과 협력해 문제를 해결하는 방법을 모색한다. 이런 문제를 해결하는 방법은 매우 다양하지만, 팀의 주요 역할은 제품 및 서비스 팀과 협력해 AI 모델이 공정하고, 개인정보를 보호하며 견고한지 확인하는 것이다.

고객과의 미팅도 많이 진행하고 있다. 고객이 책임감 있는 AI라는 주제에 대해 어떻게 생각하고, 어떤 우려를 하고 있는지 이해하는 가장 좋은 방법이기 때문이다. 그룹 미팅과 1대1 미팅을 모두 진행한다. 

책임감 있는 AI는 규제와도 밀접한 연관이 있을 것 같은데.

공공 정책 및 규제 팀과 협력해 미국 및 기타 지역에서 새롭게 등장하는 규제 및 입법 동향을 추적하고 있다. 

다양한 국가의 규제 프로세스를 확인하고, 기업이나 감시 단체 등으로부터 의견도 수렴한다. 저는 이 과정에서 공공 정책 및 법무팀과 협력해 규제를 분석하고, 어떤 부분이 합리적이고 공정한지, 어떤 부분이 합리적이지 않은지 고민한다. 그렇게 도출한 결과를 바탕으로 AWS의 응답을 작성하는 데 도움을 준다. 

RAI 팀은 우수한 과학자들로 구성돼 있다. 책임감 있는 AI에 대한 연구를 진행하고 논문도 발표한다. 예를 들어, 지난 몇 년간 AI 모델에 대한 개인 정보 보호 공격 및 방어를 체계적으로 개발하는 데 많은 시간을 투자해 왔다. 모델에 대한 프라이버시 공격을 체계적으로 개발하고, 그 공격에 대한 방어 방법을 찾는 내용이다. 

AI 편향의 주요 원인은 무엇이며 이를 완화하기 위해 어떤 접근 방식이 적용될 수 있을까? 

첫째, 가장 명백한 원인은 특정 그룹에 대한 데이터가 충분하지 않다는 것이다. 그 그룹을 대표하는 데이터가 충분하지 않으면 모델이 다른 그룹과 동일한 성능을 내는 것을 기대할 수 없다.

주요 원인이 이것이라면 개념적 해결책은 간단하다. 해당 그룹에 대한 더 대표성 있는 데이터를 더 많이 수집하는 것이다. 이는 시간과 비용이 많이 들 수 있지만, 해야 할 일이다. 제가 속한 중앙 집중형 RAI 팀이 주로 하는 일이 이것이다.

훈련 과정 자체에서 편향을 완화하려는 경우도 마찬가지다. 머신러닝의 과학적 원리는 매우 단순하다. 모델의 매개변수(parameters), 신경망의 가중치(weight)를 찾아 전체 데이터 세트에서 오류를 최소화하는 것이다. 

하지만 이는 데이터 세트 내 모든 그룹에서 동일하게 잘 수행된다는 것을 의미하지 않는다. 머신러닝은 모델을 훈련하는 방식에 명시적으로 요구하지 않은 것을 그냥 제공하지 않기 때문이다. 따라서 모델 훈련 단계에서 문제를 해결하려면 목표를 ‘전체 오차를 최소화하는 것’에서 ‘전체 오차를 최소화하되, 다양한 그룹 간의 오차가 수치상으로 동일하지는 않더라도 특정 허용 범위 내에 있도록 하는 조건이나 제약을 추가하는 것’으로 변경해야 한다. 예를 들어 ±1% 또는 ±5% 같은 허용 범위를 설정하는 방식이다. 

다른 방법도 있나. 

또 다른 방법은 제가 ‘구성 부족(lack of composition)’이라고 부르는 것인데 예를 들어, 신용 평가 모델을 개발하는 회사라고 가정해 보자. 사람들의 금융 이력을 수집하고, 그들의 신용도나 신용 상태를 평가하는 점수를 부여하는 모델이다. 

이 모델이 편향되지 않도록 하기 위해 기술적으로 유사한 신용 이력을 가진 사람들이 유사한 신용 점수를 받도록 하는 방법을 사용할 수 있다. 이 경우 공정성이 모델에 내재돼 있지만, 모델을 통해 신용 점수를 건네받는 대출업체는 그 점수를 그대로 사용할 수 없다. 결정을 내려야 하기 때문이다.

누군가의 신용 점수가 573이라고 알려줄 수 있지만, 그건 결정이 아니라 그냥 숫자일 뿐이다. 결국 이 사람에게 대출을 줄지 말지는 따로 결정을 해야 한다. 가장 자연스러운 방법은 임곗값을 설정해 예컨대 ‘신용 점수가 550 이상인 사람은 대출을 해주고, 550 미만인 사람은 안 준다’고 정하는 것이다.

그런데 이렇게 하면 신용 점수가 매우 유사한 두 사람이 완전히 다른 결과를 받을 수 있게 된다. 한 사람은 551이고 다른 사람은 549일 수 있다. 결국 공정한 모델을 만들 수는 있지만, 실제 적용 단계에서 처리되는 과정에서는 불공정성이 다시 제기될 수 있는 것이다. 이는 실제로 과학 문헌에서 매우 활발히 연구되는 분야이기도 하다. 

따라서 모델을 가능한 가장 넓은 범위에서 공정성을 유지하도록 훈련하는 것이 중요하다. 이는 편향이 어떻게 모델에 스며들 수 있는지, 그리고 그 해결책이 무엇인지에 대한 주요 사례 중 일부다.

AI 편향 예시 (출처 : pixelplex)

최근 생성형 AI와 관련된 윤리적 문제, 예를 들어 그록4 사례나 생성형 AI가 제기하는 환각, 독성 문제가 대두되고 있다. 이런 문제는 어떻게 해결할 수 있나.

책임 있는 AI는 어려운 주제인데, 생성형 AI 시대에 들어서면서 더 복잡해졌다. 생성형 AI 이전에도 편향, 개인정보 보호 등에 대한 우려가 있었지만, 이제는 환각, 지식 재산권, 독성 등과 같은 새로운 문제들이 등장했다.

예를 들어, 아까 언급한 신용 점수를 산정하는 모델을 생각해 보자. 오류가 발생하거나 공정하지 않을 수 있지만, 이를 환각이라고 부르지는 않는다. 신용 점수 553을 받은 것을 독성이라고도 부르지 않는다. 그러나 이제 AI 모델이 개방형으로 언어, 이미지를 생성하기 시작하면서 이러한 문제들이 우려의 대상이 되고 있다. 

독성 문제의 경우, 과학자로서 문제를 해결하려면 먼저 명확한 문제 정의가 필요하다. 문제에 대한 좋은 정의가 출발점이다. 공정성이나 개인정보 보호 같은 경우 이미 기술적으로 꽤 좋은 정의가 정립돼 있다. 

하지만 독성 같은 경우 그렇지 않다. 왜냐하면 맥락에 따라 달라질 수 있기 때문이다. 예를 들어, 같은 사람이라도 같은 콘텐츠를 특정 상황에서는 유해하다고 느끼지만, 다른 상황에서는 그렇지 않다고 느낄 수 있다. AI 챗봇이 출력한 콘텐츠라고 할 경우 유해하다고 느끼면서도 유명한 소설의 인용문이라고 하면 그렇지 않을 수도 있다. 사람들이 느끼는 독성에 대한 주관적인 개념, 정도도 매우 다를 수 있다. 그래서 이 문제를 정의하는 게 어렵다. 

이런 상황에서 우리가 취할 수 있는 기술적 접근 방식은 ‘가드레일 접근 방식’이다. 즉, 많은 사람들에게 많은 콘텐츠를 보여주고 독성 수준과 유형을 라벨링(labelling)하도록 요청하는 거다.  

그리고 LLM(대규모 언어 모델)을 모니터링하는 다른 모델을 훈련시켜 독성이 발생할 때, 예를 들어 프롬프트나 출력이 독성적일 때 알림을 받는 방식을 사용할 수 있다. 이때 AI 모델은 ‘죄송합니다. AI 모델로서 해당 질문에 어떻게 답변해야 하는지 알려드릴 수 없습니다’와 같은 메시지를 전송하게 된다.

환각의 경우 최근 연구에서 환각이 발생하는 이유를 이해하기 시작했다. 따라서 이를 완화하는 방법도 연구되고 있다. 이 분야는 독성보다 과학적으로 더 논의할 여지가 많다고 생각한다.

특정 모델을 한정하지 않고, 일반적으로 말한다면 모델 훈련에 입력하는 데이터와 그 데이터로 모델을 훈련하는 방식이 모델의 출력 결과에 큰 영향을 미치게 된다. 아시다시피 ‘쓰레기를 넣으면 쓰레기가 나온다’는 컴퓨터 과학 용어가 있다. 훈련 시 독성 콘텐츠를 많이 넣으면 출력에도 독성 콘텐츠가 많이 나올 거라고 예상할 수 있다. 

AI 안전 문제를 해결한 구체적인 사례를 소개해 준다면.

제가 처음 AWS에 합류했을 때는 RAI가 중앙화되지 않았었다. 개별 제품 및 서비스 팀에서 자체적으로 이 기술에 어떤 우려가 있는지, 어떤 테스트를 수행해야 하는지를 자체적으로 판단했다. 

이 팀이 설립된 후 변화한 점은 프로세스를 합리화하고 중앙화함으로써 안전, 윤리와 관련한 주제들에 대한 공통된 기준과 사고방식을 적용하게 됐다는 것이다. 예를 들어, 팀 설립 초기에 얼굴 인식 팀과 협력해 얼굴 인식의 편향성과 공정성에 대한 심층 연구를 진행한 사례가 있다.

가드레일 개발에도 매우 적극적으로 참여했다. 단순히 독성 콘텐츠나 고정관념에 입각한 언어 등을 필터링하는 것뿐 아니라 사용자가 맞춤형으로 설정할 수 있도록 솔루션을 설계했다. 예를 들어, 기업이 챗봇을 개발할 때 챗봇이 자사 제품에 대한 정보를 제공하지만, 경쟁사 제품에 대해 언급하지 않도록 하고 싶을 수 있다. 

이는 챗봇이 기본적으로 수행하는 기능이 아니기 때문에 챗봇에게 ‘경쟁사 제품에 대해 말하지 말라’라고 지시해야 한다. 이게 바로 가드레일 모델의 한 종류이며 ‘고객 맞춤형 가드레일’이 가능하다. 

모든 가드레일 모델은 독성이나 감정 같은 요소를 평가하기 위한 ‘주석이 달린 인간 피드백(Human Feedback)’을 수집하는 기술의 집합체라고 생각한다. 예를 들어, LLM의 출력을 사람들에게 보여주고 ‘이 문장은 긍정적인가요, 부정적인가요?’라고 묻는 것과 비슷하다. 사용자가 라벨을 붙이면 주관적이고 다양한 인간의 관점이 주석으로 달린 데이터로 전환, 모델이 새로운 데이터가 입력됐을 때 그 행동을 재현할 수 있도록 훈련하는 것이 목표다.

고속도로에 가드레일이 안전 운전을 보장하듯, AI에도 가드레일이 필요하다 (출처 : Shutterstock)

한국은 AI 기술 강국으로 자리매김하기 위해 노력하고 있다. 책임감 있는 AI 생태계를 구축하며 글로벌 AI 강국으로 도약하려면 어떤 정책적, 기술적, 사회적 노력을 기울여야 할까.

과학자로서 한국이 컴퓨터 과학 및 기술 분야에서 이미 주요 강국이며 오랜 기간 그 위치를 유지해 왔다는 점을 잘 알고 있다. 특별한 조언을 드릴 수는 없지만, 글로벌 시민으로서의 역할을 계속해 주시길 기대한다.

AWS는 당연히 업계 동향을 주시하고 있다. AI 산업에서 일어나는 일들을 관찰하며, 우리가 준수해야 할 규제를 살펴보고 있다. 저와 공공 정책, 법적 및 규제 팀이 많이 하는 일은 세계 시민으로서 자신을 바라보고, 전 세계 각 지역에서 규제 논쟁이 어떻게 진행되는지 관찰하는 것이다. 그리고 지역마다 민감도가 다르다는 것을 기억하는 것이다. 예를 들어, 역사적으로 EU의 기술 및 데이터 규제는 미국보다 더 강력하다고 할 수 있다. 

한국이 자체 정책을 수립하고 시행할 것이라는 점은 분명하지만, 기술은 이미 오래전에 글로벌화됐다. 장벽을 허무는 것, 그게 바로 기술의 힘이다. 인터넷과 웹이 일반 시민들의 소통 장벽을 허물었다는 걸 우리는 알고 있다. 

과거에는 뉴스를 소비하는 방식도 매우 지역적이었다. 예를 들어, 특정 국가의 신문이나 텔레비전 프로그램이 전부였다. 25년 전만 해도 세계의 다른 곳에서 무슨 일이 일어나고 있는지 다른 사람들이 어떻게 생각하는지 알아내는 것이 매우 어려웠다.

저의 조언은 한국이 과학 분야에서 지금까지 해온 것처럼 계속 선도적 역할을 해야 한다는 것이다. 한국에 필요한 자체적인 정책, 규제를 개발하더라도 AI는 글로벌한 기술이라는 점을 기억할 필요가 있다. 

AI 시대에 경력을 시작하는 젊은 연구자들과 개발자들에게, 특히 한국에 있는 분들께 조언을 해준다면.

AI와 머신러닝에 대한 우려가 나올 때 해당 분야에 종사하는 사람들조차 이런 문제가 불가피하다고 생각하거나, 해결책은 기술 자체를 규제하는 것뿐이라고 보는 경우가 있다. 컴퓨터 과학이나 AI를 전공하는 대학생들도 마찬가지다.  

그러나 저의 태도는 항상 이러했다. 우리가 이 기술을 설계했고, 공학적으로 구현했고, 만들지 않았나. 만약 사회가 이런 AI 모델의 행동 방식에 문제가 있다고 하고, 싫어한다면 과학자나 공학자로서 우리는 먼저 기술을 고치려고 노력해야 한다고 생각한다.  

그래서 제 조언은 한국에서 AI를 공부하는 대학생들도 책임 있는 AI에 대한 과학적 문헌을 공부하고, 그 우려가 무엇인지 이해하도록 장려해야 한다는 것이다. 예를 들어, 사람들이 모델의 인구 통계적 편향에 관해 이야기할 때 그게 정확히 무엇을 의미하는지 이해하는 것부터 시작해야 한다.

그리고 그 의미를 훨씬 더 정량적인 것으로 전환할 수 있다. 어떤 인구 통계적 그룹이 문제인지, 그리고 이 그룹들 사이에서 성능 지표가 얼마나 크게 변동되는지 확인할 수 있다. 그리고 문제를 그런 기술적 용어로 표현하면 단순한 규제적 해결이 아닌 기술적 해결책을 찾아볼 수 있다. 

전 세계는 기술적으로 훈련된 젊은 인재가 더 필요하다. 동시에 AI에 대한 우려와 AI로 인한 문제를 과학적 해결책으로 전환하는 방법을 생각하는 훈련도 필요하다. 저는 펜실베이니아 대학교에서 학부생들에게 이 주제에 대해 강의하고 있다. 한국의 주요 대학에서도 그런 노력이 있을 것으로 생각한다.

(출처 : Lex Fridman)

마이클 컨스 교수는 누구?

마이클 컨스 교수는 UC버클리에서 수학 학사 학위, 하버드에서 컴퓨터 사이언스로 박사 학위를 취득했다.

2002년부터 펜실베이니아대 컴퓨터 및 정보과학과 교수로 근무하고 있다. 모건 스탠리를 비롯한 월가 IB에서 AI 어드바이저로 일하기도 했으며 2020년부터는 아마존 학자(Amazon Scholar)로서 AWS ‘RAI(Responsible AI)’ 팀에서 실제 모델의 공정성 제고, 편향 감소, 개인 정보 보호 기능 수립에 적극적으로 기여하고 있다. AI 분야 팟캐스터로 유명한 렉스 프리드만(Lex Fridman)과 인터뷰를 진행하기도 했다.

공공 정책 싱크탱크인 ‘더 내셔널 센터(The National Center)’의 의장으로 재직 중이며 미국 과학한림원(National Academy of Sciences), 미국 예술과학아카데미(American Academy of Arts and Sciences), 컴퓨터학회(Association for Computing Machinery), 인공지능학회(Association for the Advancement of Artificial Intelligence), 경제이론학회(Society for the Advancement of Economic Theory) 펠로우로 선정된 바 있다. 저서로는 ‘알고리즘 윤리(The Ethical Algorithm)’가 있다. 

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.