어떤 강력한 기술이 나올 때는 그로 인한 축복과 재앙이 함께 오는 것 같습니다. 원자력이라는 엄청난 에너지 솔루션이 개발된 후에는 우리에게 그 어떤 다른 수단보다 효율적인 전기 발전 수단으로 쓰이고 있기도 하지만, 전쟁을 위한 무자비한 살상 무기로 사용되어 끔찍한 역사를 만들어 내기도 했죠.

과연 AI/ML 기술은 인류 역사에 어떤 변화를 가져오게 될까요? 지난 Week 46 부터 여태까지 배워온 BERT와 GPT 같이 다양한 모델들을 통칭하는 기초 모델(Foundational Model)에 대해 정리하고 사회에 어떤 변화를 가져오고 있는지 다룬 논문을 리뷰하고 있습니다. 지난 글에서는 기회에 대해서 다루었다면, 이번에는 반대로 걱정과 리스크에 대해 살펴보도록 하겠습니다.

Week 46 - 4차산업혁명의 토대가 되고 있는 FOUNDATIONAL MODEL이란?
수십 년, 수백 년에 한번씩 여러 산업을 통째로 바꾸는 기술이 나옵니다. 증기 기관이 그랬고, 전기가 그랬습니다. 인공지능(AI) 역시 그럴것이라고 최근 몇 년째 모두들 이야기하고 있죠. 하지만 AI라는 단어는 이미 수십 년간 존재해왔고, 정확히 무엇을 의미하는지 매우 모호합니다.도대체 구체적으로 어떤 것이 세상을 바꾼다는 것일까요? 위클리 NLP에서는 그동안 언어 모델의 기초 [/weekly-nlp-13/]로 시작하여, BERT [/weekly-nlp-28/], GPT-3[/weekly-nlp-29/], HYPERCLOVA…

앞으로도 점점 BERT, GPT 같은 기초 모델을 응용하여 다양한 시스템을 만들텐데, "큰 모델을 쓰면 잘 된다더라"는 생각으로만 만들면 나중에 큰 문제에 직면할지도 모릅니다. 그렇기에 기초 모델이 가지고 있는 단점, 그리고 장기적인 리스크와 걱정에 대해서 이해하는 것이 머신러닝 개발에 굉장히 중요하다고 생각합니다.

감사하게도 기초 모델들의 기회와 리스크들 (On the Opportunities and Risks of Foundation Models) 논문에 이에 대해 여러 부분에 걸쳐 정리되어 있습니다. 전부 다 이 글에서 다룰 수는 없겠지만, 제가 중요하다고 생각하는 부분을 이번 글에서 이야기해보도록 하겠습니다.

단점 1: 아직도 다양성에 취약하다

기초 모델들은 엄청나게 많은 데이터를 기반으로 학습되었기 때문에, 기존의 ML/NLP 모델들보다는 여러 상황, 문제에서 더 좋은 성능을 보여주고 있습니다.

그럼에도 불구하고 우리가 사는 세상은 다양한 언어, 사람, 문화 등이 존재합니다. 그렇기 때문에 인간은 항상 새롭거나 변화하는 환경에 맞출 수 있는 능력을 가지고 진화해 왔습니다. 기존에 배운 지식과 습득한 경험을 현재 상황에 맞게 빠르게 변형시켜 응용할 수 있는 것은 굉장한 지능입니다.

이러한 능력을 Robustness라고 합니다. 직역하자면 "튼튼함", "건강함" 인데, 그보다는 좀 더 풀어쓰자면 "다양한 상황에도 적응하여 살아남을 수 있음" 정도가 되겠습니다.

인간과 다르게 아직도 기초 모델 같은 AI 모델들은 다양성에 취약합니다. 새로운 도메인의 지식을 얻으려면 수백, 수천만 기가 바이트, 테라 바이트의 학습 데이터를 제공해야 할 때도 있을 정도로, 인간만큼 효율적이지 않습니다. 그렇게 많은 학습 데이터를 추가해도 또 상황이 바뀌면 어처구니 없는 오류를 범할 정도로 Robustness 하지 않을 수 있습니다.

대낮에 촬영된 운전 데이터만 가지고 자율주행자동차를 학습했을 때, 밤이나 눈비가 올 때 비슷한 성능을 보이지 못한다면 무척 위험합니다. 이를 위해서 학습 데이터에 다양한 상황을 추가하거나 시뮬레이션 또는 데이터 가공(data augmentation) 등을 통해 모델이 다양한 상황에서도 안전하게 주행할 수 있도록 해야 합니다.

언어에서도 마찬가지로 다양성이 존재합니다. 주로 인터넷에서 크롤링된 데이터를 기초 모델의 학습에 이용되고 있는데, 이는 모든 언어의 다양성을 포함시킬 수 있을까요? 조금만 생각해봐도 그렇지 않다는 것을 알 수 있습니다. 아직 미성숙한 아이의 언어, 비슷하지만 조금 다른 지방의 방언 등은 이런 데이터에서 얻기 힘듭니다.

기초 모델이 이러한 다양성을 잘 다루지 못한다면, 의도치 않게 특정 사람들을 기술로부터 소외되게 만들 수 있습니다. 특히 이 논문에서는 다국어 모델에서 데이터가 많은 주요 언어들 (특히 영어) 뿐만 아니라, 세계에는 다양한 언어가 존재하는데, 아직도 다국어 언어 모델에서 성능 차이가 너무 심하게 나는 것을 지적하고 있습니다.

또한, 최근에 얼굴 관련 알고리즘에서 유색 인종의 얼굴은 잘 인식이 되지 않거나 잘못된 보정을 하는 등, 다양성을 잘 다루지 못해 생기는 의도치 않은 편향 때문에 논란이 되기도 했었죠. 미리 이러한 기초 모델들의 단점을 고려하였다면 방지했을 법한 문제라고 생각합니다.

8 more things to love about the new Pixel phones
Last week, we introduced the new Pixel 6 and Pixel 6 Pro…and a ton of other new features. Here are a few things you might have missed.
새로 나온 구글 픽셀 폰에서는 이를 교훈 삼아, 다양한 피부 톤을 고려한 색감 보정 알고리즘을 탑재하였습니다.

단점 2: 지속적 학습이 어렵다.

인간은 실수를 통해 성장하고는 합니다. 하지만 기초 모델은 인간에 비하면 경험에 의한 발전이 거의 없습니다. 아시다시피 보편적인 머신러닝 모델은 학습(training)과 추론(inference)가 분리되어 있기 때문에, 지속적 학습(continual learning)이 간단하지 않습니다*. 이를 위해 잘못된 부분을 고쳐 학습 데이터를 추가한다는 등 개발자의 노력이 필요합니다.

*이러한 단점을 극복하는 것이 강화 학습(reinforcement learning)인데, 기초 모델이나 NLP에서 강화 학습은 아직 널리 쓰이지 못하고 있습니다.

하지만 지식이라는 것은 매우 다이나믹합니다. 시간에 따라서 진화하고 발전하는 생물체와 같습니다. 특히 코로나 팬더믹 상황 같이 수많은 연구자들이 급박하게 연구를 진행하고 발표할 때, 이러한 것을 더더욱 느꼈지요.

언어 역시 매우 동적입니다. 새로운 세대에서 신조어가 생겨나고, 시간에 따라 한 단어의 뉘앙스나 감정이 변화하기도 합니다. 수 년 전에는 자주 사용하던 단어가 남녀평등을 중요시하는 사회적 변화 때문에 지양되기도 합니다.

어떻게 하면 기초 모델이 이러한 변화에 뒤쳐지는 것을 금방 잡아낼 수 있을까요?

전문가들은 평가 셋을 지속적으로 업데이트를 시키고, 이를 통해 기초 모델이 어떤 실수를 하는지 모니터링을 하는 것이 매우 중요해질 것이라고 합니다. 머신러닝 모델이 "꼰대"가 되지 않게 선제조치가 필요합니다.

단점 3: 실제 세상과의 연결이 부족하다.

전문가들은 GPT-3 같은 텍스트 기반 기초 모델이 매우 유창한 언어를 생성해낼 수 있지만, 실제로 세상을 이해하고 있는 것은 아니라고 합니다. 지난번 글에서 이에 대해 더 깊게 다룬 논문을 다루었죠.

Week 36 - 튜링 테스트를 통과한 AI도 세상을 인간만큼 이해하지 못한다
인간처럼 생각하고 말할 수 있는 로봇은 항상 인류 기술 발전의 지향점 같이 여겨져 왔던 것 같습니다. 여러분은 한번 쯤은 어렸을 때 이러한휴머노이드(humanoid)가 나오는 SF 영화를 본 적이 있지 않으신가요? 어떤 영화가 기억에 남으시나요? (이 답변에 따라 세대차이가드러날지도 모르겠네요..) 전에도 언급한 적이 있지만 저는 <Her>와 <Ex Machina>을 가장 좋아합니다. 더 전으로 가면 스티븐 스필버그의 <A.I.> 또는<Bicentennial Man> 등이 있겠고, 최근 세대는 <아이언맨>의 자비스를 떠올릴…

앞으로 기초 모델의 더 큰 발전은 실제 세상과 연결할 수 있도록 멀티모달(multi-modal), 즉 텍스트 뿐만 아니라 이미지, 비디오 등 다양한 데이터와 함께 학습할 수 있을 때 이루어질 것이라고 볼 수 있습니다.

최근 구글 AI의 수장 Jeff Dean이 Pathway라는 Multi-task, Multi-modal 모델 구조에 대한 포스트를 올렸는데, 기초 모델의 이러한 단점을 극복하기 위한 방향이 아닐까 싶습니다. TED에서도 최근 이 주제로 강연을 하였습니다.

단점 4: 몇 가지 윤리적 문제를 안고 있다.

이 논문에서 가장 새로웠던 단어는 "ethics of scale" (규모의 윤리)이었습니다. 이게 도대체 무슨 말일까요? 규모가 커짐에 따라 효율성이 증대된다는 뜻인 "ecnomoy of scale"(규모의 경제)는 들어보았지만, 윤리와 연관 짓는 것은 생소합니다.

요약하자면:

  • 기초 모델의 스케일이 너무 커지면서, 예산과 컴퓨팅 파워 같은 리소스가 많은 거대 IT 기업만 개발할 수 있게 되고 있다. 이는 거대 IT 기업에게 막강한 권력이 집중되는 현상을 일으킨다.
  • 그러한 기업들은 기초 모델을 전부 오픈소스로 공개하기도 하지만, 일부만 블랙박스처럼 취급되고 있다 (ex. 모델 파라미터는 감추고 예측 결과만 돌려받는 OpenAI의 GPT-3)
  • 스케일이 큰 기초 모델에 들어가는 컴퓨팅 파워가 기하 급수적으로 늘어나면서 탄소 배출에 막대하게 기여하고 있다.
  • 엄청난 양의 학습 데이터를 구축하기에, 데이터에 저작권 침해/개인정보 유출/부적절한 컨텐츠 필터링 등이 잘 이루어지고 있는지 일일이 검수하기가 어려워졌다.

이처럼 기초 모델의 규모가 커지면서 몇 가지 윤리적인 문제를 야기하였다는 것을 지적합니다. 각각 문제들을 해결하기 위한 노력도 소개하고 있으니, 자세한 내용은 원 논문을 참고하시길 바랍니다.

단점 5: 단일화 때문에 부작용이 증폭된다

지난 기초 모델을 소개하는 글에서 단일화(homogenization)이라는 개념을 설명드렸습니다. 거대한 모델을 학습 시켜놓고, 이를 통해 여러가지 문제를 푸는데 사용하는 방식을 뜻하는 이 단어는 기초 모델의 가장 큰 특징인데, BERT 같은 모델을 이용해 다양한 응용 사례를 만들어 내는 것에 큰 역할을 하였습니다. 대부분의 NLP 문제에 BERT를 이용하면 기존보다 좋은 성능을 보였으니깐요.

하지만 기초 모델의 가장 중요한 장점이, 가장 중요한 단점이 되기도 합니다. 만일 기반이 되는 이 모델에 어떤 부분에 취약점을 가지고 있다면 이를 기반으로 한 모든 시스템에 이 취약점에 노출될 리스크를 가지고 있다는 것을 뜻합니다. 그만큼 부작용이 증폭되는 것 입니다.

예를 들어, 단점 1에서 다양성에 대해 이야기했습니다. 만일 기반으로 한 기초 모델이 의도치 않게 성별 편향적인 성향을 가져, 불합리하게 특정한 성별에 대한 부정적인 뉘앙스를 가지고 있다면 어떻게 될까요?

이 기초 모델을 기반으로 한 악플 필터링 시스템은 특정 성별에 대한 언급 또는 특정 성별 유저가 쓴 댓글을 실수로 걸러내는 일이 늘어날 것입니다. 딱히 심각한게 아닌 것 같다고요? 만일 이를 기반으로 한 사법 집행 시스템 또는 기업 채용 시스템에 이러한 취약점이 증폭된다면? 우리가 의도치 않게, 알지도 못하게 편향과 차별을 만들어 어느 한 사람의 인생에 막대한 영향을 주는 끔찍한 시스템을 만들어 낼 수도 있는 것입니다.

전문가들은 이러한 편향성이 증폭되는 것을 가장 우려하고 있습니다. 특히 점점 더 사회 많은 곳에 AI 기반 시스템이 적용될수록 리스크가 커질텐데요. 앞으로 이에 대한 연구와 방지책이 지속적으로 발전하기를 기원합니다.


212 페이지에 육박하는 기초 모델들의 기회와 리스크들 (On the Opportunities and Risks of Foundation Models)를 요약, 리뷰해보았습니다. 워낙 많은 전문가들의 시각을 여러 방면에서 AI 기초 모델들을 바라본 글이기 때문에 제가 모든 것을 두 개의 블로그 포스트에서 포함하기는 불가능하기에, 관심 있으신 분들은 꼭 더 원 논문을 읽어보시길 바랍니다.

이 논문에 이어서 저는 최근에 미국 전설의 외교관 헨리 키신저(Henry Kissinger)와 구글 전 CEO 에릭 슈미트(Eric Schmidt), 그리고 MIT 교수 대니엘 후텐로셔(Daniel Huttenlocher)가 출판한 "The Age of AI And Our Human Future" 라는 책을 읽고 있는데 매우 인사이트가 많다고 느끼고 있습니다. 또한, 유발 하라리(Yuval Harari)의 호모 데우스(HOMO DEUS - a brief history of tomorrow) 라는 책도 추천합니다.


REFERENCE