수십 년, 수백 년에 한번씩 여러 산업을 통째로 바꾸는 기술이 나옵니다. 증기 기관이 그랬고, 전기가 그랬습니다. 인공지능(AI) 역시 그럴 것이라고 최근 몇 년째 모두들 이야기하고 있죠. 하지만 AI라는 단어는 이미 수십 년간 존재해왔고, 정확히 무엇을 의미하는지 매우 모호합니다. 도대체 구체적으로 어떤 것이 세상을 바꾼다는 것일까요?

위클리 NLP에서는 그동안 언어 모델의 기초로 시작하여, BERT, GPT-3, HYPERCLOVA까지 다양한 대형 언어 모델을 소개하였습니다. 그리고 DALL-ECLIP 과 같은 이미지와 텍스트를 동시에 학습하는 멀티 모달(multi-modal) 모델 역시 다루었습니다.

이러한 모델들의 공통점은 무엇일까요? 이런 NLP 모델들은 왜, 어떻게 우리가 살아가는 세상에 앞으로 다가올 변화에 핵심적인 역할을 하게 될까요?

이러한 질문들에 답하기 위해 수많은 AI/ML/NLP 전문가 뿐만 아니라, 철학/법률/의학/교육 전문가들이 뭉쳐 엄청난 논문을 한 편 집대성하였습니다. 기초 모델들의 기회와 리스크들 (On the Opportunities and Risks of Foundation Models) 이라는 제목을 가진 이 논문은 무려 212 페이지나 되지만, 놓칠 부분이 없는 글이었습니다.

https://arxiv.org/abs/2108.07258

이번 <위클리 NLP>에서는 이 논문에서 정의하는 기초 모델(Foundational Model)에 대해, 사회에 미칠 수 있는 영향에 대해 정리해보도록 하겠습니다. 이 논문이 유용했던 점은 그저 기술적인 측면 뿐만 아니라, 우리가 살고 있는 사회에 어떤 영향을 끼칠 것인지 다양한 가능성을 논하고 있다는 점입니다. 특히 헬스케어, 법률, 교육 같이 사회의 기둥이 되는 분야에서의 AI가 어떻게 응용되고 있는지에 대해 전문가들의 깊은 고찰이 담겨있습니다.

FOUNDATIONAL MODEL은 무엇인가


그동안 소개했던 BERT, GPT-3 같은 모델들의 공통점은 엄청나게 많은 데이터에 학습된 언어 모델이라는 점입니다. 하지만 기초 모델(Foundational Model)이라는 개념은 NLP에만 국한되어 있지 않습니다. 인트로에서는 이 특징을 두가지로 설명합니다.

  1. 이머전스(Emergence): 시스템의 행동은 직접 프로그래밍되는 것이 아니라 데이터를 통해 유츄된다.
  2. 단일화(Homogenization): 하나의 거대한 모델이 다양한 문제를 풀기 위한 기반이 된다.

이머전스(Emergence)

이머전스는 어찌 보면 모든 머신 러닝 모델을 포괄하고 있는 것 같습니다. 아직도 많은 자동화 시스템은 사람이 정해준 룰에 따라만 움직일 수 있는 방식을 채택하고 있죠. 근데 데이터만 있으면 알아서 확률/통계학적 모델을 구축하여 다음 행동을 결정하거나 미래 예측을 할 수 있다는 점이 머신러닝의 강력함입니다.

"좋은 데이터만 있다면" 어떤 분야에 전문 지식이 없더라도 꽤 훌륭한 (때로는 인간 전문가보다도 더 나은) 시스템을 구축할 수 있다는 것이 컴퓨터 사이언스에서 AI가 가져다 준 패러다임 변화인 것은 분명합니다.

Week 11 - 머신러닝 모델이 데이터를 공부하는 방법
대부분의 우리는 등산을 하러 가면 정상에 도달하자라는 하나의 목표를 가지고 열심히 걷습니다. 시작점에 있는 지도를 보기도 하고, 중간에 있는팻말이 가리키는 방향을 보기도 하고, 사람들에게 물어보기도 합니다. 정말 모르겠으면 일단 보이는 오르막을 무작장 오르기도 합니다. 그렇게 해서봉우리에 올라와서 사방을 바라보았을 때 여기보다 더 높은 봉우리를 보지 못한다면 ”아, 드디어 정상에 도달했구나!”라며 느낍니다. [https://kmong.com/gig/338436]Week 7 [/weekly-nlp-7]에는 언어를 함수로 볼 …

단일화(Homogenization)

단일화는 BERT가 처음 등장했을 때 모두를 놀라게 한 부분입니다. 그동안은 어떤 NLP 문제를 풀려면, 특정한 데이터와 이를 통해 학습된 하나의 모델이 존재했습니다. 하지만 BERT는 이러한 방식을 아예 깨부셨습니다. 그저 엄청나게 많은 양의 텍스트를 어떠한 다른 정보 없이 언어 모델로 미리 학습시키고(pre-training), 이 후 어떤 NLP 문제든 이 모델 위에 추가 학습(finetuning) 시키면 기존 기록을 넘어설 수 있었습니다. 많은 텍스트 데이터에서의 pre-training이 언어학적 지식을 압축시킨 "단일화된" 모델을 만든다는 것을 발견한 역사적인 연구였죠.

Week 28 - BERT만 잘 써먹어도 최고가 될 수 있다?
NLP를 공부하시는 분들 중에 GPT나 BERT 같이 최근에 나온 무지막지하게 큰 언어 모델을 처음 공부하면 대부분 반응이 이렇습니다. > ”와 쩐다... 성능이 엄청나네.” (감탄)”이거 뭐 이 정도면 NLP에서 더 할 수 있는게 있나..” (우울) ”스케일도 대단하네. 데이터도 미친듯이 많고, 몇십 억씩 들여야 이런 모델이 학습되네.” (또 감탄)”나/우리는 그렇게 쓸 돈도 데이터도 없는데. 뭐 이길 수가 없네.” (또 우울)특히 NLP 연구를 하는 분들이 공감을 많이 하실텐데, 그만큼 최근 몇 년간 NLP 연구의 트렌…

이 후에 나온 모델들 역시 대부분 이러한 단일화 방식을 채택하고 있습니다. GPT는 한술 더 떠 추가 학습(finetuning) 없이도 문제를 해결할 수 있는 가능성을 보여주고 있고요.

이러한 단일화 방식은 매우 데이터 효율적인 AI 개발이 가능하다는 큰 장점을 가지고 있습니다만, 메인으로 쓰이는 기초 모델이 편향성 같은 취약성을 가지고 있다면 이를 토대로한 모든 시스템이 이러한 에러를 전파받을 리스크가 있습니다. 이에 대해서는 다음 글에서 더 깊게 설명하도록 하겠습니다.

FOUNDATIONAL MODEL은 우리를 어떻게 바꿀까

강력한 기초 모델은 텍스트 기반 NLP, 이미지/비디오 기반 비전(Computer Vision), 로보틱스(Robotics) 등에서 등장하고 있습니다. 가장 인상 깊었던 표현 중 하나는 기초 모델은 전기와 같이 "아직 어떻게 응용될지 모르는 중간 단계의 상태에 있는 발명품"이라는 것이었습니다.

"아직 어떻게 응용될지 모르는 중간 단계의 상태에 있는 발명품"

전기 역시 그 자체로는 딱히 큰 활용 가치를 가지지 않지만, 어떠한 기계에 들어가면 그제서야 가치가 발현되기 시작합니다. 물론 그것이 인류의 발전에 쓰일지 파괴에 쓰일지는 활용하는 사람의 의지에 달려있습니다. 전기로 생산할 수 있는 가치의 형태는 제한이 없었고, 이를 토대로 인류는 지난 150여년간 (19세기 후반부터) 엄청난 발전을 이루어왔죠.

AI 기초 모델도 전기처럼 누구든 상상력만 있다면 잘 활용할 수 있다면 가치를 창출할 수 있게 하는 엄청난 가능성을 가지고 있다고 볼 수 있습니다.

특히 이 논문에서는 헬스케어, 법률, 교육 같이 사회의 기둥이 되는 세 분야에서 어떻게 활용될 수 있는지를 깊게 다루어 소개합니다.

헬스케어

COVID 팬데믹을 겪고 있는 지금만큼 헬스케어 산업에 많은 관심과 투자가 들어가고 있는 상황이죠. 전문가들은 기초 모델의 역할을 어떻게 보고 있을까요?

기초 모델은 다양한 의학 지식 데이터로 학습이 되어 일종의 지식 저장소로 활용될 것 입니다. 지금은 의학 논문의 텍스트 위주의 기초 모델이 나와있지만 앞으로는 다양한 의료 이미지, 센서 데이터까지 포괄하여 학습된다면 더 강력한 기초 모델이 탄생할 것 입니다.

이러한 기초 모델들은 환자들에게는 간단한 의학 Q&A 상담으로, 의료 종사자들에게는 환자에 대한 다양한 정보를 요약 받거나 효율적으로 검색하는 용도로 사용될 것으로 보입니다. 의료 현장은 행정적인 비용이 약 30%를 차지하고, 비효율적인 시스템이 의료 사고의 주요 원인으로 뽑히기도 하는데, AI로 효율성을 높이면 비용과 사고 발생을 줄일 것으로 기대됩니다.

최근에 공개된 구글 딥마인드의 알파폴드 프로젝트는 헬스케어와 AI의 합작에 또다른 가능성을 보여준 사례입니다. NLP에서 나온 트랜스포머 같은 모델들이 배열 예측(sequence modeling) 같은 문제에 좋은 성능을 보이자 단백질 주름(protein fold), 신약 개발(drug discovery)에 사용되고 있습니다. 이러한 머신러닝 모델을 이용해 좀 더 효율적으로 가설을 세우고 빠르게 검증할 수 있어, 혁신의 속도를 높이고 있습니다.

다만, 헬스케어에서 AI 기초 모델을 활용하는데 어려움이 없는 것은 아닙니다. 가장 큰 것은 데이터입니다. 환자 데이터는 기본적으로 민감한 개인정보이기 때문에 연구를 위해 공개되거나 병원 간의 공유가 쉽지가 않은 상황입니다. 거의 모든 기초 모델이 엄청난 양의 데이터로 학습된다는 점과는 아주 상반되는 제약입니다.

또한, 항상 올바른 정보를 전달하게 컨트롤 하는 것이 쉽지 않고, 만일 잘못된 정보가 제공되어 누군가 피해를 본다면 책임은 누가 져야 하는지 아직 불명확합니다. 특히 의학 관련 지식은 생명에 직결될 수 있기 때문에 어떤 자동화된 예측이든 정보 제공이든 굉장히 신중해야겠습니다. 게다가 AI가 어떤 예측을 내뱉었을 때, 의학 전문가가 보았을 때 왜 이러한 결과가 나오게 되었는지 검토할 수 있어야 하는데, 아직까지는 현재 딥러닝 기반 모델들은 이러한 설명성(explainability)이 부족해, 실제 현장에서 도입되는데 큰 장애물이 되고 있다고 합니다.

법률

법률은 상당한 양의 자료를 검토해야 하는 일이 많습니다. 그렇기 때문에 자연스럽게 NLP를 통해 자료를 효율적으로 검색, 요약하는 활용 방안이 떠오르죠. 실제로도 많은 연구와 개발이 진행되고 있는 것으로 알고 있습니다.

하지만 법률에서 가장 중요한 부분은 "의사결정"으로 생각됩니다. 네이트 실버의 <The Signal and the Noise> 에서도 언급되지만, 인간이 내리는 법률적 판단은 편향성에 자유로울 수 없다는 연구 결과가 있습니다.

그렇다고 모든 판단을 "AI" 판사에게 맞기는게 공정할까요? Week 39에도 다루었지만 AI가 항상 공정할 것이라는 것은 착각입니다. 조심스럽게 설계하지 않은 AI 모델은 편향성을 가지기가 쉽습니다.

그럼에도 불구하고 기초 모델을 이용해 엄청난 양의 판례를 학습하고 법률적 판단을 예측하는 AI 시스템에 많은 연구가 진행되고 있습니다. 특히 비슷한 경우가 많고 집행유예나 벌금형 같이 비교적 가벼운 형사 재판의 효율성을 높인다면 법률 분야에 큰 혁신일 것이라고 합니다.

다만 법률 분야에서 어려운 점 역시 "데이터"입니다. 의료 데이터와 비슷하게 법률 데이터 역시 전문가들 밖에 생산할 수 없는데, 몸값이 꽤나 높은 전문가들의 시간을 데이터 셋 레이블링을 위해 사는 것은 엄청난 비용이겠죠. 게다가 일상에서 쓰이는 언어와 워낙 다른 전문 용어가 사용되기 때문에, 인터넷 데이터 셋으로 학습된 BERT/GPT 같은 기초 모델만으로는 좋은 성능을 얻기는 힘들어 보입니다.

그리고 마지막으로는 법률적 의사 결정에는 문화적, 역사적 판단이 들어가야 한다는 점입니다. 세상이 지속적으로 바뀌면서 40-50년 전 판결이 지금 사회적 인식에는 맞지 않을 수도 있겠죠. 법률 자체도 계속 변화하고 있고요. 기초 모델이 이러한 변화를 어떻게 정확하게 반영하면서 재학습이 될 수 있는지가 이 분야에 기초 모델이 차용될 수 있는지의 최대 관건이 될 것 같습니다.

Week 39 - AI로 팔 수 없는 것들
> AI 기반 XXX 스타트업. AI 기반 XXX 제품.이제는 인공지능(AI)를 앞에 붙이지 않은 스타트업이나 제품이 거의 없다시피 합니다. 몇 년 전에는 ”빅데이터”가 이러한 역할을 했었죠. 간단한규칙기반 알고리즘이든 통계 모델이든, 딥러닝이든, AI 기반이라고 할 수 있는 것의 경계선이 어디서부터 어디인지 잘은 모르겠지만 중요한지않습니다. 그만큼 AI는 가장 핫한 기술, PR, 마케팅 단어가 되었습니다. 저 역시 AI의 한 분야인 자연어처리(NLP)를 이용한 제품을 개발하는 사람이기에, 이 질문을 항상 머리 속에 지니고 …
지난 글에도 설명했던 설명성, 편향성 등의 AI의 어려움으로 또다시 여기저기 등장합니다

교육

AI는 앞으로 우리 학생들이 공부하는 것에 어떤 변화를 가져올까요? 여기서 교육은 단순히 코딩 및 AI 교육을 이야기하는 것이 아니라 모든 분야의 공부를 이야기합니다.

교육에도 기초 모델이 활용될 수 있을까요? 현재 가장 많이 활용되는 AI 기술은 "학생의 현재 수준 파악"을 위한 Knowledge Tracing입니다. 여태까지 푼 문제 중 무엇을 제대로 맞추었는지 틀렸는지를 보고 현 학생의 수준을 파악하고 다음 문제는 어떨지 예측하는 문제입니다. 이를 통해서 무엇을 더 보완하고 공부해야 할지 추천 시스템을 짜는 개인화된 커리큘럼(adaptive curriculum design)을 만들 수가 있습니다.

국내 스타트업 중에서는 산타토익을 이용하는 리드(Riid)가 이러한 기술을 잘 활용하는 것으로 알려져 있습니다. 최근에는 Kaggle 챌린지를 주최하기도 했지요.

https://www.kaggle.com/c/riiid-test-answer-prediction

여기서 더 나아가서 왜 이 학생이 실수를 했는지를 파악해 그 부분에 대한 설명을 해주는 것이 다음 단계의 "AI 선생님"이 아닐까 제시합니다. 여기서 GPT 같은 언어 모델이나 대화 시스템이 학생들이 모르는 부분을 빠르게 질의응답해주는 기술로 사용될 수 있고요.

교육 부분에서의 챌린지 역시 데이터입니다. 학생들의 데이터 역시 아주 민감한 개인정보 데이터라고 볼 수 있겠죠. 그리고 다양한 교육 컨텐츠의 텍스트, 이미지, 비디오 등의 데이터를 함께 다루는 멀티모달(multi-modal) 시스템을 위한 데이터 구축도 중요합니다.

그리고 언어 모델이 얼마나 학생 개개인의 나이, 수준에 따라 언어를 변화하여 적응할 수 있는지도 어려운 문제입니다. 초등학교 5학년 과학 수업과 대학교 기초 물리 수업에서 사용되는 언어나 용어의 수준은 차이가 크겠죠. 기초 모델에서 생성된 텍스트를 상황에 따라 컨트롤하는 것은 매우 어려운 문제입니다.

FOUNDATIONAL MODEL은 어떻게 인터렉션할 것인가

이 질문은 어떤 분야에 특정되는 것이 아니라 기초 모델을 활용한 시스템과 서비스의 User Experience에 관한 이야기입니다. 저는 UX에 관심이 많은 편인데 "Interaction"이라는 섹션이 있어 무척 인상 깊었습니다.

전문가들은 기초 모델 기반 시스템에는 두 가지 인터렉션이 있을 것이라고 보았습니다.

  1. 어플리케이션 개발자 (application developers)
  2. 실제 사용하는 유저(end-user)

어플리케이션 개발자는 기초 모델에 대한 이해도를 가지고, 유저들이 어떻게 기초 모델을 접할지 다리를 놓는 역할입니다. 사실 여기서 기존의 서버-클라이언트(Backend-Frontend) 개발과 크게 다르지 않을 수도 있습니다. 기초 모델은 API 중 하나일 뿐이라고 생각할 수도 있기 때문이죠.

논문에서 지적한 것 중에 재밌었던 점은 "유저개발자의 경계선이 흐릿해질 것이다"라는 것이었습니다. 복잡한 서버 콜을 작성해야하는 기존의 API과는 다르게 기초 모델들은 유저와 훨씬 더 가깝습니다. GPT-3 같은 경우에는 우리가 일상 생활에서 쓰는 언어를 이해하죠. 그렇기 때문에 유저는 더 많은 자유도를 가지고 서비스를 활용하고, 더 나아가서는 또 하나의 응용 프로그램을 직접 만들 수도 있습니다. Week 45의 HyperClova AI Studio가 비슷한 비전을 가지고 있습니다. 한 명의 유저가 기초 모델에게 지속적으로 피드백을 주고, 이러한 변화가 모여 기반이 되는 기초 모델 역시 지속적으로 변화하는 방식으로 발전할 수도 있겠습니다.

두번째로 흥미로웠던 점은 기초 모델이 창작물에 끼치는 영향에 대한 시사점입니다. 이제는 이메일(Gmail Smart Compose), 사진(Instagram Filter, Pixel 6 AI Camera), 코드(Github Copilot)까지 사람들의 창작물에 AI 기술이 개입하는 부분이 점차 많아지고 있습니다. 이러한 경향은 기초 모델이 발전하면서 더 커질 것입니다.

이는 사회에 어떤 영향을 끼칠까요? 현실과 가상의 경계는 어떻게 정의될까요? 서로의 창작물의 진위성을 덜 믿게 되는 세상이 될까요? 아니면 그저 누가 더 잘 활용하는지에 대한 경쟁이 될까요? 우리의 언어도 점차적으로 기초모델의 경향으로 단일화되는 암울한 미래일까요?

이 논문에서는 여러가지 질문을 던지고 있습니다. 여러분은 어떤 생각이 드시나요?


오늘 위클리 NLP에서는 기초 모델(Foundational Model)이라는 개념을 제시한 논문에 대한 리뷰를 시작하였습니다. 특히 기초 모델이 우리 사회에 어떤 변화를 가져올지에 대한 전문가들의 의견을 집중적으로 정리해보았는데요. 다음 글에서는 이 논문의 다른 절반인 기초 모델의 리스크에 대해 알아보도록 하겠습니다.

**이 논문이 워낙 방대한 양의 주제를 다루고 있으니, 제 글에서는 제가 중요하다고 생각되는 부분만 다루고 있습니다. 아래 레퍼런스를 참고해서 직접 읽어보시는 것을 추천합니다! 논문보다는 책에 더 가까운 길이이지만, 빼놓은 부분이 없는 글이라고 생각합니다.

Reference