컴퓨터 언어학자 구글러와 함께 공부하는 위클리 NLP를 시작합니다. 누구라도 기본적인 수학적인 지식만 있다면 쉽게 자연어 처리 (NLP)와 머신 러닝의 기초 개념을 배우고, 다양한 연구 주제 및 응용 분야들을 소개하는 글을 연재합니다.
(포스트 마지막에 이메일 구독 링크가 있습니다!)
OK 구글, 오늘 날씨 어때?
헤이 클로바, 지금 신나는 음악 틀어줘.
2020년 인공지능 (AI) 스마트 스피커가 이미 많이 상용화되었습니다. 저도 처음 샀을 때에는 내 말을 알아듣는 기계가 재밌어서 이것저것 물어보는 데에 시간을 많이 쓰고는 했었죠. 그러다가 생각보다는 엉뚱한 소리를 많이 해서 실망을 하기도 하고요. 지금은 알람 설정, 음악 재생 등의 기능들 위주로 잘 쓰고 있습니다.
그리고 여행 가서 말이 안 통해서 막막할 때, 번역 앱을 킨 후 내가 하고 싶은 말을 현지 언어로 바꾸어서 소통한 경험, 다들 한번쯤은 있으시죠? 많은 사람들이 새로운 언어를 배우려고 많은 시간을 쏟고 있는데, 이렇게 번역이 잘 되는 거 보고 허탈한 느낌이 들기도 합니다.
우리의 일상에 다양한 방식으로 스며든 이 AI 기술들, 이 녀석들의 정체는 무엇일까요?
바로 Natural Language Processing (NLP)이라고 합니다.
도대체 NLP는 무엇이고 어떠한 원리로 작동되는 걸까요? 그리고 왜 이걸 공부해야 하는 걸까요?
NLP란 무엇인가
위키피디아에서는 자연어 처리 (natural language processing; NLP)를 이렇게 정의합니다.
"NLP는 언어학, 컴퓨터 공학, 정보처리 공학, 인공지능의 하위 분야로, 기계(컴퓨터)와 인간이 언어를 통해 하는 인터렉션 그리고 막대한 자연어 데이터를 어떻게 분석해서 이용하는지에 대한 학문이다."
정보화 시대가 되면서 인간은 다양한 방법으로 기계와 인터렉션하게 되었습니다. 처음에 나온 것은 버튼, 스위치 같은 물리적인 방법이었죠. 나중에는 스크린이 나오고 GUI가 발달하면서 마우스 그리고 터치스크린으로 바뀌었습니다.
그러나 사실 인간에게 가장 익숙한 인터렉션 방법은 대화와 글입니다.
NLP는 기계가 사람의 언어를 듣고, 말하고, 읽고, 쓰는 것을 가능케 하는 AI 기술 분야입니다.
문제는 인간의 언어는 여러분이 생각하는 것보다 훠~얼씬 복잡하다는겁니다. 날씨에 대해 물어보는 것만 수 백가지 방법이 있습니다.
OK Google, 내일밖에 빨래 널어도 될까?
죄송합니다. 제대로 이해하지 못했어요.
OK Google, 내일부터 티셔츠 입어도 돼?
눈 색깔이랑 잘 어울리는 색으로 입으세요.
개떡같이 말해도 찰떡같이 알아 들어야 저의 진정한 "개인 비서"가 될 수 있을 텐데요..

지식 노동자가 많아진 사회, 앞으로는?
인류 문명의 지식의 대부분은 글이라는 형태로 되어있습니다. 그렇기 때문에 우리는 태어나서 한글를 배우고, 책을 통해 공부를 합니다. 대다수의 우리들은 성인이 되어 어떠한 형식이든 글과 밀접한 업무를 가진 지식 노동자가 됩니다.
과거에는 몇몇 사람들이 지식을 독점하기 아주 쉬운 시대였습니다. 하지만 구글이나 네이버 같은 검색 엔진이 나오면서 그렇지 않게 되었습니다. NLP의 한 분야인 Information Retrieval (IR) 덕분에 검색어만 잘 치면 위키피디아, 블로그 등에서 무료로 엄청나게 많은 정보에 접근할 수 있게 되었죠.
자연스럽게 그러한 지식의 독점하던 사람들 (교수, 정치인, 기자, 동네 척척박사 등)의 권력이 약해지고 있습니다. 그리고 회사나 정부 같은 조직들에도 기술이 적용되면서 사무직 (도서관 사서, 법률 비서, 경리 등)의 역할도 줄어들거나 바뀌었습니다.
이러한 기술은 최근 Question Answering (QA)라는 이름으로 굉장한 발전을 하고 있습니다. 단순한 검색어를 넘어서 대화체로 질문을 하였을 시에도 수많은 문서에서 정답과 연관된 문장을 유추하거나 요약해주는 수준이 되었습니다. 보통은 검색 후 여러 개의 검색 결과를 직접 읽어보고 원하는 부분을 찾아야 하는데 말이죠.

만약 NLP 기술이 빠르게 정보를 찾아주는 것을 넘어서서 대화까지 할 수 있다면 어떤 변화가 있을까요? 구글에서는 전화를 대신 걸거나 받아줄 수 있는 Duplex라는 서비스를 선보였습니다. 이로 인해 많은 텔레마케터, 콜 센터 응대원, 식당 점원 같이 반복적인 대화가 주된 역할인 직업은 위협을 받을 수밖에 없습니다. 키오스크나 ARS 등으로 이미 많은 자동화가 진행되고 있었지만 아래 영상에 나오는 수준이라면 훨씬 더 많은 직업이 대체될 것 같습니다.
AI/NLP 기술은 세상을 진보시키지만, 그 속도를 따라가지 못하는 기업, 정부, 그리고 개인은 뒤쳐질 수밖에 없습니다. 지금 누구나 선망하는 직업들 역시 10~20년 후에는 어떻게 변할지 모릅니다.
그만큼 많은 산업 분야에서의 기술 경쟁력이 빠르게 변화하고 있습니다. 흐름을 잘 탄다면 대단한 비즈니스 아이디어가 나올 수도 있습니다. 하지만 기회는 준비된 사람에게만 오는게 아닐까요?
NLP의 현재와 미래는?
현실은 SF영화가 아닙니다. 아이언맨의 자비스처럼 모든 문제를 다 풀어주는, 아직 Her의 사만다 같이 사랑에 빠질 만큼 인간의 감정을 잘 이해할 수 있는 AI 비서는 나오지 않았습니다. 공명정대하게 판결을 하는 AI 판사, 인류를 멸망시키려는 스카이넷 역시 현재 존재하지 않습니다.
막연하게 인공지능에 대한 환상 또는 공포만 가지고 계시지는 않나요?
현재 NLP가 무엇이 가능한 수준이고, 그 기술을 활용하려면 무엇이 필요한지 아는 것만으로도 큰 경쟁력이 될 수도 있습니다.
하지만 새로운 분야를 배우려면 시간이 많이 듭니다. 내용을 이해하고 정리하는 것이 너무 어렵습니다. 게다가 대부분의 지식은 영어 논문 속에 있습니다. 언제 기초 지식을 쌓고 논문을 읽고 있나요. 지금 내 일하기도 바쁜데.
저는 대학교 4학년 때 NLP를 처음 접했습니다. 홍콩과기대의 학부생이었던 저는 호기심으로 친구 따라 AI 스피커 프로젝트에 참여하게 되었고, 졸업 후에도 그 연구실에 들어가 석사까지 하게 되었습니다. 현재는 구글 어시스턴트의 NLP 팀에서 컴퓨터 언어학자 (computational linguist)로 일하고 있습니다.
위클리 NLP는:
- 제가 대학원에서 공부/연구를 하면서, 구글 Assistant NLP 팀에서 일을 하면서 쌓은 지식을 정리하였습니다.
- NLP를 공부해보고 싶은데 어디서 시작할지 막막했던 분들도 Week 1부터 보면 따라갈 수 있게 글을 구성하였습니다.
- 한 글 당 15분 정도면 읽을 수 있게 분량을 조절했습니다.
- 최대한 어려운 수학적인 부분은 단순화해서 high-level 핵심을 알 수 있게 설명하였습니다.
- 더 깊게 파고 싶으신 분들을 위해 제가 아는 논문, 튜토리얼 reference들을 많이 포함했습니다.
- 매주 여러분의 이메일로 순차적으로 글이 전달됩니다. 아래 폼을 통해 구독하세요!
그럼 이메일로 전달되는 Week 1으로 만나 뵙겠습니다! 궁금한 점이 있으면 댓글이나 이메일로 남겨주세요.
