지난 몇 주간 보았던 흥미로운 연구, 재밌었던 글을 소개합니다.
1. LINGO-1: 설명 가능한 자율주행자동차
Wayve라는 자율주행자동차 회사에서 Visual-Language understanding 언어모델을 이용하여 자율주행자동차의 액션을 말로 설명하는 시스템을 내놓았습니다.
좀 더 설명 가능하고 컨트롤하기 쉬운 자율주행기술에 한발자국 다가간 느낌입니다. 다만 아직은 주행 시스템의 결정 자체에 영향을 주는 수준까지는 아니고, 해설가처럼 설명만 할 수 있다고 합니다.
2. Expressive Text-to-Image Generation with Rich Text
Stable Diffusion 같은 모델을 사용할 때 원하는 이미지를 생성하기 위해 Prompt를 잘 쓰는 것도 이제는 기술이 되었죠. 근데 말로 풀어서 쓰는 것 뿐만 아니라 텍스트의 색깔, 크기, 폰트, 스타일 등으로 Prompt를 쓰면 어떨까요?
Prompt engineering을 위한 다양한 UX가 등장하고 있어 흥미롭게 보고 있는데 그 중 이 연구가 꽤 기발하다고 느꼈습니다. 기술적으로 들여다보면 단순히 자동으로 prompt 텍스트를 연장해주는 단순한 방식일줄 알았는데, 그것보다 좀 더 정교합니다.
먼저 Plain text로 이미지를 생성한 후에, Prompt의 각 단어가 이미지에 어떤 부분과 매핑이 되는지 모델링하고, 또다른 diffusion 모델로 그 부분을 업데이트를 하는 방식을 사용합니다. 자세한 내용은 논문을 참고해주세요.
3. Validating LLM outputs
LLM이 생성한 텍스트를 가지고 무엇을 할 때, 어떤 포맷에 맞아야 하는 경우가 있죠. 도구 사용이 필요한 경우에는 API output이 필요할 것이고, 복잡한 분류(Classification) 문제의 경우 Json을 사용하기도 합니다.
다만 LLM이 항상 원하는 포맷으로 결과를 출력하지 않기 때문에 이를 검증하고 필요하면 버리고 재생성해야 하는 경우가 있는데요. 이 부분을 잘 정리한 글이 Cohere 블로그에 올라와 공유합니다. 아마 사용할 수 있는 라이브러리도 있는 것 같네요.
4. 한국어 LLM 리더보드
Upstage와 한국지능정보사회진흥원에서 co-host하는 한국어 LLM 리더보드가 Huggingface에 등장했습니다.
Huggingface에 모델을 올리면 여러 한국어 데이터 평가 셋을 자동으로 KT 클라우드의 GPU를 통해 돌린 후 자동으로 결과가 리더보드에 올라간다고 하네요!
이전 포스팅에서 평가 셋(evaluation set)의 중요성, 벤치마크 셋의 중요성에 대해서이야기한 바가 있는데요. 이렇게 리더보드가 생긴 것은 한국어 LLM 개발에 아주 긍정적인 바람을 넣을 것으로 기대됩니다!
5. 업그레이드된 구글 바드(Bard)
제가 일하고 있는 Google Bard에 최근 굉장히 많은 업데이트가 있었습니다.
첫번째로 지메일, 유튜브, 워크스페이스 등 여러 구글 앱들과 연동하여 답변을 달아주는 Extensions가 발표되었습니다. 특히 개인 이메일이나 Docs를 사용하여 답변을 생성하는 기술을 정말 유용할 것 같습니다!
두번째는 생성된 답변을 팩트체크하는 기능입니다. 아시다시피 LLM은 환각증상(Hallucination)이라는 치명적인 단점을 가지고 있는데요. Bard는 구글 Search에 나오는 웹페이지를 통해 문장 하나하나를 빠르게 팩트체크 할 수 있게 되었습니다. 따로 창을 띄워서 하나하나 보지 않아도 되서 정말 좋은 것 같습니다.
세번째는 이번주에 있었던 구글 Pixel 8 출시와 함께 나온 소식인데요. 기존의 Google Assistant를 Bard를 통해 업그레이드하려는 계획이 나왔습니다. LLM을 통해 OK Google을 좀 더 자연스럽고 똑똑한 AI 비서로 만드려는 것은 당연한 수순인 것 같습니다.
이 포스트의 내용은 제 개인적인 의견이며 제 회사를 대변하지 않습니다. 공개되지 않은 정보를 공유하지 않습니다.
구독자 님들도 흥미로웠던 글 또는 연구가 있었다면 댓글로 남겨주시면 감사하겠습니다!