스파르타코딩클럽 | 블로그
image

GPT-3를 능가하는 모델들의 출현!

작성일:  2021-08-02 조회수:  159

전세계를 떠들썩하게 한 OpenAI의 GPT-3
중국의 발 빠른 추격, 우다오 2.0
장기기억을 할 수 있는 모델, 페이스북의 블렌더봇 2.0

충격적인 소식이다. 과학자들이 안데스 산맥의 외딴 미개척 계곡에서 유니콘 무리를 발견했다. 놀랍게도 유니콘들은 완벽한 영어를 구사하고 있었다. 갈기도 완벽하게 정리되어 있었고, 디올 메이크업을 한 것처럼 보였다.
인류학자 다니엘 세인트모리스(Daniel St. Maurice)는 말했다. “우리는 유니콘들을 발견하고 큰 충격을 받았습니다. 살면서 한 번도 보지 못한 모습이었으니까요. 전설 속에서나 들어봤지, 실제로 존재할 것이라고는 생각지 못했죠.”
과학자들이 계곡에 처음 도착했을 때 유니콘들은 깜짝 놀라며 당황했지만, 동시에 흥분된 기색을 보이기도 했다. 유니콘들은 연구원들을 반갑게 맞이하며 실은 아주 오랫동안 그들을 기다려오고 있었다고 말했다.

위의 글은 사람이 아닌 인공지능이 쓴 소설입니다. 이탤릭체 부분이 사람이 제시한 글감이고, 그것을 보고 인공지능이 짧은 소설을 지었습니다. 신기하지 않나요?

image

인공지능 분야 중에 자연어처리(NLP, Natural Language Processing)가 있습니다. 자연어란 사람이 의사소통에 사용하는 언어로, 우리가 일반적으로 사용하는 언어를 생각하시면 됩니다. 자연어처리는 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술입니다.

새로운 자연어처리 모델이 발표될 때마다 꼭 언급되는 모델이 있습니다. 바로 GPT-3입니다. 2020년 GPT-3가 발표되고 나서 세계가 떠들썩했는데요. 위의 소설도 GPT-3가 쓴 것입니다. 이렇게 대단한 GPT-3는 대체 무엇이고, GPT-3보다 더 성능이 뛰어난 다음 모델에는 어떤 것들이 있는지 알아보도록 해요.

2020년, 전세계의 주목을 받은 GPT-3

GPT-3는 Generation Pre-trained Transformer 3의 약자로 미국 샌프란시스코에 있는 인공지능 연구기관 OpenAI가 2020년 발표한 자연어처리 모델입니다. 2019년 초에 발표된 GPT-2보다 100배 이상 거대한 모델로 성능 또한 크게 향상됐죠. GPT-2는 800만 개의 데이터셋으로 15억 개의 파라미터(매개변수)를 활용해 학습을 시켰다면, GPT-3는 3,000억 개의 데이터셋으로 1,750억 개의 파라미터를 활용해 학습을 시켰습니다. 여기서 데이터셋이란, 단어뭉치를 뜻합니다. 즉 3,000억 개의 데이터셋은 3,000억 개의 단어를 학습시켰다는 말로 이해하시면 됩니다.

image

출처 : https://jalammar.github.io/how-gpt3-works-visualizations-animations/

GPT-3는 어떻게 자연어처리를 할까요? 학습한 데이터셋을 바탕으로 주어진 단어나 문장 뒤에 이어질 단어를 예측하는 방식으로 진행됩니다. 이렇게 예측한 단어를 통해 대화의 맥락을 파악하고 가장 적절한 단어의 조합을 구성하는 방식으로 운영됩니다.

GPT-3를 이용해 AI로 뉴스 기사를 작성한 후 그 기사를 80명의 사람에게 보여줘 기계가 썼는지, 혹은 사람이 썼는지 맞추는 실험을 했습니다. 파라미터를 1,750억 개까지 늘렸을 때 미국인의 48%가 기계가 쓴 기사를 사람이 썼다고 착각할 정도로 GPT-3의 성능은 뛰어났습니다.

GPT-3가 극복하지 못한 한계

그러나 여전히 자연어처리 기술은 갈 길이 멉니다. 전세계가 극찬을 한 GPT-3도 뚜렷한 한계가 존재합니다. 우선, 추론 능력이 떨어집니다. ‘치즈를 냉장고에 넣으면 녹을까?’라는 물리 상식을 물어보는 질문에 GPT-3는 ‘그렇다’라고 답했습니다. 일반적인 사람이라면 당연히 ‘아니오’라고 답을 했겠죠? 이는 글로만 세상을 배웠기 때문입니다. 우리가 직접 눈으로 보면 알 수 있는 상식을 GPT-3는 학습할 기회가 없기 때문에 발생한 오류입니다.
비용적인 문제도 아주 큽니다. 모델을 한 번 훈련하는 데에 4천6백만 달러 정도가 소요되는 것으로 추정되는데, 이는 한화로 약 50억 원 수준입니다. 거대한 언어모델일수록 필요한 컴퓨팅 능력도 높기 때문에 비용의 문제가 발생합니다.
또한, ‘기억력’이 없다는 점도 아주 큰 한계 중 하나입니다. 새로운 정보를 수용하기 어려워 매번 설명을 해줘야 한다는 단점이 있습니다.
이외에도 인터넷에서 데이터셋을 추출해 학습하기 때문에 필터링 되지 않은 성차별적 발언, 인종차별발언이 포함되어 있다는 점, GPT-3의 대답이 학습에 사용된 예제를 외운 것인지 혹은 실제로 추론한 것인지 구분하기 어렵다는 점 등이 있습니다.

GPT-3를 넘어선 우다오 2.0 모델

image

인공지능 분야를 선도하는 미국의 뒤를 빠르게 추격하는 곳이 있습니다. 바로 중국입니다. 6월 1일, 중국 칭화대 컴퓨터학과 지식공학실험실에 특별한 학생이 새로 입학했는데요. 그의 이름은 화즈빙(华智冰), 중국에서 탄생한 최초의 ‘인공’ 학생입니다. 실제로 칭화대에서는 화즈빙의 학생증과 메일 계정을 발급해 학생의 신분을 인정해주었습니다.

image

6월 1일 BAAI(Beijing Academy of Artificial Intelligence, 베이징 인공지능 연구소)가 2021 베이징 즈위안(智源) 콘퍼런스에서 화즈빙의 영상을 공개했습니다. 영락없는 여자 대학생의 모습입니다. 영상 속 화즈빙의 모습뿐만 아니라 음성 내레이션, 배경 음악까지 모두 그가 직접 인공지능 기술로 구현한 것으로 알려져 사람들의 놀라움을 자아냈습니다. 화즈빙은 시, 그림, 음악적 재능까지 모두 갖춘 인재로, 지능형 모델 우다오 2.0이 사용되었습니다. 이는 단순히 ‘기억 장치 모형’에 기반을 둬 시를 쓰는 인공지능과는 본질적으로 다릅니다.

우다오(悟道) 2.0은 1조 7,500억 개의 매개 변수를 포함하고 있으며, 수만 개의 CPU에서 사전 학습이 가능한 모델입니다. 이는 GPT-3의 10배로 어마어마한 수준입니다. 중국어, 영어, 이미지 데이터 등을 학습하며, 그 성능도 좋은 편입니다. 우다오 2.0을 활용해 탄생한 화즈빙의 목표는 인간처럼 생각하고 소통할 수 있는 인공지능입니다. 물론 이와 같은 수준의 인공지능이 만들어지려면 지금 당장은 불가능합니다. 학습 능력을 향상시켜야 하고 비용적으로도 해결해야 하는 문제가 있기 때문입니다. 하지만 범용 인공지능을 시사했다는 점에서 의의가 있습니다.

페이스북 블렌더봇 2.0

image

중국의 우다오 2.0이 발표된 지 한 달여 만에 페이스북에서도 업그레이드된 자연어처리 모델을 발표했습니다. 바로 블렌더봇(BlenderBot) 2.0입니다. 페이스북 AI 리서치팀이 개발해 오픈소스로 공개한 ‘블렌더봇 2.0’은 장기기억을 할 수 있는 챗봇입니다. 또한, 대화하면서 인터넷에서 실시간으로 정보를 검색할 수 있기 때문에 거의 모든 주제에 대해 정교한 대화를 나눌 수 있습니다. 이는 2020년에 공개한 오리지널 블렌더봇에 대한 업데이트로 성격, 공감, 지식과 같은 여러 대화 기술을 최초로 단일 시스템에 결합한 점에서 아주 획기적입니다.

장기기억을 할 수 있다는 것은 GPT-3과 비교했을 때 아주 큰 발전입니다. GPT-3는 새로운 정보를 기억할 수 없기 때문에 매번 새로운 정보를 입력해주어야 합니다. 그러나 블렌더봇 2.0은 대화 중 적절한 정보를 취합해 장기기억에 저장할 수 있기 때문에 대화가 오랫동안 진행되어도 그 정보를 활용해 대화를 이어갈 수 있습니다. 또한, 우리나라에서도 문제가 되었던 부분이죠? 바로 저장되는 기억이 다른 사용자와의 대화에 이용될 수 있다는 우려인데요. 블렌더봇 2.0에 저장되는 장기 기억은 대화하는 사람마다 따로 저장되기 때문에 정보가 샐 걱정이 없습니다.

또한, 모델은 대화 중 실시간으로 인터넷 검색을 할 수 있기 때문에 세상의 변화 속에서 업데이트 상태를 유지할 수 있다는 아주 큰 장점이 있습니다. GPT-3의 학습 상태는 과거에 머물러 있는데 말이죠. 새로운 정보를 잊는다는 것은 (오래되어) 잘못된 정보를 맞다고 착각해 자신 있게 이야기해버리는 문제도 발생시킵니다. 장기기억을 할 수 있다는 것은 인공지능이 더욱 인간의 모습에 가까워졌다고 할 수 있습니다.

앞으로의 과제

빠르게 자연어처리 기술이 발전하면서 인간과 감정을 나누고, 온전히 소통할 수 있는 인공지능의 출현이 머지않았다는 생각이 듭니다. 범용 자연어처리 인공지능 모델이 상용화된다면 사람들이 겪고 있는 여러 가지 문제들을 해결할 수도 있겠다는 기대가 있는데요. 하지만 여전히 모델이 제대로 학습하지 못하는 문제, 윤리적인 문제 등이 남아 있습니다. 이러한 문제들을 보완한 새로운 모델이 출현할 수 있겠죠?

인공지능 중에서도 자연어처리 기술에 대해 알아보았는데요. 스파르타 코딩클럽에서는 PyTorch를 활용해 딥러닝을 이해하고, 이미지를 처리하고 텍스트를 분석하는 수업이 준비되어 있습니다. 인공지능 분야 중에서도 딥러닝을 공부해 보고 싶으신가요? 그렇다면 ‘PyTorch로 시작하는 딥러닝’ 수업을 들어 보세요!

by. 김자바

  • #AI
  • #자연어처리
  • #GPT-3
recommend