데이터 중심적 관점으로 NLP 기반 AI의 역사 재해석하기
2023/06/16 | 작성자: 박찬준 (AI 연구 엔지니어)
알파고, 챗봇, 하이퍼클로바 등의 등장으로 인공지능이 대중에게 친숙한 시대로 접어들었습니다. 인공지능은 21세기에 들어서야 등장한 학문처럼 느껴질 수 있지만, 사실 '인공지능'이라는 용어는 1956년 미국 다트머스 대학에서 열린 워크숍에서 존 매카시 교수가 처음 사용하면서 탄생했습니다. 즉, 인공 지능 분야는 거의 70년 동안 존재해 왔습니다. 이 글에서는 인공지능의 역사, 특히 자연어 처리의 역사를 데이터 중심 인공지능의 관점에서 재해석하고자 합니다. 이 글에서는 데이터 관점에서 규칙 기반 접근 방식에서 시작하여 통계 및 기계 학습 방법을 통해 발전하고 딥 러닝과 대규모 언어 모델 시대에 이르러 정점에 이르는 다양한 단계를 통해 AI의 발전을 살펴봅니다.
자연어 처리(NLP)란 무엇인가요?
자연어란 '인간의 언어'(파이썬, C언어 등과 같은 인공 언어와 반대되는 개념)를 말하며, 자연어 처리는 컴퓨터가 이러한 인간의 언어를 처리하는 것을 말합니다. 자연어 처리는 형태론적 분석, 구문론적 분석, 의미론적 분석, 화용론적 분석 등의 기초 연구를 통해 발전해 왔습니다. 이러한 발전은 기계 번역, 문서 요약, 질의응답, 대화 시스템과 같은 다양한 응용 연구 분야로 이어졌습니다. 현재 자연어 처리의 많은 하위 분야가 초대형 언어 모델(대규모 언어 모델, LLM)로 수렴하고 있습니다.
모두를 위한 '언어 모델의 역사'
극단적으로 말하자면, 컴퓨터는 0과 1밖에 이해하지 못합니다. 즉, 컴퓨터는 인간의 언어를 직접적으로 이해할 수 없습니다. 그렇다면 어떻게 하면 컴퓨터가 인간의 언어를 이해할 수 있을까요? 인간의 지식 표현 체계, 즉 언어 표현 체계를 컴퓨터가 이해할 수 있는 지식 표현 체계로 변환하는 과정이 필요합니다. 이것이 바로 언어 모델의 역할입니다. 언어 모델의 개발은 '어떻게 하면 인간의 언어를 컴퓨터가 이해할 수 있는 지식 표현 체계로 표현할 수 있을까'라는 질문에서 출발했습니다. 간단히 말해, 학자들은 문자(인간)를 숫자(신경망)로 효과적으로 변환하는 방법을 끊임없이 고민해 왔습니다. 이 질문에 대한 궁극적인 해답은 대규모 언어 모델 시대의 도래로 보입니다.
이러한 질문에 기반한 기술적 발전을 살펴보면, 기존의 단어 표현 방식은 주로 원핫(또는 원오브엔) 인코딩을 사용해 왔습니다. 원핫 인코딩은 표현하고자 하는 단어만 1로 표시하고 다른 모든 단어는 0으로 표시하는 언어 표현 방식입니다. 이를 위해서는 어휘가 필요하며, 어휘에 포함된 단어의 수가 자연스럽게 벡터의 크기가 됩니다. 예를 들어, 어휘에 Dog와 Cat이라는 두 단어만 있는 경우 원핫 인코딩을 사용하면 Dog는 {1,0}, Cat은 {0,1}로 표시되는 2차원 벡터가 형성됩니다.
하지만 원핫 인코딩은 단어 간의 관계를 표현할 수 없다는 한계가 있습니다. 또한 어휘의 크기와 벡터의 크기가 동일하기 때문에 차원이 매우 높아져 메모리를 많이 차지합니다.
Word2Vec
이러한 문제를 해결하기 위해 의미 정보를 통합한 지식 표현 시스템이 등장하기 시작했습니다. 이는 2003년 벤지오 교수의 '신경 확률론적 언어 모델' 논문에서 시작되었으며, 10년 후 발표된 '벡터 공간에서 단어 표현의 효율적인 추정' 논문에서 가장 대표적인 예로 Word2Vec을 들 수 있습니다. 이 연구는 '단어의 의미를 반영하면서 밀도가 높은 실수 벡터 공간에 단어를 매핑하는 것'을 목표로 진행되었습니다. 비슷한 단어들이 벡터 공간에서 가까운 거리에 분포하도록 학습하는 패러다임입니다. 이 패러다임에 기반해 글러브, 패스트텍스트 등 다양한 연구가 진행되었습니다.
안타깝게도 이 방법에는 문맥을 이해할 수 없다는 한계가 있습니다. 예를 들어 두 문장을 생각해 봅시다: '열쇠를 또 잃어버렸다는 생각은 견딜 수 없다'와 '우리 오두막 뒤 숲에 곰이 있다'라는 문장을 예로 들어 보겠습니다. 컴퓨터가 이해할 수 있는 지식 표현 시스템에서 이러한 문장을 표현하려면 고차원 벡터로 변환해야 합니다. Word2Vec을 기반으로 이 문장을 표현할 때, 두 문장 모두에서 '곰'이라는 단어가 동일한 벡터로 표현되는 것을 발견했습니다. 이것이 왜 문제가 될까요? '열쇠를 또 잃어버릴 생각을 하니 견딜 수가 없다'의 '곰'은 시련이나 어려움을 견디는 것을 의미하는 동사이고, '우리 오두막 뒤 숲에 곰이 있다'의 다른 '곰'은 큰 털을 가진 포유동물을 의미합니다. 즉, 같은 단어가 다른 의미를 가지고 있는 것입니다.
따라서 문맥을 이해하고 동음이의어를 다양한 고차원 벡터로 표현하는 시스템이 필요합니다. 이를 통해 단순한 의미를 넘어 문맥까지 고려하는 언어 지식 표현 시스템을 구현할 수 있으며, 이는 보다 진보된 자연어 처리 모델의 개발로 이어집니다. 이에 따라 ' 문맥 정보가 포함된 지식 표현 시스템'에 대한 연구가 시작되었고, ELMo(언어 모델로부터의 임베딩)를 소개한 논문 '심층 문맥화된 단어 표현'을 시작으로 '문맥 정보가 포함된 지식 표현 시스템'에 대한 연구가 활발히 진행되었습니다.
ELMo
ELMo는 사전 학습과 양방향 학습이라는 두 가지 주요 패러다임을 가져왔습니다. ELMo는 사전 학습된 언어 모델을 기반으로 특정 작업을 미세 조정하는 기술을 크게 응용한 연구입니다. 이것이 바로 자연어 처리 분야에 종사하는 사람들에게 익숙한 사전 학습-미세 조정 접근 방식입니다. 형태소 분석, 구문 분석, 문서 요약, 기계 번역과 같은 자연어 처리의 하위 분야는 모두 언어를 다룹니다. 간단히 말해, 문맥 정보를 통합하는 정교하게 개발된 언어 모델이 존재하고 이를 효과적으로 사용하면 자연어 처리의 다양한 하위 분야에서 성능이 자연스럽게 향상될 수 있습니다. 즉, 컴퓨터에게 문맥 인식 지식 표현 시스템을 가르치기 위한 사전 학습을 실시한 다음 작업별 데이터로 이 시스템을 미세 조정함으로써 모델의 성능을 본질적으로 향상시키는 패러다임을 구축할 수 있습니다.
둘째, 양방향 학습 또는 biLM(양방향 언어 모델)은 문맥을 이해하기 위해 정방향(문장의 시작부터 끝까지) 및 역방향(끝에서 시작까지) 학습을 모두 포함합니다. 이 접근 방식은 정방향 언어 모델과 역방향 언어 모델을 동시에 학습하고, 그 결과물을 연결함으로써 보다 부드럽고 효과적인 언어 표현을 가능하게 합니다.
하지만 단순히 포워드 언어 모델과 리버스 언어 모델을 결합한 ELMo는 진정한 '양방향 언어 모델'이 아니었고, LSTM을 기반으로 하기 때문에 몇 가지 내재적인 한계가 있었습니다.
트랜스포머 기반 언어 모델의 등장
ELMo 이후 트랜스포머 기반 언어 모델의 시대가 열렸습니다. 특히 OpenAI의 GPT와 Google의 BERT가 등장했습니다. GPT는 트랜스포머 디코더를 기반으로 하고, BERT는 트랜스포머 인코더를 기반으로 합니다. 자연어 처리는 자연어 이해와 자연어 생성으로 나눌 수 있는데, 인코더는 이해를 위한 것이고 디코더는 생성을 위한 것입니다.
언어 표현 측면에서 BERT는 입력 문장에서 임의의 토큰을 마스킹하고 해당 토큰이 무엇인지 예측하는 마스크드 언어 모델(MLM) 접근 방식을 사용하여 학습합니다.
학습 데이터의 경우, 15%만 간단한 마스킹이 필요하므로 별도의 라벨링 프로세스가 필요하지 않습니다. 따라서 광범위한 데이터 세트를 사용한 사전 학습이 가능합니다. 따라서 MLM을 활용한 대규모 사전 훈련과 진정한 양방향 학습을 통해 모델은 더욱 정교한 언어 표현 시스템을 개발할 수 있습니다. 두 개의 단방향 모델을 병합하여 양방향 종속성을 해결한 ELMo와 달리, BERT는 단일 프레임워크 내에서 두 가지 종속성을 모두 학습하는 진정한 양방향 모델이라는 점이 특징입니다.
반면, GPT는 앞의 단어 순서를 기반으로 다음 단어를 예측하기 때문에 자연어 생성 기반 모델이라고 이해하면 더 쉽습니다. GPT 모델의 크기와 학습 데이터는 GPT2, GPT3를 거쳐 현재의 GPT4에 이르기까지 점차적으로 증가해 왔습니다.
BERT와 GPT가 우위를 점한 이후에는 다양한 연구가 확산되는 시대가 도래했습니다. 이 시기에는 크게 두 가지 방향이 있었습니다. 첫 번째는 '모델의 크기를 키우는 것'이고, 두 번째는 '크기를 키우는 대신 약점을 보완하거나 실제 서비스에 사용할 수 있을 만큼 가볍게 만드는 것'입니다. 첫 번째 방향의 결실은 ChatGPT, GPT-4, HyperClova와 같은 모델로서 대규모 언어 모델(LLM) 시대로 우리를 이끌고 있습니다.
두 번째 방향의 대표적인 모델로는 ALBERT, Linformer, Performer 등이 있으며, 정량화, 증류, 가지치기에 대한 연구도 진행 중입니다. 또한 언어 모델에 인간의 기본적인 상식적 지식이 부족하다는 비판(예: 한국에서 미국까지 걸어갈 수 있느냐는 질문에 걸어갈 수 있다고 응답)이 제기되면서 기호적 지식 정보를 신경망에 통합하는 신경 기호 연구도 많이 진행되었습니다. 이 두 가지 방향은 LLM 시대에도 비슷한 경향을 보이고 있습니다.
LLM 시대의 필수 요소
우리는 이제 대규모 언어 모델(LLM)의 시대에 살고 있습니다. LLM을 만들려면 네 가지 핵심 요소가 필요합니다. 첫째, '인프라 '가 중요합니다. 여기에는 대규모 클라우드 컴퓨팅, 슈퍼컴퓨터, 데이터 센터가 포함됩니다. 즉, LLM을 위한 하드웨어와 이를 지원할 수 있는 운영 환경이 필요합니다. 이는 비즈니스 패러다임이 AI와 클라우드 컴퓨팅으로 전환되고 있음을 시사합니다.
둘째, '백본 모델'입니다. 예를 들어, ChatGPT는 GPT 3.5를 기반으로 학습되었으며, 곧 출시될 HyperClova X와 SearchGPT는 HyperClova를 기반으로 하는 것으로 알려져 있습니다.
세 번째 요소는 튜닝 기술입니다. 여기에는 비용 효율성을 위한 다양한 튜닝 기술이 포함됩니다. 가장 큰 문제는 '어떻게 하면 경량화할 수 있는가'입니다. 여기서 매트릭스 연산 최적화를 위한 반도체 기술이 중요해집니다. 최근 네이버와 삼성전자의 MOU는 반도체 기술의 중요성을 강조하고 있고, 엔비디아의 주가 급등도 마찬가지입니다.
마지막으로 중요한 것은 고품질의 풍부한 학습 데이터입니다. 여기에는 백본 모델 학습을 위한 인스트럭션 데이터, 휴먼 피드백 데이터, 대규모 데이터 등이 포함됩니다.
이 네 가지 요소를 바탕으로 다양한 기업들이 경쟁적으로 자연어처리 모델을 개발하고 있습니다. 모델과 데이터 세트가 성장하고 정교해짐에 따라 언어에 대한 지식 표현 시스템이 상상을 초월할 정도로 향상되어 모델에 다양한 기능이 등장하고 있습니다.
결론적으로 언어 모델(LM)은 '언어'를 컴퓨터가 이해할 수 있는 시스템으로 '모델링'하는 것입니다. 원핫 인코딩부터 현재의 GPT4에 이르기까지 자연어 처리 기반 언어 모델의 역사를 이해하면 전체적인 역사를 파악하는 데 도움이 됩니다.
인간을 정의하는 데이터 관점
첫 번째 섹션에서 자연어 처리의 정의와 두 번째 섹션에서 언어 모델 기반 자연어 처리의 흐름을 살펴본 후, 이제 데이터 중심 AI 관점에서 자연어 처리의 역사를 살펴보기로 합니다.
인공지능의 역사를 인간과 데이터의 관계적 관점에서 재해석하기 전에, 규칙 기반 시대부터 LLM 시대까지 인간과 데이터는 떼려야 뗄 수 없는 관계였다는 점을 강조하고 싶습니다.
데이터 관점에서 인간에 대한 정의는 두 가지 범주로 나눌 수 있습니다. 첫 번째는 '전문가'이고 두 번째는 '대중'입니다. 여기에는 모든 사람이 포함됩니다. 이 두 가지 인간에 대한 정의가 AI 데이터의 역사를 이끌어 왔습니다.
규칙 기반 자연어 처리: '전문가'의 시대
규칙 기반 시대는 '전문가'의 시대였습니다. 이 시기에는 언어학자의 역할이 매우 중요했습니다. 형태소 분석, 구문 분석, 워드넷은 언어 전문가만이 기여할 수 있는 영역이었습니다. 이 시대에는 언어적 지식을 바탕으로 데이터를 표현해야 했기 때문에 전문성이 매우 중요했습니다.
통계 기반 자연어 처리에서 머신 러닝과 딥 러닝의 시대로: '대중'의 시대
반면 통계 기반의 자연어 처리, 머신 러닝, 딥 러닝의 시대는 데이터 관점에서 보면 '대중의 시대'였습니다. 간단히 말해, 이 시대에서 우리의 역할은 매우 중요했습니다. 대부분의 독자들이 알고 있듯이 GPU, 알고리즘(오픈소스), 빅데이터의 융합은 딥러닝을 가속화했습니다. 이 중 빅데이터는 사실 우리가 만든 것입니다. 위키피디아의 텍스트, 네이버 블로그, 카페, 지식iN(한국의 쿼라?) 등 수많은 웹페이지에서 우리는 무의식적으로 데이터를 생성하고 있었습니다. 이 방대한 양의 데이터는 딥러닝으로 전환하기 전까지 통계 기반 방법론이 지배할 수 있는 토대를 마련했습니다.
프리트레인-파인튜닝의 시대: '대중' + '전문가'의 시대
딥러닝의 중반기에 접어들면서 프리트레인-파인튜닝 기법이 대중화되었습니다. 이 시대는 전문가와 일반 대중이 공존하는 시대였습니다. 이름에서 알 수 있듯이 프리트레이닝은 예비 학습입니다. 프리트레이닝의 경우 일반 대중이 만든 위키백과와 같은 대규모 말뭉치를 기반으로 학습을 진행합니다. 그런 다음 이 사전 학습 모델은 형태소 분석, 구문 분석, 문서 요약 등 사용자가 원하는 특정 작업에 맞게 미세 조정됩니다. 이 미세 조정 과정에서도 전문가가 만든 데이터는 여전히 사용됩니다.
프리트레인-파인튜닝 기법의 등장으로 데이터의 역할은 자연스럽게 여러 작업을 동시에 객관적으로 평가할 수 있는 시스템으로 진화했습니다. 이것이 바로 벤치마크 데이터입니다. 이 시기에 한국의 KLUE, 미국의 GLUE, SuperGLUE, SQUAD와 같은 벤치마크 데이터셋이 등장하기 시작했습니다. 따라서 효과적인 평가가 가능한 데이터의 시대가 도래하면서 전문가와 대중이 모두 기여한 시기라고 볼 수 있습니다. 앞서 언급한 두 가지 유형의 사람들이 공존했던 시기였습니다.
뉴럴 심볼의 시대: '전문가'의 시대
이 시기에 뉴럴 심볼릭이라는 패러다임도 등장했습니다. 딥러닝 모델의 대표적인 단점으로는 상식적인 지식이 부족하고 추론 능력이 제한적이며 해석 능력이 부족하다는 점을 들 수 있습니다. 앞서 언급했듯이 한국에서 뉴욕까지 걸어서 갈 수 없고, 비행기나 배를 이용해야 한다는 점을 예로 들 수 있습니다. 뉴욕에는 맨해튼이 있는데, 이러한 상식적인 정보가 딥러닝 모델에는 없습니다. 뉴럴 심볼릭은 이러한 상식적인 정보를 지식 그래프 형태로 구축하여 딥러닝 모델에 주입하는 것입니다. 이러한 유형의 데이터는 진정으로 전문가의 영역에 속합니다. 예를 들어 '모나리자는 다빈치가 그렸으며 현재 루브르 박물관에 소장되어 있다'와 같은 상식적인 정보로 그래프 데이터를 생성하는 것이죠.
대규모 언어 모델의 시대 1부 - '대중'의 '무의식적' 데이터 생성 시대
그 후 대규모 모델과 빅데이터로 학습된 대규모 언어 모델(LLM)의 시대가 열렸습니다. 잘 알려진 예로는 GPT3, HyperClova 등이 있습니다. 모델과 데이터의 확장을 통해 빅 모델이 놀라울 정도로 다양한 작업을 처리할 수 있는 시대가 열렸습니다. 이전의 사전 학습-미세 조정 방식과 달리, 이제는 미세 조정 없이도 단일 모델로 다양한 작업을 처리할 수 있는 시대가 도래했습니다.
데이터 관점에서 이 시대를 어떻게 정의할 수 있을까요? 대표적인 예로 하이퍼 클로바의 학습 데이터를 살펴보면 네이버 블로그, 네이버 카페, 네이버 뉴스, 네이버 지식iN 등의 데이터가 포함되어 있습니다. 결국 우리가 만든 방대한 데이터에 대한 학습을 통해 LLM의 시대도 발전한 것이죠. 즉, 우리는 무의식중에 인공지능 학습을 위한 데이터를 지속적으로 생성해 온 것입니다.
대규모 언어 모델의 시대 2부 - '대중의' '의식적인' 데이터 생성의 시대
LLM 시대에 가장 혁신적인 제품은 많은 분들이 아시다시피 'ChatGPT'입니다. ChatGPT 시대의 핵심은 전문가가 아닌 우리 모두가 참여하는 '휴먼 피드백 데이터'입니다.
앞서 LLM의 시대는 무의식적인 데이터 생성이 특징이었다고 말씀드렸습니다. 하지만 ChatGPT를 통해 우리는 직접 피드백을 제공함으로써 '의식적인 데이터'를 만들어내는 시대에 접어들었습니다. 즉, 데이터 제작자의 역할이 더 이상 전문가만의 전유물이 아닌, 우리 모두가 AI 모델 개발에 참여할 수 있게 된 것입니다. 우리는 '모두를 위한 데이터' 시대에 살고 있습니다. 우리가 의식적으로 피드백을 제공하면 ChatGPT는 사람의 글과 유사한 텍스트를 생성할 수 있습니다.
지금까지 살펴본 AI의 역사는 전적으로 데이터의 관점에서 살펴본 것입니다. 저는 '규칙 기반 시대부터 사람과 데이터의 관계는 필수 불가결한 요소였으며, 앞으로 데이터에서 인간의 역할은 더욱 중요해질 것'이라는 점을 강조하고 싶습니다.
결론적으로
ChatGPT와 같은 LLM이 화제가 되는 이유는 무엇인가요? 개인적으로는 연구적 영향력과 세계적 영향력(패러다임의 전환)이 동시에 발생한 유일한 사례 중 하나가 아닐까 생각합니다. 연구적 영향력은 기술적 패러다임의 전환을 의미하고, 세계적 영향력은 전 세계 모든 사람이 체감할 수 있는 사건을 말합니다. 딥러닝이 등장한 이후 자연어 처리 분야에서 가장 큰 연구적 영향을 미친 것은 'Word2Vec', '트랜스포머(주의)', '인간 피드백을 통한 강화 학습(RLHF)'이었습니다. Word2Vec은 언어의 지식 표현 시스템에 혁명을 일으켰습니다. 트랜스포머는 어텐션으로 CNN과 RNN의 기술을 뒤집었고, RLHF는 확률 기반 생성 방식에서 강화학습 기반 생성 방식으로 패러다임을 전환했습니다. 이 RLHF가 바로 ChatGPT에 적용된 기술입니다.
전 세계에 미친 영향력 측면에서 세 가지를 꼽으라면 IBM 왓슨, 알파고, ChatGPT입니다. IBM 왓슨은 퀴즈쇼에서 우승한 최초의 인공지능이고, 알파고는 이세돌 9단과의 바둑 대결에서 승리한 것으로 유명하며, ChatGPT는 월간 사용자 수가 1억 명을 돌파했습니다. 따라서 ChatGPT는 연구와 전 세계에 미치는 영향력을 함께 가져왔다는 점에서 특히 의미가 있습니다.
ChatGPT의 핵심은 사람의 피드백 데이터, 즉 양질의 데이터입니다. 향후 AI 기업의 핵심 역량은 양질의 데이터를 확보하고 있느냐가 될 것입니다. 기업에서 AI 비즈니스를 진행할 때 데이터를 쉽게 확보할 수 있는 구조를 가지고 있는지, 더 나아가 양질의 데이터를 만들어낼 수 있는 프로세스를 가지고 있는지가 중요하게 고려될 것입니다.
ChatGPT의 영향으로 다양한 새로운 수익 모델이 등장할 것이며, 그중에서도 구독 기반의 AI 비즈니스 모델이 각광받을 것으로 예상합니다. 여기서 중요한 점은 데이터가 아닌 모델을 구독하는 시대로 접어들고 있다는 점입니다. 좋은 데이터가 경쟁력이 되고 개인정보 문제 등 다양한 정책을 고려해야 하기 때문에 데이터를 공유하는 것은 기업에게 부담이 될 수 있기 때문에 좋은 데이터를 만들어 모델로 공유하는 AIaaS(서비스로서의 인공지능) 시대가 올 것으로 예상합니다. 광고 패러다임도 변화할 것입니다. 직간접적인 광고를 넘어, 생성된 광고를 통해 수익을 창출하는 시대가 올 수도 있습니다.
궁극적으로 기업 내 데이터 팀을 확보하는 것이 경쟁 우위가 될 것입니다. 모델과 데이터 모두에서 탁월할 뿐만 아니라 이 두 가지를 균형 있게 조화시키는 것이 기업의 생존을 위한 핵심이 될 것입니다. 새로운 수익 모델의 등장, 명확한 방향성, 새로운 직업군의 등장은 모두 데이터가 AI 시대의 중심에 있음을 시사합니다. '코드 인 SW 아웃'의 SW 1.0 패러다임에서 '데이터 인 SW 아웃'의 SW 2.0 시대로 넘어간 것처럼 말이죠. 이 글이 많은 분들에게 도움이 되길 바라며, 이 글의 핵심을 강조하며 마무리하겠습니다: DATA! DATA! DATA!