본문 바로가기
Paper Review/Deep Learning

[논문 리뷰] Pre-trained Models for Natural Language Processing: A Survey(2020) [1]

by je0nsye0n 2024. 8. 16.
논문명: Pre-trained Models for Natural Language Processing: A Survey
저자: Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai & Xuanjing Huang
출간지: SCIENCE CHINA Technological Sciences
발간일: 23 Jun 2021

 

NLP 모델을 공부하면서 Pre-trained 모델 논문을 읽어보기 이전, 관련한 survey paper를 읽고서 공부하는 것이 더 좋을것이라 판단이 되어 해당 논문을 리뷰하게 되었다. 본 포스팅에서는 NLP의 발전 과정과 PMT에 대한 간략한 소개 위주로 진행 된다. 입문하는 사람들이 읽기에 좋은 논문이라고 생각한다. Survey 논문인 만큼 내용을 자세하게 다루어보고자 한다.


 

I. Introduction

Deep Learning의 등장으로 다양한 신경망들이 NLP tasks를 해결하기 위해 사용되어 왔다. (CNN, RNN, GNN, Attention machnism) 성능적인 측면에서 NLP가 CV(Computer Vision)보다 떨어지는 것을 볼 수 있는데, 이는 CV에 비해 datasets이 작기 때문이다. 신경망은 파라미터 수가 매우 많으므로, 적은 datasets을 이용하면 과적합을 초래할 수 있다. 따라서, 초기 NLP 모델들은 layer가 얕은 모습을 확인할 수 있다. 최근 연구에 따르면, 대규모 코퍼스를 기반으로 Pre-trained model(PTM)이 보편적인 언어 표현을 학습할 수 있게 되었다. 또한, 계산 능력의 발전과 심층 모델(Transformer)의 등장으로 PTM 구조가 얕은 구조에서 깊은 구조로 발전해왔다. 

 

따라서, 본 survey paper에서는 NLP를 위한 PTM에 대한 포괄적인 리뷰와 기존 PTM의 한계를 논의하고 분석하며 가능한 미래 연구 방향을 제안한다.

 

II. Background

2.1 Language Representation Learning

언어 표현 학습에서는 좋은 언어 표현이란 특정 작업에 종속되지 않고 다양한 AI 작업을 해결하는데 유용한 일반적인 언어 규칙과 상싱적인 지식을 포착해야 한다고 주장한다. 이러한 표현은 텍스트 데이터를 통해 어휘적 의미, 구문 구조, 의미적 역할 등을 이해할 수 있어야 한다. 언어를 저차원 실수 벡터로 표현하는 분산 표현(distributed representation) 개념이 도입되었으며, 두 가지 종류의 단어 임베딩(문맥 비의존적 임베딩과 문맥 의존적 임베딩)이 설명된다.

- 임베딩 : 사람이 쓰는 자연어를 기계가 이해할 수 있는 벡터의 형태로 바꾸는 것

- 문맥 비의존적 임베딩 : 단어의 문맥에 관계없이 고정된 벡터로 표현되며, 다의어 문제와 어휘 범위 외 문제를 겪는다.

- 문맥 의존적 임베딩 : 문맥에 따라 단어의 의미를 다르게 표현할 수 있음

 

2.2 Neural Contextual Encoders

문맥적 인코더는 크게 두 가지로 나뉜다 : 순차적 모델 / 비순차적 모델

  • 순차적 모델(Sequence Model)

단어의 로컬 문맥을 순차적으로 포착하며, CNN과 RNN(LSTM, GRU)등이 대표적이다. 이들은 단어 간의 짧은 거리의 문맥을 잘 캡쳐하지만, 장거리 의존성을 다루는데는 한계가 있다.

  • 비순차적 모델(Non-sequence Model)

사전 정의된 트리 또는 그래프 구조(구문 구조, 의미적 관계)를 사용하여 문맥 표현을 학습하며, Recursive NN, TreeLSTM, GCN 등이 여기에 포함된다. 하지만 이 구조는 전문가 지식이나 외부 NLP 도구에 의존해야 한다는 어려움이 있다.

 

- Fully-Connected Self-Attention Model : 단어들 간의 관계를 학습하는 보다 직접적인 방법으로, Transformer 모델이 대표적이다. 이 모델은 단어 간의 장거리 의존성을 효과적으로 포착할 수 있으나, 구조가 복잡하고 대규모의 학습 데이터가 필요하다.

 

2.3 Why Pre-training?

딥러닝의 발전으로 모델의 파라미터 수가 급격히 증가했으며, 모델이 과적합(overfitting)되지 않도록 충분한 대규모 데이터셋이 필요하게 되었다. 그러나 레이블이 있는 대규모 데이터셋을 구축하는 것은 비용이 많이 들기 때문에, 레이블이 없는 대규모 텍스트 데이터를 활용하여 사전 학습을 통해 좋은 표현을 학습한 후, 이를 다른 작업에 사용할 수 있다. 사전 학습의 주요 장점은 보편적인 언어 표현을 학습하여 하위 작업에 도움을 줄 수 있고, 모델 초기화를 더 잘 수행하여 일반화 성능을 향상시키며, 소규모 데이터셋에서 과적합을 방지하는 규제 효과가 있다는 것이다.

추가적으로 Pre-training에 대한 개념 이해를 위해 따로 찾아보아 공부하였다.

사전 훈련(Pre-training)이란 개념은 NLP 분야에 한정된 것이 아니라, 다양한 분야에서 쓰이고 있는 단어다. 사전 훈련과 함께 등장하는 개념은 전이 학습(Transfer Learning)으로, 전이 학습의 개념은 하나의 문제를 푸는 동안 지식을 저장하는데 초점을 두고, 다르지만 연관된 문제를 푸는데 그 지식을 활용하는 것이다. 

쉬운 이야기로 비유하자면, 어떤 모델이 차를 인식하는 것을 학습했다면 그것을 가지고 트럭을 인식하는 것에 적용할 수 있다는 의미이다. 즉, 차를 인식하는 문제를 푸는 모델을 사전에 훈련(pre-train)시키고, 훈련된 모델을 가지고 다르지만 비슷한 문제인 '트럭을 인식하는 문제'를 푸는데 사용하는 것이다. - 가장 쉽게 이해할 수 있는 예제

- 사전 훈련된 워드 임베딩이란, 처음부터 데이터를 가지고 학습하는 것이 아니라 방대한 학습 데이터를 가지고 임베딩 알고리즘으로 이미 학습되어 있는 임베딩 벡터들을 가져와서 사용하는 방법이다.

출처: https://hyen4110.tistory.com/45

 

 

2.4 A Brief History of PTMs for NLP

Pre-trained 모델은 딥러닝의 초기 단계부터 효과적인 전략으로 사용되었다.

  • First-Generation PTMs _ Pre-trained Word Embeddings : 첫 세대 PTM은 단어 임베딩을 사전 학습하여 하위 작업에 사용되었으며, 대표적인 예로 Word2Vec과 GloVe가 있다. 이러한 임베딩은 문맥과 무관하게 고정된 벡터로 표현되었지만, 문맥 의존적인 표현이 부족하다는 한계가 있었다.
  • Second-Generation PTMs _ Pre-trained Contextual Encoders : 두 번째 세대는 문맥 의존적 인코더를 사전 학습하기 시작했다. 이들은 더 깊은 신경망 구조와 대규모 코퍼스를 활용하여 더 강력한 언어 표현을 학습할 수 있었고, 이후 하위 작업에 맞게 미세 조정(fine tuning)하는 방식이 주류로 자리 잡았다. 해당 세대에는 ELMo, GPT, BERT와 같은 모델들이 해당된다.

 

III. Overview of PTMs

본 절에서는 Pre-training tasks와 PTM 모델 분류 방법에 대해서 다룬다.

 

3.1 Pre-training tasks

Pre-training tasts는 언어의 보편적 표현을 학습하는데 중요하다.

 

  • Language Modeling (LM)

- 언어 모델링(LM)주어진 단어나 문장이 자연스러운지, 또는 다음에 올 단어가 무엇인지를 예측하는 과제를 의미한다. 이는 NLP에서 가장 기본적인 과제 중 하나로, 확률적으로 다음에 올 단어의 가능성을 계산하는 확률적 언어 모델로 알려져 있다.

- 언어 모델은 텍스트 데이터에서 학습하여 특정 문맥에서 가장 가능성 높은 단어 또는 문장을 생성하는데 사용된다. 예를 들어, "나는 사과를"이라는 문장이 주어졌을 때, 다음에 올 단어로 "먹는다"가 나올 확률을 계산하는 것이 언어 모델링이다.

- GPT 시리즈 같은 Auto-Regressive (자기 회귀적) 모델은 이전의 모든 단어를 기반으로 다음 단어를 예측하는 형태의 언어 모델링을 수행한다.

 

  • Masked Language Modeling(MLM)

- 마스킹 언어 모델링(MLM)은 텍스트에서 특정 단어를 무작위로 선택하여 마스킹(가려진)하고, 이 마스킹된 단어를 예측하는 작업을 의미한다. 

- BERT와 같은 모델이 이방식을 사용하는데, 예를 들어 문장에서 "나는 [MASK]를 먹는다"라는 형태로 마스킹된 단어를 예측하는 것이다. 이 방법은 문장의 앞뒤 문맥을 모두 고려하여 단어를 예측하도록 학습시킬 수 있어 양방향 문맥 이해를 가능하게 한다.

MLM은 BERT가 문맥 이해 능력을 높이는데 중요한 역할을 한다.

 

  • Permuted Language Modeling(PLM)

- 주어진 문장에서 단어의 순서를 무작위로 바꾼 후, 이 순서대로 단어를 예측하는 과제이다. 단방향의 자기 회귀 모델과 달리 다양한 순서로 문맥을 학습하여 더 일반화된 언어 모델을 만들 수 있게 한다.

- XLNet이 이 방식을 사용하며, 이 모델은 문장의 단어 순서를 다양하게 섞어 여러 패턴으로 하습하며 이를 통해 단방향 및 양방향 문맥 모두에서 학습할 수 있다.

 

  • Denoising Autoencoder (DAE)

- 디노이징 오토인코더(DAE)는 손상된 입력 데이터를 원래 상태로 복원하는 것을 목표로 하는 신경망 구조이다. 이를 통해 모델이 데이터의 중요한 특징을 학습하고, 잡음을 제거하는 능력을 갖추게 된다. DAE는 텍스트의 본래 의미를 복원하는 능력을 강화하며, 기계 번역, 문서 요약 등의 작업에서 유용하다.

- BARTMASS 같은 모델이 이 방식을 사용하는데, 문장에서 일부 단어나 구절이 삭제되거나 섞였을 때 원래 문장을 복원하는 작업을 통해 모델이 학습된다. 

 

  • Contrastive Learning (CTL)

- 대조 학습(CTL)은 모델이 서로 다른 두 개의 데이터 쌍이 동일한 의미를 갖는지 아닌지를 비교하며 학습하는 방식이다. 이는 주로 positive와 negative를 비교하는 작업으로 이루어진다. 모델이 문장 간의 관계나 순서 등을 이해하는 데 도움을 준다.

- NSP (Next Sentence Prediction)와 SOP (Sentence Order Prediction) 같은 작업이 대표적이다. Others NSP는 두 문장이 연속적으로 이어지는지를 예측하는 작업이고, SOP는 두 문장의 순서를 올바르게 예측하는 작업이다.

 

 

3.2 Taxonomy of PTMs

현재의 PTM(Pre-trained Models) 관계를 명확히 하기 위해, 다음과 같은 분류 체계를 구축하였다.

 

이 분류 체계는 아래 네 가지 관점에서 기존 PTM을 범주화 한다

 

1. 표현 유형 : 하위 작업에 사용되는 표현에 따라, PTM을 비맥락적(non-contextual) 모델과 맥락적(contextual) 모델로 나눌 수 있다.

2. 아키텍처 : PTM이 사용하는 백본 네트워크를 포함하여, LSTM, Transformer 인코더, Transformer 디코더, 그리고 전체 Transformer 아키텍처로 나눌 수 있다. "Transformer"는 표준 인코더-디코더 아키텍처를 의미한다. "Transformer 인코더"와 "Transformer 디코더"는 각각 표준 Transformer 아키텍처의 인코더와 디코더 부분을 의미한다. 이들 차이는 디코더 부분이 미래(오른쪽) 위치에 있는 토큰이 자신을 참조하지 않도록 삼각 행렬을 사용하는 마스킹된 자기 주의를 사용한다는 점이다.

3. 사전 훈련 작업 유형 : PTM이 사용하는 사전 훈련 작업의 유형

4. 확장성 : 다양한 시나리오를 위해 설계된 PTM으로, 지식 강화 PTM, 다국어 또는 언어 특정 PTM, 다중 모델 PTM, 도메인 특정 PTM, 압축된 PTM 등이 포함된다.

 


 

본 포스팅은 해당 논문의 3절까지만 다루었으며, 이후 나머지 절에 대하여 리뷰를 진행하도록 하겠다.

 

https://arxiv.org/abs/2003.08271

 

Pre-trained Models for Natural Language Processing: A Survey

Recently, the emergence of pre-trained models (PTMs) has brought natural language processing (NLP) to a new era. In this survey, we provide a comprehensive review of PTMs for NLP. We first briefly introduce language representation learning and its research

arxiv.org