본문 바로가기
Paper Review/Deep Learning

[논문 리뷰] Pre-trained Models for Natural Language Processing: A Survey(2020) [2]

by je0nsye0n 2024. 8. 23.
논문명: Pre-trained Models for Natural Language Processing: A Survey
저자: Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai & Xuanjing Huang
출간지: SCIENCE CHINA Technological Sciences
발간일: 23 Jun 2021

 

PTM model에 대한 survey 논문 두번째 리뷰 포스팅이다. 이전 포스팅은 아래 링크를 남겨두었다.

PTM에 대한 개념이 정리되어 있지 않다면 아래의 글을 읽고오는 것을 추천한다.

 

2024.08.22 - [AI/Deep Learning] - [Deep Learning] Pre-training이란?(Transfer Learning, Fine tuning)

 

[Deep Learning] Pre-training이란?(Transfer Learning, Fine tuning)

NLP에 대한 논문을 읽던 중, PTM에 대하여 정확하게 개념을 정리하는 것이 좋을 것 같아서 본 포스팅을 작성하게 되었다. 'Pre-training은 전이 학습과 파인 튜닝을 거친다' 라는 큰 틀로만 이해를 했

je0nsye0n.tistory.com


 

IV. Adapting PTMs to Downstream Tasks

본 절에서는 PTM이 knowledge를 다운스트림 작업에 효과적으로 적용하기 위한 방법에 대해 다룬다.

 

[1] Transfer Learning

  • 전이학습(Transfer Learning) : 소스 작업에서 타겟 작업으로 지식을 적응 시키는 것

 

  • Transfer issues

PTM의 knowledge를 downstream task에 전이시키기 위해서 알아야할 issues에 대해서 다룬다.

 

A. 적절한 사전 학습 작업, 모델 아키텍처, 코퍼스 선택하기

각기 다른 PTM들은 다양한 사전 학습 작업, 모델 아키텍처, 코퍼스로 학습되기 때문에 동일한 다운스트림 작업에서도 서로 다른 효과를 나타낼 수 있다.

 

B. 적절한 레이어 선택하기

사전 학습된 모델에서 각 레이어는 POS 태깅, 구문 분석, 장기 의존성, 의미역 역할, 코리퍼런스(지시어)와 같은 다양한 정보를 캡처해야 한다.

 

C. 튜닝

현재 모델 전이의 일반적인 방법은 두 가지가 있다. 특징 추출과 파인 튜닝이다. 특징 추출 방식에서는 사전 학습된 모델이 오프 더 셀프 특징 추출기로 간주된다. 또한, 내부 레이어를 노출하는 것이 중요하다. 내부 레이어는 일반적으로 가장 전이 가능한 표현을 인코딩하기 때문이다.

 

 

[2] Fine-Tuning Strategies

PTM의 깊이가 증가함에 따라 PTM이 포착한 표현이 다운스트림 작업을 더 쉽게 만든다. 따라서 전체 모델의 작업별 레이어는 단순해진다. ULMFit와 BERT 이후로, 파인튜닝은 PTM의 주요 적응 방법이 되었다. 그러나, 파인튜닝은 동일한 하이퍼파라미터 값을 사용해도 다른 랜덤 시드가 다른 결과를 초래할 수 있기 때문에 종종 불안정하다.

아래는 표준 파인튜닝 외에 여러 유용한 파인튜닝 전략에 대해 설명한다.

 

two stage fine tuning : 전이 학습을 두단계로 나누어 처리하는 방식이다.  이는 사전학습과 전이학습 사이에 중간 단계를 도입하는 식으로 볼 수 있다. 첫번째 단계에서는 PTM이 중간 작업이나 코퍼스로 미리 파인튜닝된 모델로 전이된다. 두번째 단계에서는 전이된 모델이 타겟 작업에 맞게 파이튜닝 된다.

② multi-task fine-tuning

③ Fine-tuning with extra adaptation modules : 다운스트림 작업마다 별도의 파인튜닝된 파라미터가 필요하기 때문에 이는 비효율적임을 보여준다. 따라서, 더 나은 해결책은 원래 파라미터를 고정하면서 PTM에 파인튜닝 가능한 적응 모듈을 주입하는 것이다.

 

V. Application

여러 NLP 작업에서 PTM(사전 훈련된 모델)이 어떻게 적용되고 있는지를 요약하면 다음과 같다:

  1. 일반 평가 벤치마크
    PTM의 성능을 비교하기 위한 중요한 문제로, 대규모 벤치마크가 필요하다. GLUE 벤치마크는 아홉 개의 자연어 이해 작업을 포함하며, 모델의 견고성과 일반화 능력을 평가하는 데 사용된다. GLUE 이후에는 더 도전적인 작업을 포함한 SuperGLUE 벤치마크가 도입되었다.
  2. 질문 응답
    질문 응답(QA)은 NLP에서 중요한 응용 분야이다. PTM은 특히 추출적 QA 작업에서 경쟁력 있는 성능을 보여주며, 다양한 QA 모델들이 PTM을 기반으로 설계되고 있다.
  3. 감정 분석
    PTM은 감정 분석에서도 뛰어난 성능을 보이며, 특히 BERT는 기존 모델을 능가하는 성과를 거두고 있다. 세부적인 감정 분석 작업에서는 BERT의 잠재력을 최대한 활용하기 위한 다양한 기법들이 연구되고 있다.
  4. 개체명 인식(NER)
    NER 작업에서 PTM은 중요한 역할을 하며, 특히 BERT와 같은 모델들이 도메인 특화 NER에도 적용되고 있다. PTM을 활용한 NER 모델들이 뛰어난 성능을 보이고 있다.
  5. 기계 번역
    기계 번역(MT)은 NLP에서 중요한 과제로, PTM을 활용해 성능을 크게 개선할 수 있다. PTM을 인코더 또는 디코더로 초기화하여 NMT 모델의 성능을 향상시키는 다양한 연구들이 진행되고 있다.
  6. 요약
    PTM은 요약 작업에서도 큰 발전을 이루었으며, 특히 BERTSUM과 같은 모델은 문서 수준의 인코더를 포함하여 추출적 및 생성적 요약 작업에서 뛰어난 성과를 거두고 있다. PTM을 활용한 요약 모델들이 기존 모델들을 능가하는 성과를 보여주고 있다.

 

VI. Future Directions

본 절에서는 PTM의 발전을 위한 다섯 가지 미래 방향을 제시한다.

 

① PTM의 상한선

- PTM은 아직 최대 성능에 도달하지 않았으며, 더 많은 훈련과 더 큰 데이터셋으로 개선이 가능하다. 하지만 거대한 모델을 훈련하는 데는 높은 비용이 들기 때문에, 더 효율적인 모델 아키텍처와 훈련 기술을 설계하는 것이 중요하다.

 

② 아키텍처 개선

- Transformer는 PTM에 효과적이지만, 계산 복잡성 문제로 긴 시퀀스를 처리하기 어렵다. 이 한계를 극복하기 위해 Transformer를 개선하거나 대체 아키텍처를 탐색해야 한다.

③ 과제 지향적 사전 훈련 및 모델 압축

각 다운스트림 작업에 맞춘 PTM 설계가 필요하다. 모델 압축을 통해 큰 PTM을 저용량 장치나 특정 응용 프로그램에 적용하는 것이 중요하다.

④ 파인튜닝을 넘어선 지식 전이

파인튜닝 외에도 PTM의 지식을 더 효율적으로 전이할 수 있는 방법이 필요하다. 예를 들어, 작은 조정 모듈을 추가하거나 특징 추출, 지식 증류 등을 활용할 수 있다.

⑤ 해석 가능성과 신뢰성

PTM의 복잡성으로 인해 해석이 어렵고, 적대적 공격에 취약하다. PTM의 해석 가능성과 신뢰성을 높이는 연구가 필요하다.

 

 

PTM을 이해하는데 어느 정도 도움이 되었던 것같다. NLP를 위한 PTM에 대해 포괄적인 개요를 다루고 있기 때문에 나와 같이 처음 내용을 접하는 사람들이 읽으면 좋지 않을까 싶다.

 

 

 

https://arxiv.org/abs/2003.08271

 

Pre-trained Models for Natural Language Processing: A Survey

Recently, the emergence of pre-trained models (PTMs) has brought natural language processing (NLP) to a new era. In this survey, we provide a comprehensive review of PTMs for NLP. We first briefly introduce language representation learning and its research

arxiv.org