본문 바로가기
AI/Deep Learning

[Transformer 정리] 01. 개요

by je0nsye0n 2024. 12. 26.
  • 트랜스포머(Transformer)는 2017년 코넬 대학의 아시시 바스와니 등의 연구 그룹이 발표한 “Attention is All Yout Need” 논문을 통해 소개된 신경망 아키텍처이다.
  • 특징 : 트랜스포머 모델의 주요 기능 중 하나는 순환 신경망과 같은 순차적 방식이 아닌 병렬로 입력 시퀀스를 처리하는 기능이다. 긴 시퀀스의 경우 트랜스포머 모델을 순환 신경망 모델보다 훨씬 더 빠르고 효율적으로 처리한다.
  • 구조

       Q. Sequential Processing이나 Recurrent Connections에 의존하지 않고 입력 토큰 간의 관계를 처리할 수 있는 방법은?

       A. Self Attention 기법


트랜스포머 모델 분류

→ 앞으로 소개할 트랜스포머 기반 모델들은 오토 인코딩(Auto-Encoding) 혹은 자기 회귀(Auto-Regressive) 방식 또는 두 개의 조합으로 학습된다.

오토 인코딩 오토 인코딩 입력 데이터를 재구성 (양방향 학습)
자기 회귀 이전 데이터를 기반으로 순차적으로 다음 토큰 예측 (단방향 학습)
혼합 방식 인코딩과 디코딩을 결합하여 복합적 태스크 처리

 

🚀 1. 오토 인코딩 (Auto-Encoding)

  • 개념: 입력 데이터를 인코더(Encoder)를 통해 잠재 공간(latent space)으로 압축하고, 디코더(Decoder)를 사용해 원래 데이터를 복원하는 방식
  • 주요 목표: 입력 데이터의 구조적 이해 및 재구성
  • 학습 방식: 전체 입력 데이터를 한 번에 처리하며, 주로 양방향(bidirectional) 어텐션을 사용해 문맥 정보를 학습
  • 대표 모델: BERT (Bidirectional Encoder Representations from Transformers)
  • 활용 분야: 문장 분류, 개체명 인식(NER), 감정 분석

예시:

  • "The cat sat on the [MASK]."
  • 모델은 문맥을 통해 [MASK]가 mat임을 예측

 

🚀 2. 자기 회귀 (Auto-Regressive)

  • 개념: 이전 단어(또는 토큰)를 기반으로 다음 단어를 순차적으로 예측하는 방식
  • 주요 목표: 다음 단어 예측 및 텍스트 생성
  • 학습 방식: 입력 데이터를 순차적으로 처리하며, 주로 단방향(unidirectional) 어텐션을 사용
  • 대표 모델: GPT (Generative Pre-trained Transformer)
  • 활용 분야: 텍스트 생성, 대화 모델(Chatbot), 스토리 작성

예시:

  • 입력: "Once upon a time,"
  • 모델 출력: "there was a young princess who lived in a castle."

 

🚀 3. 혼합 방식 (Auto-Encoding + Auto-Regressive)

  • 개념: 두 가지 방식을 결합하여 인코딩과 디코딩을 모두 활용하는 형태
  • 주요 목표: 입력 데이터의 복합적인 이해와 생성
  • 학습 방식: 인코더에서 입력을 전체적으로 이해한 뒤, 디코더에서 순차적으로 출력을 생성
  • 대표 모델: T5 (Text-to-Text Transfer Transformer), BART (Bidirectional and Auto-Regressive Transformers)
  • 활용 분야: 문서 요약, 기계 번역, 텍스트 변환

예시:

  • 입력: "Translate the sentence to French: 'Hello, how are you?'"
  • 출력: "Bonjour, comment ça va?"

 

[Ref] 자연어 처리와 컴퓨터비전 심층학습(위키북스)