- 트랜스포머(Transformer)는 2017년 코넬 대학의 아시시 바스와니 등의 연구 그룹이 발표한 “Attention is All Yout Need” 논문을 통해 소개된 신경망 아키텍처이다.
- 특징 : 트랜스포머 모델의 주요 기능 중 하나는 순환 신경망과 같은 순차적 방식이 아닌 병렬로 입력 시퀀스를 처리하는 기능이다. 긴 시퀀스의 경우 트랜스포머 모델을 순환 신경망 모델보다 훨씬 더 빠르고 효율적으로 처리한다.
- 구조
Q. Sequential Processing이나 Recurrent Connections에 의존하지 않고 입력 토큰 간의 관계를 처리할 수 있는 방법은?
A. Self Attention 기법
트랜스포머 모델 분류
→ 앞으로 소개할 트랜스포머 기반 모델들은 오토 인코딩(Auto-Encoding) 혹은 자기 회귀(Auto-Regressive) 방식 또는 두 개의 조합으로 학습된다.
오토 인코딩 | 오토 인코딩 입력 데이터를 재구성 (양방향 학습) |
자기 회귀 | 이전 데이터를 기반으로 순차적으로 다음 토큰 예측 (단방향 학습) |
혼합 방식 | 인코딩과 디코딩을 결합하여 복합적 태스크 처리 |
🚀 1. 오토 인코딩 (Auto-Encoding)
- 개념: 입력 데이터를 인코더(Encoder)를 통해 잠재 공간(latent space)으로 압축하고, 디코더(Decoder)를 사용해 원래 데이터를 복원하는 방식
- 주요 목표: 입력 데이터의 구조적 이해 및 재구성
- 학습 방식: 전체 입력 데이터를 한 번에 처리하며, 주로 양방향(bidirectional) 어텐션을 사용해 문맥 정보를 학습
- 대표 모델: BERT (Bidirectional Encoder Representations from Transformers)
- 활용 분야: 문장 분류, 개체명 인식(NER), 감정 분석
예시:
- "The cat sat on the [MASK]."
- 모델은 문맥을 통해 [MASK]가 mat임을 예측
🚀 2. 자기 회귀 (Auto-Regressive)
- 개념: 이전 단어(또는 토큰)를 기반으로 다음 단어를 순차적으로 예측하는 방식
- 주요 목표: 다음 단어 예측 및 텍스트 생성
- 학습 방식: 입력 데이터를 순차적으로 처리하며, 주로 단방향(unidirectional) 어텐션을 사용
- 대표 모델: GPT (Generative Pre-trained Transformer)
- 활용 분야: 텍스트 생성, 대화 모델(Chatbot), 스토리 작성
예시:
- 입력: "Once upon a time,"
- 모델 출력: "there was a young princess who lived in a castle."
🚀 3. 혼합 방식 (Auto-Encoding + Auto-Regressive)
- 개념: 두 가지 방식을 결합하여 인코딩과 디코딩을 모두 활용하는 형태
- 주요 목표: 입력 데이터의 복합적인 이해와 생성
- 학습 방식: 인코더에서 입력을 전체적으로 이해한 뒤, 디코더에서 순차적으로 출력을 생성
- 대표 모델: T5 (Text-to-Text Transfer Transformer), BART (Bidirectional and Auto-Regressive Transformers)
- 활용 분야: 문서 요약, 기계 번역, 텍스트 변환
예시:
- 입력: "Translate the sentence to French: 'Hello, how are you?'"
- 출력: "Bonjour, comment ça va?"
[Ref] 자연어 처리와 컴퓨터비전 심층학습(위키북스)
'AI > Deep Learning' 카테고리의 다른 글
[Transformer] C로 Transformer 구현하기 (0) | 2025.02.26 |
---|---|
Attention is All You Need(Transformer) Pytorch로 구현 (0) | 2025.01.14 |
[Transformer 정리] 03. Positional Encoding과 특수 토큰 (0) | 2025.01.13 |
[Transformer 정리] 02. 트랜스포머 기본 구조 (0) | 2025.01.13 |
[Deep Learning] Pre-training이란?(Transfer Learning, Fine tuning) (0) | 2024.08.22 |