[Transformer 정리] 01. 개요

트랜스포머(Transformer)는 2017년 코넬 대학의 아시시 바스와니 등의 연구 그룹이 발표한 “Attention is All Yout Need” 논문을 통해 소개된 신경망 아키텍처이다.
특징 : 트랜스포머 모델의 주요 기능 중 하나는 순환 신경망과 같은 순차적 방식이 아닌 병렬로 입력 시퀀스를 처리하는 기능이다. 긴 시퀀스의 경우 트랜스포머 모델을 순환 신경망 모델보다 훨씬 더 빠르고 효율적으로 처리한다.
구조

Q. Sequential Processing이나 Recurrent Connections에 의존하지 않고 입력 토큰 간의 관계를 처리할 수 있는 방법은?

A. Self Attention 기법

트랜스포머 모델 분류

→ 앞으로 소개할 트랜스포머 기반 모델들은 오토 인코딩(Auto-Encoding) 혹은 자기 회귀(Auto-Regressive) 방식 또는 두 개의 조합으로 학습된다.

오토 인코딩	오토 인코딩 입력 데이터를 재구성 (양방향 학습)
자기 회귀	이전 데이터를 기반으로 순차적으로 다음 토큰 예측 (단방향 학습)
혼합 방식	인코딩과 디코딩을 결합하여 복합적 태스크 처리

🚀 1. 오토 인코딩 (Auto-Encoding)

개념: 입력 데이터를 인코더(Encoder)를 통해 잠재 공간(latent space)으로 압축하고, 디코더(Decoder)를 사용해 원래 데이터를 복원하는 방식
주요 목표: 입력 데이터의 구조적 이해 및 재구성
학습 방식: 전체 입력 데이터를 한 번에 처리하며, 주로 양방향(bidirectional) 어텐션을 사용해 문맥 정보를 학습
대표 모델: BERT (Bidirectional Encoder Representations from Transformers)
활용 분야: 문장 분류, 개체명 인식(NER), 감정 분석

예시:

🚀 2. 자기 회귀 (Auto-Regressive)

예시:

🚀 3. 혼합 방식 (Auto-Encoding + Auto-Regressive)

개념: 두 가지 방식을 결합하여 인코딩과 디코딩을 모두 활용하는 형태
주요 목표: 입력 데이터의 복합적인 이해와 생성
학습 방식: 인코더에서 입력을 전체적으로 이해한 뒤, 디코더에서 순차적으로 출력을 생성
대표 모델: T5 (Text-to-Text Transfer Transformer), BART (Bidirectional and Auto-Regressive Transformers)
활용 분야: 문서 요약, 기계 번역, 텍스트 변환

예시:

[Ref] 자연어 처리와 컴퓨터비전 심층학습(위키북스)

[Transformer] C로 Transformer 구현하기 (0)	2025.02.26
Attention is All You Need(Transformer) Pytorch로 구현 (0)	2025.01.14
[Transformer 정리] 03. Positional Encoding과 특수 토큰 (0)	2025.01.13
[Transformer 정리] 02. 트랜스포머 기본 구조 (1)	2025.01.13
[Deep Learning] Pre-training이란?(Transfer Learning, Fine tuning) (0)	2024.08.22