본문 바로가기

attention3

[Transformer 정리] 02. 트랜스포머 기본 구조 트랜스포머는 인코더와 디코더 두 부분으로 구성되어 있으며, 각각 N개의 트랜스포머 블록(Transformer Block)으로 구성된다. 이 블록은 멀티 헤드 어텐션(Multi-Head Attention)과 순방향 신경망(Feed Forward)으로 이루어져있다.이제 각각을 간단하게 살펴보자.Multi-Head Attention입력 시퀀스에서 쿼리(Query), 키(Key), rkqt(Value) 벡터를 정의하여 입력 시퀀스들의 관계를 셀프 어텐션(Self Attention)하는 벡터 표현 방법이다. 이 과정에서 쿼리와 각 키의 유사도를 계산하고, 해당 유사도를 가중치로 사용하여 값 벡터를 합산한다. → 해당 과정에서 생산된 어텐션 행렬은 각 단어의 임베딩 벡터를 대체하는 것이다. # Q, K, V란?Qu.. 2025. 1. 13.
[Paper list] Attention Paper List 목표 : Attention 기법 정리논문 리뷰를 하면서 레퍼런스 통해 읽고 싶은 논문들 계속 업데이트 할 예정Attention, Transformer→ 현재 Attention 매커니즘은 NLP, CV, 멀티모달 등 다양한 분야에서 핵심 기술로 자리를 잡았다. 따라서 방학동안 관련한 논문들을 리뷰하며 Attention 매커니즘에 중점을 두고 개념을 확립하는 시간을 갖고자 한다.우선,(1) 트랜스포머 개념 정리(2) Attention 기법을 분류하여 paper Review논문명분류Transformers: Attention Is All You Need(2017)Attention 기초FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awaren.. 2024. 12. 2.
[논문 리뷰] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (2015) 논문명: Neural Machine Translation by Jointly Learning to Align and Translate저자: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio출간지: ICLR 2015발간일: 2016.05 I. Introduction본 논문에서는 정렬과 번역을 공동 학습하는 encoder-decoder 구조를 통해 이전 접근법보다 번역 성능을 크게 향상시키는 것을 보여준다.  Background과거의 Machine Translation은 다양한 sub component로 구성되어 있었고 각 component는 각각 학습되고 구성되었다. 이후로는 하나의 큰 neural network를 이용한 translation이 제안되었다. Neural M.. 2024. 8. 13.